Firebase is back at Cloud Next on April 9 - 11. Register now.

Эта страница переведена с помощью Cloud Translation API.

Генерация текста из мультимодальных подсказок с помощью Gemini API,Создание текста из мультимодальных подсказок с помощью Gemini API

При вызове Gemini API из вашего приложения с помощью Vertex AI in Firebase SDK вы можете предложить модели Gemini сгенерировать текст на основе мультимодального ввода. Мультимодальные подсказки могут включать в себя несколько модальностей (или типов ввода), например текст вместе с изображениями, PDF-файлы, текстовые файлы, видео и аудио.

В каждом мультимодальном запросе вы всегда должны предоставлять следующее:

mimeType файла. Узнайте о поддерживаемых типах MIME каждого входного файла .
Файл. Вы можете предоставить файл как встроенные данные (как показано на этой странице) или использовать его URL-адрес или URI.

Для тестирования и итерации мультимодальных подсказок мы рекомендуем использовать Vertex AI Studio .

Другие варианты работы с Gemini API

При желании поэкспериментируйте с альтернативной версией Gemini API « Google AI ».
Получите бесплатный доступ (в пределах ограничений и там, где это возможно) с помощью Google AI Studio и клиентских SDK Google AI . Эти SDK следует использовать для прототипирования только в мобильных и веб-приложениях.
После того, как вы ознакомитесь с тем, как работает Gemini API , перейдите на наши Vertex AI in Firebase SDK (эта документация), которые имеют множество дополнительных функций, важных для мобильных и веб-приложений, таких как защита API от злоупотреблений с помощью Firebase App Check и поддержка больших медиафайлов в запросах .
При необходимости вызовите серверный Vertex AI Gemini API (например, с помощью Python, Node.js или Go).
Используйте серверные Vertex AI SDK , Firebase Genkit или Firebase Extensions для Gemini API .

Прежде чем начать

Если вы еще этого не сделали, прочтите руководство по началу работы с Vertex AI in Firebase SDK . Убедитесь, что вы выполнили все следующее:

Настройте новый или существующий проект Firebase, включая использование тарифного плана Blaze и включение необходимых API.
Подключите свое приложение к Firebase, включая регистрацию вашего приложения и добавление конфигурации Firebase в ваше приложение.
Добавьте SDK и инициализируйте службу Vertex AI и генеративную модель в своем приложении.

После того как вы подключили свое приложение к Firebase, добавили SDK и инициализировали службу Vertex AI и генеративную модель, вы готовы вызвать Gemini API .

Сгенерировать текст из текста и одного изображения Сгенерировать текст из текста и нескольких изображений Сгенерировать текст из текста и видео

Примеры медиафайлов

Если у вас еще нет медиафайлов, вы можете использовать следующие общедоступные файлы. Поскольку эти файлы хранятся в сегментах, которых нет в вашем проекте Firebase, вам необходимо использовать формат https://storage.googleapis.com/ BUCKET_NAME/PATH/TO/FILE для URL-адреса.

Изображение : https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg с типом MIME image/jpeg . Посмотреть или скачать это изображение.
PDF : https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/2403.05530.pdf с application/pdf . Просмотрите или загрузите этот PDF-файл.
Видео : https://storage.googleapis.com/cloud-samples-data/video/animals.mp4 с типом MIME video/mp4 . Посмотрите или скачайте это видео.
Аудио : https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3 с MIME-типом audio/mp3 . Прослушайте или скачайте это аудио.

Генерация текста из текста и одного изображения

Прежде чем приступать к работе с этим примером, убедитесь, что вы завершили раздел «Перед началом работы» данного руководства.

Вы можете вызвать Gemini API с помощью мультимодальных приглашений, включающих как текст, так и один файл (например, изображение, как показано в этом примере). Для этих вызовов необходимо использовать модель, поддерживающую мультимедиа в подсказках (например, Gemini 2.0 Flash ).

Обязательно ознакомьтесь с требованиями и рекомендациями для входных файлов .

Выберите, хотите ли вы передать ответ в потоковом режиме ( generateContentStream ) или дождаться ответа, пока не будет сгенерирован весь результат ( generateContent ).

Потоковое вещание

Вы можете добиться более быстрого взаимодействия, не дожидаясь получения всего результата от создания модели, а вместо этого используйте потоковую передачу для обработки частичных результатов.

Без потоковой передачи

Альтернативно, вы можете дождаться всего результата вместо потоковой передачи; результат возвращается только после того, как модель завершит весь процесс генерации.

Узнайте, как выбрать модель Gemini и, при необходимости, местоположение, подходящее для вашего варианта использования и приложения.

Генерация текста из текста и нескольких изображений

Вы можете вызвать Gemini API с помощью мультимодальных приглашений, которые включают как текст, так и несколько файлов (например, изображений, как показано в этом примере). Для этих вызовов необходимо использовать модель, поддерживающую мультимедиа в подсказках (например, Gemini 2.0 Flash ).

Обязательно ознакомьтесь с требованиями и рекомендациями для входных файлов .

Потоковое вещание

Без потоковой передачи

В качестве альтернативы вы можете дождаться всего результата вместо потоковой передачи; результат возвращается только после того, как модель завершит весь процесс генерации.

Генерация текста из текста и видео

Вы можете вызвать Gemini API с помощью мультимодальных запросов, которые включают как текстовые, так и видеофайлы (как показано в этом примере). Для этих вызовов необходимо использовать модель, поддерживающую мультимедиа в подсказках (например, Gemini 2.0 Flash ).

Обязательно ознакомьтесь с требованиями и рекомендациями для входных файлов .

Потоковое вещание

Без потоковой передачи

Требования и рекомендации к входным файлам

См. раздел Поддерживаемые входные файлы и требования для Vertex AI Gemini API чтобы узнать следующее:

Различные варианты предоставления файла в запросе
Поддерживаемые типы файлов
Поддерживаемые типы MIME и способы их указания
Требования и рекомендации для файлов и мультимодальных запросов

Важно! Для Vertex AI in Firebase SDK максимальный размер запроса составляет 20 МБ . Вы получаете ошибку HTTP 413, если запрос слишком велик.

Если из-за размера файла общий размер запроса превышает 20 МБ, вам необходимо предоставить файл с помощью URL-адреса (например, с помощью URL-адреса Cloud Storage for Firebase ). Однако если файл небольшой, его часто можно передать напрямую как встроенные данные (как показано в примерах выше). Однако обратите внимание, что файл, предоставленный как встроенные данные, при передаче кодируется в base64, что увеличивает размер запроса.

Что еще вы можете сделать?

Узнайте, как считать токены , прежде чем отправлять модели длинные запросы.
Настройте Cloud Storage for Firebase , чтобы вы могли включать большие файлы в свои мультимодальные запросы и иметь более управляемое решение для предоставления файлов в приглашениях. Файлы могут включать изображения, PDF-файлы, видео и аудио.
Начните думать о подготовке к работе, включая настройку Firebase App Check для защиты Gemini API от злоупотреблений со стороны неавторизованных клиентов.

Попробуйте другие возможности Gemini API

Стройте многоходовые разговоры (чат) .
Генерация текста из текстовых подсказок .
Генерируйте структурированный вывод (например, JSON) как из текстовых, так и из мультимодальных подсказок.
Используйте вызов функций для подключения генеративных моделей к внешним системам и информации.

Узнайте, как контролировать создание контента

Понимание структуры подсказок , включая лучшие практики, стратегии и примеры подсказок.
Настройте параметры модели , такие как температура и токены максимальной мощности.
Используйте настройки безопасности , чтобы настроить вероятность получения ответов, которые могут быть расценены как вредные.

Вы также можете поэкспериментировать с подсказками и конфигурациями модели с помощью Vertex AI Studio .

Узнайте больше о моделях Gemini

Узнайте о моделях, доступных для различных вариантов использования , а также об их квотах и ценах .

Оставьте отзыв о своем опыте использования Vertex AI in Firebase

В каждом мультимодальном запросе вы всегда должны предоставлять следующее:

mimeType файла. Узнайте о поддерживаемых типах MIME каждого входного файла .
Файл. Вы можете предоставить файл как встроенные данные (как показано на этой странице) или использовать его URL-адрес или URI.

Для тестирования и итерации мультимодальных подсказок мы рекомендуем использовать Vertex AI Studio .

Другие варианты работы с Gemini API

При желании поэкспериментируйте с альтернативной версией Gemini API « Google AI ».
Получите бесплатный доступ (в пределах ограничений и там, где это возможно) с помощью Google AI Studio и клиентских SDK Google AI . Эти SDK следует использовать для прототипирования только в мобильных и веб-приложениях.
После того, как вы ознакомитесь с тем, как работает Gemini API , перейдите на наши Vertex AI in Firebase SDK (эта документация), которые имеют множество дополнительных функций, важных для мобильных и веб-приложений, таких как защита API от злоупотреблений с помощью Firebase App Check и поддержка больших медиафайлов в запросах .
При необходимости вызовите серверный Vertex AI Gemini API (например, с помощью Python, Node.js или Go).
Используйте серверные Vertex AI SDK , Firebase Genkit или Firebase Extensions для Gemini API .

Прежде чем начать

Настройте новый или существующий проект Firebase, включая использование тарифного плана Blaze и включение необходимых API.
Подключите свое приложение к Firebase, включая регистрацию вашего приложения и добавление конфигурации Firebase в ваше приложение.
Добавьте SDK и инициализируйте службу Vertex AI и генеративную модель в своем приложении.

Примеры медиафайлов

Изображение : https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg с типом MIME image/jpeg . Посмотреть или скачать это изображение.
PDF : https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/2403.05530.pdf с application/pdf . Просмотрите или загрузите этот PDF-файл.
Видео : https://storage.googleapis.com/cloud-samples-data/video/animals.mp4 с типом MIME video/mp4 . Посмотрите или скачайте это видео.
Аудио : https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3 с MIME-типом audio/mp3 . Прослушайте или скачайте это аудио.

Генерация текста из текста и одного изображения

Обязательно ознакомьтесь с требованиями и рекомендациями для входных файлов .

Потоковое вещание

Без потоковой передачи

Генерация текста из текста и нескольких изображений

Обязательно ознакомьтесь с требованиями и рекомендациями для входных файлов .

Потоковое вещание

Без потоковой передачи

Генерация текста из текста и видео

Обязательно ознакомьтесь с требованиями и рекомендациями для входных файлов .

Потоковое вещание

Без потоковой передачи

Требования и рекомендации к входным файлам

См. раздел Поддерживаемые входные файлы и требования для Vertex AI Gemini API чтобы узнать следующее:

Различные варианты предоставления файла в запросе
Поддерживаемые типы файлов
Поддерживаемые типы MIME и способы их указания
Требования и рекомендации для файлов и мультимодальных запросов

Что еще вы можете сделать?

Узнайте, как считать токены , прежде чем отправлять модели длинные запросы.
Настройте Cloud Storage for Firebase , чтобы вы могли включать большие файлы в свои мультимодальные запросы и иметь более управляемое решение для предоставления файлов в приглашениях. Файлы могут включать изображения, PDF-файлы, видео и аудио.
Начните думать о подготовке к работе, включая настройку Firebase App Check для защиты Gemini API от злоупотреблений со стороны неавторизованных клиентов.

Попробуйте другие возможности Gemini API

Стройте многоходовые разговоры (чат) .
Генерация текста из текстовых подсказок .
Генерируйте структурированный вывод (например, JSON) как из текстовых, так и из мультимодальных подсказок.
Используйте вызов функций для подключения генеративных моделей к внешним системам и информации.

Узнайте, как контролировать создание контента

Понимание структуры подсказок , включая лучшие практики, стратегии и примеры подсказок.
Настройте параметры модели , такие как температура и токены максимальной мощности.
Используйте настройки безопасности , чтобы настроить вероятность получения ответов, которые могут быть расценены как вредные.

Вы также можете поэкспериментировать с подсказками и конфигурациями модели с помощью Vertex AI Studio .

Узнайте больше о моделях Gemini

Узнайте о моделях, доступных для различных вариантов использования , а также об их квотах и ценах .

Оставьте отзыв о своем опыте использования Vertex AI in Firebase