При вызове API Gemini из вашего приложения с помощью Vertex AI для Firebase SDK вы можете предложить модели Gemini сгенерировать текст на основе мультимодальных входных данных. Мультимодальные подсказки могут включать в себя несколько модальностей (или типов ввода), например текст, изображения, PDF-файлы, видео и аудио.
Для тестирования и итерации мультимодальных подсказок мы рекомендуем использовать Vertex AI Studio .
При желании вы можете вызвать API Vertex AI Gemini на стороне сервера, используя серверные SDK Vertex AI или расширения Firebase для API Gemini .
При желании вы можете попробовать альтернативную версию Gemini API «Google AI», которая обеспечивает бесплатный доступ (в пределах ограничений и там, где это возможно) с использованием Google AI Studio и Google AI SDK .
Если вы решите использовать инструменты и сервисы Google AI, а также Firebase, мы рекомендуем следующее:
- Не используйте Google AI Studio и Google AI SDK с проектом Firebase , который используется вашим рабочим приложением .
- Ознакомившись с тем, как работает API Gemini, перейдите на Vertex AI для Firebase SDK , который имеет множество дополнительных функций, важных для мобильных и веб-приложений, например защиту API от злоупотреблений с помощью Firebase App Check .
Прежде чем вы начнете
Если вы еще этого не сделали, ознакомьтесь с руководством по началу работы с Vertex AI для Firebase SDK . Убедитесь, что вы выполнили все следующее:
Настройте новый или существующий проект Firebase, включая использование тарифного плана Blaze и включение необходимых API.
Подключите свое приложение к Firebase, включая регистрацию вашего приложения и добавление конфигурации Firebase в ваше приложение.
Добавьте SDK и инициализируйте службу Vertex AI и генеративную модель в своем приложении.
После того как вы подключили свое приложение к Firebase, добавили SDK и инициализировали службу Vertex AI и генеративную модель, вы готовы вызвать Gemini API.
- Генерация текста из текста и одного изображения
- Генерация текста из текста и нескольких изображений
- Генерация текста из текста и видео
Генерация текста из текста и одного изображения
Прежде чем приступать к работе с этим примером, убедитесь, что вы завершили раздел «Перед началом работы» данного руководства.
Вы можете вызвать Gemini API с помощью мультимодальных приглашений, которые включают в себя как текст, так и один файл (например, изображение, как показано в этом примере). Для этих вызовов вам необходимо использовать модель, поддерживающую мультимодальные подсказки (например, Gemini 1.5 Pro).
Поддерживаемые файлы включают изображения, PDF-файлы, видео, аудио и многое другое. Обязательно ознакомьтесь с требованиями и рекомендациями для входных файлов .
Выберите, хотите ли вы передать ответ в потоковом режиме ( generateContentStream
) или дождаться ответа, пока не будет сгенерирован весь результат ( generateContent
).
Потоковое вещание
Вы можете добиться более быстрого взаимодействия, не дожидаясь получения всего результата от создания модели, а вместо этого используйте потоковую передачу для обработки частичных результатов.
В этом примере показано, как использоватьgenerContentStream generateContentStream()
для потоковой передачи сгенерированного текста из запроса мультимодальной подсказки, который включает текст и одно изображение:
Без потоковой передачи
Альтернативно, вы можете дождаться всего результата вместо потоковой передачи; результат возвращается только после того, как модель завершит весь процесс генерации.
В этом примере показано, как использоватьgenerContent generateContent()
для генерации текста из мультимодального запроса на подсказку, который включает текст и одно изображение:
Узнайте, как выбрать модель Gemini и, при необходимости, местоположение , подходящее для вашего варианта использования и приложения.
Генерация текста из текста и нескольких изображений
Прежде чем приступать к работе с этим примером, убедитесь, что вы завершили раздел «Перед началом работы» данного руководства.
Вы можете вызвать Gemini API с помощью мультимодальных приглашений, которые включают как текст, так и несколько файлов (например, изображений, как показано в этом примере). Для этих вызовов вам необходимо использовать модель, поддерживающую мультимодальные подсказки (например, Gemini 1.5 Pro).
Поддерживаемые файлы включают изображения, PDF-файлы, видео, аудио и многое другое. Обязательно ознакомьтесь с требованиями и рекомендациями для входных файлов .
Выберите, хотите ли вы передать ответ в потоковом режиме ( generateContentStream
) или дождаться ответа, пока не будет сгенерирован весь результат ( generateContent
).
Потоковое вещание
Вы можете добиться более быстрого взаимодействия, не дожидаясь получения всего результата от создания модели, а вместо этого используйте потоковую передачу для обработки частичных результатов.
В этом примере показано, как использовать generateContentStream()
для потоковой передачи сгенерированного текста из запроса мультимодальной подсказки, который включает текст и несколько изображений:
Без потоковой передачи
В качестве альтернативы вы можете дождаться всего результата вместо потоковой передачи; результат возвращается только после того, как модель завершит весь процесс генерации.
В этом примере показано, как использоватьgenerContent generateContent()
для генерации текста из запроса мультимодальной подсказки, который включает текст и несколько изображений:
Узнайте, как выбрать модель Gemini и, при необходимости, местоположение , подходящее для вашего варианта использования и приложения.
Генерация текста из текста и видео
Прежде чем приступать к работе с этим примером, убедитесь, что вы завершили раздел «Перед началом работы» данного руководства.
Вы можете вызвать Gemini API с помощью мультимодальных подсказок, включающих как текст, так и одно видео (как показано в этом примере). Для этих вызовов вам необходимо использовать модель, поддерживающую мультимодальные подсказки (например, Gemini 1.5 Pro).
Обязательно ознакомьтесь с требованиями и рекомендациями для входных файлов .
Выберите, хотите ли вы передать ответ в потоковом режиме ( generateContentStream
) или дождаться ответа, пока не будет сгенерирован весь результат ( generateContent
).
Потоковое вещание
Вы можете добиться более быстрого взаимодействия, не дожидаясь получения всего результата от создания модели, а вместо этого используйте потоковую передачу для обработки частичных результатов.
В этом примере показано, как использоватьgenerContentStream generateContentStream()
для потоковой передачи сгенерированного текста из запроса мультимодальной подсказки, который включает текст и одно видео:
Без потоковой передачи
Альтернативно, вы можете дождаться всего результата вместо потоковой передачи; результат возвращается только после того, как модель завершит весь процесс генерации.
В этом примере показано, как использоватьgenerContent generateContent()
для генерации текста из запроса мультимодальной подсказки, который включает текст и одно видео:
Узнайте, как выбрать модель Gemini и, при необходимости, местоположение , подходящее для вашего варианта использования и приложения.
Требования и рекомендации к входным файлам
Чтобы узнать о поддерживаемых типах файлов, о том, как указать тип MIME и как убедиться, что ваши файлы и мультимодальные запросы соответствуют требованиям и соответствуют передовым практикам, см. раздел Поддерживаемые входные файлы и требования для API Vertex AI Gemini .
Что еще можно сделать?
- Узнайте, как считать токены, прежде чем отправлять модели длинные запросы.
- Настройте Cloud Storage для Firebase , чтобы можно было включать большие файлы в мультимодальные запросы с помощью URL-адресов Cloud Storage. Файлы могут включать изображения, PDF-файлы, видео и аудио.
- Начните думать о подготовке к работе, включая настройку Firebase App Check для защиты Gemini API от злоупотреблений со стороны неавторизованных клиентов.
Попробуйте другие возможности Gemini API
- Стройте многоходовые разговоры (чат) .
- Генерация текста из текстовых подсказок .
- Используйте вызов функций для подключения генеративных моделей к внешним системам и информации.
Узнайте, как контролировать создание контента
- Понимание структуры подсказок , включая лучшие практики, стратегии и примеры подсказок.
- Настройте параметры модели, такие как температура и токены максимальной мощности.
- Используйте настройки безопасности , чтобы настроить вероятность получения ответов, которые могут быть расценены как вредные.
Узнайте больше о моделях Gemini
Узнайте о моделях, доступных для различных вариантов использования , а также об их квотах и ценах .Оставьте отзыв о своем опыте использования Vertex AI для Firebase.