Поддерживаемые входные файлы и требования для Vertex AI Gemini API

При вызове Vertex AI Gemini API из вашего приложения с помощью Vertex AI in Firebase SDK вы можете предложить модели Gemini сгенерировать текст на основе мультимодального ввода. Мультимодальные подсказки могут включать в себя несколько модальностей (или типов ввода), например текст, изображения, PDF-файлы, видео и аудио.

Для нетекстовых частей входных данных (например, медиафайлов) вам необходимо использовать поддерживаемые типы файлов, указать поддерживаемый тип MIME и убедиться, что ваши файлы и мультимодальные запросы соответствуют требованиям и следуют передовым практикам.

На этой странице описаны поддерживаемые типы MIME, рекомендации и ограничения для следующего:

Требования, специфичные для Vertex AI in Firebase SDK

Для Vertex AI in Firebase SDK максимальный общий размер запроса составляет 20 МБ . Вы получаете ошибку HTTP 413, если запрос слишком велик.



Изображения : требования, рекомендации и ограничения.

Изображения: Требования

В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на запрос изображений.

Поддерживаемые типы MIME

Мультимодальные модели Gemini поддерживают следующие типы MIME изображений:

MIME-тип изображения Близнецы 1.5 Флэш Близнецы 1.5 Про Близнецы 1.0 Про Видение
PNG - image/png
JPEG — image/jpeg

Ограничения на запрос

Конкретного ограничения на количество пикселей в изображении не существует. Однако изображения большего размера уменьшаются и дополняются до максимального разрешения 3072 x 3072, сохраняя при этом исходное соотношение сторон.

Вот максимальное количество файлов изображений, разрешенное в быстром запросе:

  • Gemini 1.0 Pro Vision : 16 изображений
  • Gemini 1.5 Flash и Gemini 1.5 Pro : 3000 изображений.

Изображения: токенизация

Вот как рассчитываются токены для изображений:

  • Gemini 1.0 Pro Vision : каждое изображение содержит 258 токенов.
  • Gemini 1.5 Flash и Gemini 1.5 Pro :
    • Если оба размера изображения меньше или равны 384 пикселям, то используется 258 токенов.
    • Если одно измерение изображения превышает 384 пикселя, изображение обрезается на фрагменты. По умолчанию каждый размер плитки равен наименьшему размеру (ширине или высоте), разделенному на 1,5. При необходимости каждый тайл корректируется так, чтобы он был не меньше 256 пикселей и не больше 768 пикселей. Затем размер каждой плитки изменяется до 768x768 и используется 258 жетонов.

Изображения: лучшие практики

При использовании изображений для достижения наилучших результатов используйте следующие рекомендации и информацию:

  • Если вы хотите обнаружить текст на изображении, используйте подсказки с одним изображением, чтобы получить лучшие результаты, чем подсказки с несколькими изображениями.
  • Если ваше приглашение содержит одно изображение, поместите его перед текстовым приглашением в вашем запросе.
  • Если ваше приглашение содержит несколько изображений и вы хотите сослаться на них позже в приглашении или чтобы модель ссылалась на них в ответе модели, это может помочь дать каждому изображению индекс перед изображением. Использовать a b c или image 1 image 2 image 3 для вашего индекса. Ниже приведен пример использования индексированных изображений в командной строке:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Используйте изображения с более высоким разрешением; они дают лучшие результаты.
  • Включите в подсказку несколько примеров.
  • Поверните изображения в правильную ориентацию, прежде чем добавлять их в подсказку.
  • Избегайте размытых изображений.

Изображения: ограничения

Хотя мультимодальные модели Gemini эффективны во многих случаях мультимодального использования, важно понимать ограничения моделей:

  • Модерация контента : модели отказываются отвечать на изображения, которые нарушают нашу политику безопасности.
  • Пространственное мышление . Модели неточно определяют местоположение текста или объектов на изображениях. Они могут возвращать только приблизительное количество объектов.
  • Использование в медицинских целях . Модели не подходят для интерпретации медицинских изображений (например, рентгеновских снимков и компьютерной томографии) или предоставления медицинских консультаций.
  • Распознавание людей . Модели не предназначены для идентификации людей, не являющихся знаменитостями на изображениях.
  • Точность : модели могут галлюцинировать или допускать ошибки при интерпретации изображений низкого качества, повёрнутых изображений или изображений с очень низким разрешением. Модели также могут галлюцинировать при интерпретации рукописного текста в изображениях документов.



Видео : Требования, рекомендации и ограничения

Видео: Требования

В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на запрос видео.

Поддерживаемые типы MIME

Мультимодальные модели Gemini поддерживают следующие типы MIME видео:

MIME-тип видео Близнецы 1.5 Флэш Близнецы 1.5 Про Близнецы 1.0 Про Видение
FLV – video/x-flv
MOV — video/quicktime
MPEG — video/mpeg
MPEGPS — video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV – video/wmv
3GPP — video/3gpp

Ограничения на запрос

Вот максимальное количество видеофайлов, разрешенное в быстром запросе:

  • Gemini 1.0 Pro Vision : 1 видеофайл
  • Gemini 1.5 Flash и Gemini 1.5 Pro : 10 видеофайлов

Видео: Токенизация

Вот как рассчитываются токены за видео:

  • Все мультимодальные модели Gemini : видео сэмплируется с частотой 1 кадр в секунду (fps) . На каждый видеокадр приходится 258 токенов.
  • Gemini 1.5 Flash и Gemini 1.5 Pro : звуковая дорожка кодируется видеокадрами. Звуковая дорожка также разбита на 1-секундные фрагменты , каждый из которых содержит 32 токена. Видеокадр и аудиомаркеры чередуются вместе со своими временными метками. Временные метки представлены в виде 7 токенов.

Видео: лучшие практики

При использовании видео для достижения наилучших результатов используйте следующие рекомендации и информацию:

  • Если ваше приглашение содержит одно видео, поместите его перед текстовым приглашением.
  • Если вам нужна локализация меток времени в видео со звуком, попросите модель сгенерировать метки времени в формате MM:SS , где первые две цифры обозначают минуты, а последние две цифры — секунды. Используйте тот же формат для вопросов о временной метке.
  • Обратите внимание на следующее, если вы используете Gemini 1.0 Pro Vision:

    • Используйте не более одного видеоролика на одну подсказку.
    • Модель обрабатывает информацию только в первые две минуты видео.
    • Модель обрабатывает видео как несмежные кадры изображения из видео. Аудио не включено. Если вы заметили, что модели не хватает некоторого контента в видео, попробуйте сделать видео короче, чтобы модель захватывала большую часть видеоконтента.
    • Модель не обрабатывает никакой аудиоинформации или метаданных временных меток. Из-за этого модель может не работать должным образом в случаях использования, требующих аудиовхода, например субтитров, или информации, связанной со временем, например скорости или ритма.

Видео: ограничения

Хотя мультимодальные модели Gemini эффективны во многих случаях мультимодального использования, важно понимать ограничения моделей:

  • Модерация контента : модели отказываются отвечать на видео, которые нарушают нашу политику безопасности.
  • Распознавание неречевого звука . Модели, поддерживающие звук, могут ошибаться при распознавании звука, не являющегося речью.
  • Высокоскоростное движение . Модели могут ошибаться в понимании высокоскоростного движения в видео из-за фиксированной частоты дискретизации 1 кадр в секунду (кадр/с) .
  • Пунктуация транскрипции : (при использовании Gemini 1.5 Flash). Модели могут возвращать транскрипции, не содержащие знаков препинания.



Аудио : требования и ограничения

Аудио: Требования

В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на запрос аудио.

Поддерживаемые типы MIME

Мультимодальные модели Gemini поддерживают следующие типы MIME аудио:

MIME-тип аудио Близнецы 1.5 Флэш Близнецы 1.5 Про
AAC — audio/aac
FLAC — audio/flac
MP3 - audio/mp3
МПА — audio/m4a
MPEG — audio/mpeg
MPGA — audio/mpga
MP4 – audio/mp4
ОПУС — audio/opus
PCM – audio/pcm
WAV — audio/wav
WEBM – audio/webm

Ограничения на запрос

В запрос на подсказку можно включить максимум 1 аудиофайл .

Аудио: ограничения

Хотя мультимодальные модели Gemini эффективны во многих случаях мультимодального использования, важно понимать ограничения моделей:

  • Распознавание неречевого звука . Модели, поддерживающие звук, могут ошибаться при распознавании звука, не являющегося речью.
  • Временные метки только для аудио . Модели, поддерживающие звук, не могут точно генерировать временные метки для запросов с аудиофайлами. Сюда входят временные метки сегментации и временной локализации. Временные метки могут быть точно сгенерированы для входных данных, включающих видео, содержащее звук.
  • Пунктуация транскрипции : (при использовании Gemini 1.5 Flash). Модели могут возвращать транскрипции, не содержащие знаков препинания.



Документы (например, PDF-файлы) : требования, рекомендации и ограничения.

Документы: Требования

В этом разделе вы узнаете о поддерживаемых типах MIME и ограничениях на запрос документов (например, PDF-файлов).

Поддерживаемые типы MIME

Мультимодальные модели Gemini поддерживают следующие типы MIME документов:

MIME-тип документа Близнецы 1.5 Флэш Близнецы 1.5 Про Близнецы 1.0 Про Видение
PDF - application/pdf

Ограничения на запрос

PDF-файлы обрабатываются как изображения, поэтому одна страница PDF-файла рассматривается как одно изображение. Количество страниц, разрешенное в приглашении, ограничено количеством изображений, которые может поддерживать модель:

  • Gemini 1.0 Pro Vision : 16 страниц
  • Gemini 1.5 Pro и Gemini 1.5 Flash : 1000 страниц.

Документы: Токенизация

PDF-файлы обрабатываются как изображения, поэтому каждая страница PDF-файла маркируется так же, как и изображение.

Кроме того, стоимость PDF-файлов соответствует ценам на изображения Gemini . Например, если вы включаете двухстраничный PDF-файл в вызов Gemini API, вы несете плату за обработку двух изображений.

Документы: лучшие практики

При использовании PDF-файлов для достижения наилучших результатов используйте следующие рекомендации и информацию:

  • Если ваше приглашение содержит один PDF-файл, поместите его перед текстовым приглашением в вашем запросе.
  • Если у вас длинный документ, рассмотрите возможность разделения его на несколько PDF-файлов для его обработки.
  • Используйте PDF-файлы, созданные с текстом, отображаемым в виде текста, вместо использования текста в отсканированных изображениях. Этот формат обеспечивает машиночитаемость текста, поэтому модели легче редактировать, искать и манипулировать ею по сравнению с PDF-файлами со сканированными изображениями. Эта практика обеспечивает оптимальные результаты при работе с текстовыми документами, такими как контракты.

Документы: ограничения

Хотя мультимодальные модели Gemini эффективны во многих случаях мультимодального использования, важно понимать ограничения моделей:

  • Пространственное мышление . Модели неточно определяют местоположение текста или объектов в PDF-файлах. Они могут возвращать только приблизительное количество объектов.
  • Точность : модели могут испытывать галлюцинации при интерпретации рукописного текста в документах PDF.