Cuando llames a Vertex AI Gemini API desde tu app con una SDK de Vertex AI in Firebase, puedes indicarle al modelo de Gemini que genere texto basadas en una entrada multimodal. Las instrucciones multimodales pueden incluir múltiples modalidades (o tipos de entrada), como texto junto con imágenes, archivos PDF, videos y audio.
Para las partes de la entrada que no son de texto (como los archivos multimedia), debes usar tipos de archivos admitidos, especifica un tipo de MIME compatible y asegúrate de que tu de datos y las solicitudes multimodales cumplen con los requisitos y siguen las prácticas recomendadas.
En esta página, se describen los tipos de MIME admitidos, las prácticas recomendadas y las limitaciones para lo siguiente:
Requisitos específicos de los SDKs de Vertex AI in Firebase
Para Vertex AI in Firebase SDK, el tamaño máximo total de la solicitud es de 20 MB. Si una solicitud es demasiado grande, se mostrará el error HTTP 413.
Si el tamaño de un archivo hace que el tamaño total de la solicitud supere los 20 MB, usa una URL de Cloud Storage for Firebase para incluir el archivo en tu solicitud multimodal.
Si un archivo es pequeño, a menudo se puede pasar directamente como datos intercalados. Ten en cuenta que un archivo proporcionado como datos intercalados se codifica en Base64 en lo que aumenta el tamaño de la solicitud. Si deseas ver ejemplos sobre cómo incluir archivos como datos intercalados, consulta Genera texto a partir de instrucciones multimodales con la API de Gemini.
Imágenes: Requisitos, prácticas recomendadas y limitaciones
Imágenes: Requisitos
En esta sección, aprenderás sobre los tipos de MIME admitidos y los límites por solicitud de imágenes de contenedores.
Tipos de MIME compatibles
Los modelos multimodales de Gemini admiten los siguientes tipos de MIME de imagen:
Tipo MIME de imagen | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
Límites por solicitud
No hay un límite específico para la cantidad de píxeles de una imagen. Sin embargo, las imágenes más grandes se reducen y se rellenan para adaptarse a una resolución máxima de 3,072 x 3,072, a la vez que conservan su relación de aspecto original.
Esta es la cantidad máxima de archivos de imagen permitidos en una solicitud de instrucción:
- Gemini 1.0 Pro Vision: 16 imágenes
- Gemini 1.5 Flash y Gemini 1.5 Pro: 3,000 imágenes
Imágenes: asignación de token
A continuación, se muestra cómo se calculan los tokens para las imágenes:
- Gemini 1.0 Pro Vision: Cada imagen representa para 258 tokens.
- Gemini 1.5 Flash y
Gemini 1.5 Pro:
- Si ambas dimensiones de una imagen son menores o iguales que 384 píxeles, se usan 258 tokens.
- Si una dimensión de una imagen es superior a 384 píxeles, la imagen se corta en mosaicos. El tamaño de cada mosaico se establece de forma predeterminada en la dimensión más pequeña (ancho o alto) dividida por 1.5. Si es necesario, cada mosaico se ajusta para que no sea inferior a 256 píxeles ni mayor que 768 píxeles. Luego, cada tarjeta cambia de tamaño a 768 × 768 y usa 258 tokens.
Imágenes: prácticas recomendadas
Cuando uses imágenes, usa la siguiente información y prácticas recomendadas para obtener los mejores resultados.
- Si quieres detectar texto en una imagen, usa instrucciones con una sola imagen para generan mejores resultados que las instrucciones con varias imágenes.
- Si la instrucción contiene una sola imagen, colócala antes de la instrucción de texto en tu solicitud.
- Si tu instrucción contiene varias imágenes y quieres consultarlas más adelante en la instrucción o hacer que el modelo haga referencia a ellas en la respuesta del modelo, puede ser útil darle a cada imagen un índice antes de que aparezca. Usa
ora
b
c
para tu índice. El siguiente es un ejemplo del uso de imágenes indexadas en un mensaje:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Usa imágenes con mayor resolución. generan mejores resultados.
- Incluye algunos ejemplos en el mensaje.
- Rota las imágenes a su orientación adecuada antes de agregarlas al mensaje.
- Evita las imágenes borrosas.
Imágenes: Limitaciones
Si bien los modelos multimodales de Gemini son potentes en muchos casos de usuarios multimodales, es importante comprender las limitaciones de los modelos:
- Moderación de contenido: Los modelos se niegan a proporcionar respuestas en las imágenes que infringen nuestras políticas de seguridad.
- Razonamiento espacial: Los modelos no son precisos para ubicar texto u objetos en imágenes. Es posible que solo devuelvan los recuentos aproximados de objetos.
- Usos médicos: Los modelos no son adecuados para interpretar imágenes médicas (por ejemplo, radiografías y tomografías computarizadas) o proporcionar información asesoría legal.
- Reconocimiento de personas: Los modelos no están diseñados para usarse para lo siguiente: identificar a las personas que no son celebridades en las imágenes.
- Exactitud: Los modelos pueden tener alucinaciones o cometer errores. cuando se interpretan imágenes de baja calidad, rotadas o con una resolución extremadamente baja. Los modelos también pueden tener alucinaciones cuando se interpreta texto escrito a mano en documentos de imágenes.
Video: Requisitos, prácticas recomendadas y limitaciones
Video: Requisitos
En esta sección, aprenderás sobre los tipos de MIME admitidos y los límites por solicitud de video.
Tipos de MIME compatibles
Los modelos multimodales de Gemini admiten los siguientes tipos de MIME de video:
Tipo de MIME de video | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/mov |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
Límites por solicitud
Esta es la cantidad máxima de archivos de video que se permiten en una solicitud de instrucción:
- Gemini 1.0 Pro Vision: 1 archivo de video
- Gemini 1.5 Flash y Gemini 1.5 Pro: 10 archivos de video
Video: Asignación de token
A continuación, te mostramos cómo se calculan los tokens para los videos:
- Todos los modelos multimodales de Gemini: Los videos se muestrean en
1 fotograma por segundo (FPS) . Cada fotograma representa 258 tokens. - Gemini 1.5 Flash y
Gemini 1.5 Pro: La pista de audio está codificada.
con fotogramas. La pista de audio también se divide en
Enlaces troncales de 1 segundo que cada uno incluya 32 tokens. El video los tokens de trama y audio se intercalan con sus marcas de tiempo. El las marcas de tiempo se representan como 7 tokens.
Video: Prácticas recomendadas
Cuando uses video, sigue estas prácticas recomendadas e información para el mejores resultados:
- Si tu instrucción contiene un solo video, colócalo antes del texto. mensaje.
- Si necesitas la localización de la marca de tiempo en un video con audio, pregúntale al modelo.
para generar marcas de tiempo en formato
MM:SS
, en el que las dos primeras los dígitos representan los minutos y los dos últimos dígitos representan los segundos. Usa el el mismo formato para preguntas que hacen preguntas sobre una marca de tiempo. Ten en cuenta lo siguiente si usas Gemini 1.0 Pro Vision:
- Usa no más de un video por instrucción.
- El modelo solo procesa la información en los primeros dos minutos de el video.
- El modelo procesa videos como marcos de imagen no contiguos desde el video. No se incluye el audio. Si notas que al modelo le faltan algunos contenido del video, intenta acortarlo para que el modelo captura una porción mayor del contenido del video.
- El modelo no procesa información de audio ni marcas de tiempo metadatos. Por este motivo, es posible que el modelo no tenga un buen rendimiento en los casos de uso. que requieran entrada de audio, como subtitulado de audio, o errores información, como la velocidad o el ritmo.
Video: Limitaciones
Si bien los modelos multimodales de Gemini son potentes en muchos casos de usuarios multimodales, es importante comprender las limitaciones de los modelos:
- Moderación de contenido: Los modelos se niegan a dar respuestas. en los videos que infringen nuestras políticas de seguridad.
- Reconocimiento de sonido sin voz: los modelos que admiten audio pueden cometer errores que reconozcan un sonido que no es una voz.
- Movimiento a alta velocidad: Es posible que los modelos cometan errores.
entender el movimiento de alta velocidad en los videos debido al
Tasa de muestreo de
1 fotograma por segundo (FPS) - Puntuación de la transcripción: (si usas Gemini 1.5 Flash) Es posible que los modelos devolver transcripciones que no incluyen puntuación.
Audio: Requisitos y limitaciones
Audio: Requisitos
En esta sección, aprenderás sobre los tipos de MIME admitidos y los límites por solicitud de audio.
Tipos de MIME compatibles
Los modelos multimodales de Gemini admiten los siguientes tipos de MIME de audio:
Tipo de MIME de audio | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
Límites por solicitud
Puedes incluir un máximo de
Audio: Limitaciones
Si bien los modelos multimodales de Gemini son potentes en muchos casos de usuarios multimodales, es importante comprender las limitaciones de los modelos:
- Reconocimiento de sonido sin voz: los modelos que admiten audio pueden cometer errores que reconozcan un sonido que no es una voz.
- Marcas de tiempo de solo audio: Los modelos que admiten audio no pueden generar marcas de tiempo con precisión para solicitudes con archivos de audio. Esto incluye marcas de tiempo de segmentación y localización temporal. Las marcas de tiempo se pueden generar con exactitud para la entrada que incluye un video que contiene audio.
- Puntuación de la transcripción: (si usas Gemini 1.5 Flash) Es posible que los modelos devolver transcripciones que no incluyen puntuación.
Documentos (como PDF): Requisitos, prácticas recomendadas y limitaciones
Documentos: Requisitos
En esta sección, aprenderás sobre los tipos de MIME admitidos y los límites por solicitud de documentos (como PDF).
Tipos de MIME compatibles
Los modelos multimodales de Gemini admiten los siguientes tipos de MIME de documentos:
Tipo de MIME del documento | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf |
Límites por solicitud
Los PDF se tratan como imágenes, por lo que una sola página de un PDF se considera una sola imagen. La cantidad de páginas permitidas en un mensaje se limita al número de imágenes que el modelo puede admitir:
- Gemini 1.0 Pro Vision: 16 páginas
- Gemini 1.5 Pro y Gemini 1.5 Flash: 1,000 páginas
Documentos: Asignación de token
Los PDF se tratan como imágenes, por lo que cada página de un PDF se asigna a los tokens del mismo como una imagen.
Además, el costo de los PDF sigue Precios de imágenes de Gemini. Por ejemplo, si incluyes un PDF de dos páginas en una llamada a la API de Gemini, incurrir en una tarifa de entrada por procesar dos imágenes.
Documentos: Prácticas recomendadas
Cuando uses archivos PDF, sigue estas prácticas recomendadas e información para el mejores resultados:
- Si tu instrucción contiene un solo PDF, colócalo antes del texto. en tu solicitud.
- Si tienes un documento largo, considera dividirlo en varios PDFs. para procesarlos.
- Usa archivos PDF creados con texto renderizado como texto en lugar de usar texto en imágenes escaneadas. Este formato garantiza que el texto sea legible por máquina, de manera que más fácil de editar, buscar y manipular para el modelo en comparación con los análisis archivos PDF con imágenes. Esta práctica proporciona resultados óptimos cuando se trabaja con documentos con mucho texto, como contratos.
Documentos: Limitaciones
Si bien los modelos multimodales de Gemini son potentes en muchos casos de usuarios multimodales, es importante comprender las limitaciones de los modelos:
- Razonamiento espacial: Los modelos no son precisos en la ubicación. texto u objetos en archivos PDF. Es posible que solo devuelvan los recuentos aproximados de objetos.
- Exactitud: Los modelos pueden tener alucinaciones en la interpretación. texto escrito a mano en documentos PDF.