Firebase is back at Cloud Next on April 9 - 11. Register now.

Se usó la API de Cloud Translation para traducir esta página.

Archivos de entrada y requisitos compatibles con la API de Gemini de Vertex AI

Cuando llamas a Vertex AI Gemini API desde tu app con un SDK de Vertex AI in Firebase, puedes solicitarle al modelo de Gemini que genere texto basado en una entrada multimodal. Las instrucciones multimodales pueden incluir varias modalidades (o tipos de entrada), como texto junto con imágenes, PDF, video y audio.

Para las partes que no son de texto de la entrada (como los archivos multimedia), debes usar tipos de archivo compatibles, especificar un tipo MIME compatible y asegurarte de que tus archivos y solicitudes multimodales cumplan con los requisitos y sigan las prácticas recomendadas.

En esta página, se describe lo siguiente:

Opciones para proporcionar archivos en tu solicitud.
Detalles sobre los tipos de MIME admitidos, las prácticas recomendadas y las limitaciones para las siguientes entradas de archivos:
Imágenes | Videos | Audio | Documentos (como PDF).

Opciones para proporcionar archivos en solicitudes multimodales

En cada solicitud multimodal, siempre debes proporcionar lo siguiente:

El mimeType del archivo. Consulta los tipos de MIME compatibles de cada archivo de entrada en la sección correspondiente de esta página.
El archivo. Puedes proporcionar el archivo con su URL o URI, o bien proporcionarlo como datos intercalados.

El tamaño y la cantidad de archivos que puedes proporcionar en la solicitud dependen del tipo de archivo de entrada, de la forma en que lo proporcionas y del modelo que se usa (para obtener más información, consulta la sección de cada tipo de archivo de entrada en esta página).

Opción 1: Proporciona el archivo con una URL o un URI

Estos son los tipos de URLs o URIs aceptados:

URL del bucket Cloud Storage for Firebase: La URL del archivo debe ser pública o el usuario o cliente que accedió debe tener acceso suficiente al archivo. Obtén más información sobre los beneficios, requisitos de la URL y muestras de código de Cloud Storage for Firebase.
URL del bucket Google Cloud Storage: La URL del archivo debe ser pública. Además, si el bucket está en un proyecto diferente al que usas con Vertex AI in Firebase, usa el formato https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE para la URL.
URLs de navegador o HTTP: La URL del archivo debe ser legible públicamente. Entre los ejemplos, se incluyen las URLs de sitios que alojan contenido multimedia, las URLs que muestran el contenido multimedia directamente (no una página web que aloja el contenido multimedia) o un archivo de Google Drive o Google Workspace publicado.
URL del video de YouTube: El video de YouTube debe ser público o no listado.

Obtén más información sobre los requisitos de las URLs y los URIs en la documentación de Google Cloud.

Opción 2: Proporciona el archivo como datos intercalados

Ten en cuenta lo siguiente sobre los archivos proporcionados como datos intercalados:

Solo se pueden enviar archivos pequeños como datos intercalados, ya que el límite de tamaño de la solicitud es de 20 MB.
El archivo se codifica en base64 durante el envío (lo que aumenta su tamaño).

Para ver ejemplos que muestran cómo incluir archivos como datos intercalados, consulta Genera texto a partir de instrucciones multimodales con la API de Gemini.

Imágenes: Requisitos, prácticas recomendadas y limitaciones

Imágenes: Requisitos

En esta sección, obtén información sobre los tipos de MIME admitidos y los límites por solicitud para las imágenes.

Tipos de MIME admitidos

Los modelos multimodales de Gemini admiten los siguientes tipos de MIME de imagen:

Tipo MIME de imagen	Gemini 2.0 Flash	Gemini 2.0 Flash‑Lite	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision
PNG - `image/png`
JPEG - `image/jpeg`
WebP: `image/webp`

Límites por solicitud

No hay un límite específico para la cantidad de píxeles en una imagen. Sin embargo, las imágenes más grandes se reducen y se rellenan para adaptarse a una resolución máxima de 3,072 x 3,072, a la vez que conservan su relación de aspecto original.

Esta es la cantidad máxima de archivos de imagen permitidos en una solicitud de instrucciones:

Gemini 2.0 Flash, Gemini 2.0 Flash‑Lite, Gemini 1.5 Flash y Gemini 1.5 Pro: 3, 000 imágenes
Gemini 1.0 Pro Vision: 16 imágenes

Imágenes: Asignación de token

A continuación, te mostramos cómo se calculan los tokens para las imágenes:

Gemini 2.0 Flash, Gemini 2.0 Flash‑Lite, Gemini 1.5 Flash y Gemini 1.5 Pro:
- Si ambas dimensiones de una imagen son menores o iguales que 384 píxeles, se usan 258 tokens.
- Si una dimensión de una imagen es superior a 384 píxeles, la imagen se corta en mosaicos. El tamaño de cada mosaico se establece de forma predeterminada en la dimensión más pequeña (ancho o alto) dividida por 1.5. Si es necesario, cada mosaico se ajusta para que no sea inferior a 256 píxeles ni mayor que 768 píxeles. Luego, cada tarjeta cambia de tamaño a 768 × 768 y usa 258 tokens.
Gemini 1.0 Pro Vision: Cada imagen representa 258 tokens.

Imágenes: Prácticas recomendadas

Cuando uses imágenes, usa la siguiente información y prácticas recomendadas para obtener los mejores resultados.

Si quieres detectar texto en una imagen, usa instrucciones con una sola imagen para producir mejores resultados que las instrucciones con varias imágenes.
Si la instrucción contiene una sola imagen, colócala antes de la instrucción de texto en tu solicitud.
Si tu instrucción contiene varias imágenes y quieres consultarlas más adelante en la instrucción o hacer que el modelo haga referencia a ellas en la respuesta del modelo, puede ser útil darle a cada imagen un índice antes de que aparezca. Usa a b c or image 1 image 2 image 3 para tu índice. El siguiente es un ejemplo del uso de imágenes indexadas en un mensaje:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
Usa imágenes con mayor resolución, ya que producen mejores resultados.
Incluye algunos ejemplos en el mensaje.
Rota las imágenes a su orientación adecuada antes de agregarlas al mensaje.
Evita las imágenes borrosas.

Imágenes: Limitaciones

Si bien los modelos multimodales de Gemini son potentes en muchos casos de usuarios multimodales, es importante comprender las limitaciones de los modelos:

Moderación de contenido: Los modelos se niegan a proporcionar respuestas en las imágenes que infringen nuestras políticas de seguridad.
Razonamiento espacial: Los modelos no son precisos para ubicar texto u objetos en imágenes. Es posible que solo devuelvan los recuentos aproximados de los objetos.
Usos médicos: Los modelos no son adecuados para interpretar imágenes médicas (por ejemplo, radiografías y tomografías computarizadas) ni brindar asesoramiento médico.
Reconocimiento de personas: Los modelos no están diseñados para identificar a personas que no son celebridades en las imágenes.
Exactitud: Los modelos pueden tener alucinaciones o cometer errores cuando interpretan imágenes de baja calidad, rotadas o de resolución extremadamente baja. Los modelos también pueden tener alucinaciones cuando se interpreta texto escrito a mano en documentos de imágenes.

Video: Requisitos, prácticas recomendadas y limitaciones

Video: Requisitos

En esta sección, obtén información sobre los tipos de MIME admitidos y los límites por solicitud de video.

Tipos de MIME admitidos

Los modelos multimodales de Gemini admiten los siguientes tipos de MIME de video:

Tipo de MIME de video	Gemini 2.0 Flash	Gemini 2.0 Flash‑Lite	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision
FLV - `video/x-flv`
MOV - `video/quicktime`
MPEG - `video/mpeg`
MPEGPS - `video/mpegps`
MPG - `video/mpg`
MP4 - `video/mp4`
WEBM - `video/webm`
WMV - `video/wmv`
3GPP - `video/3gpp`

Límites por solicitud

Esta es la cantidad máxima de archivos de video permitidos en una solicitud de instrucciones:

Gemini 2.0 Flash, Gemini 2.0 Flash‑Lite, Gemini 1.5 Flash y Gemini 1.5 Pro: 10 archivos de video
Gemini 1.0 Pro Vision: 1 archivo de video

Video: Asignación de token

A continuación, te mostramos cómo se calculan los tokens para los videos:

Gemini 2.0 Flash, Gemini 2.0 Flash‑Lite, Gemini 1.5 Flash y Gemini 1.5 Pro: La pista de audio se codifica con fotogramas de video. La pista de audio también se desglosa en enlaces troncales de 1 segundo, cada uno de los cuales tiene 32 tokens. El fotograma de video y los tokens de audio se intercalan junto con sus marcas de tiempo. Las marcas de tiempo se representan como 7 tokens.
Todos los modelos multimodales de Gemini: Los videos se muestrean a 1 fotograma por segundo (fps). Cada fotograma de video representa 258 tokens.

Video: Prácticas recomendadas

Cuando uses videos, usa la siguiente información y prácticas recomendadas para obtener los mejores resultados:

Si la instrucción contiene un solo video, colócalo antes de la instrucción de texto.
Si necesitas la localización de marcas de tiempo en un video con audio, pídele al modelo que genere marcas de tiempo en el formato MM:SS, en el que los dos primeros dígitos representan minutos y los dos últimos segundos. Usa el mismo formato para las preguntas que preguntan sobre una marca de tiempo.
Ten en cuenta lo siguiente si usas Gemini 1.0 Pro Vision:
- Usa no más de un video por instrucción.
- El modelo solo procesa la información de los primeros dos minutos del video.
- El modelo procesa los videos como marcos de imagen no contiguos del video. No se incluye el audio. Si notas que al modelo le falta contenido del video, intenta acortarlo para que el modelo capture una mayor parte del contenido del video.
- El modelo no procesa información de audio ni metadatos de marca de tiempo. Debido a esto, es posible que el modelo no funcione bien en casos de uso que requieran entrada de audio, como audio de subtítulos, o información relacionada con el tiempo, como la velocidad o el ritmo.

Video: Limitaciones

Si bien los modelos multimodales de Gemini son potentes en muchos casos de usuarios multimodales, es importante comprender las limitaciones de los modelos:

Moderador de contenido: Los modelos se niegan a proporcionar respuestas en los videos que infringen nuestras políticas de seguridad.
Reconocimiento de sonido sin voz: los modelos que admiten audio pueden cometer errores que reconozcan un sonido que no es una voz.
Movimiento de alta velocidad: Los modelos pueden cometer errores al comprender el movimiento de alta velocidad en el video debido a la tasa de muestreo fija de 1 fotograma por segundo (FPS).
Puntuación de transcripción: (si usas Gemini 1.5 Flash), los modelos pueden mostrar transcripciones que no incluyen puntuación.

Audio: Requisitos y limitaciones

Audio: Requisitos

En esta sección, obtén información sobre los tipos de MIME admitidos y los límites por solicitud de audio.

Tipos de MIME admitidos

Los modelos multimodales de Gemini admiten los siguientes tipos de MIME de audio:

Tipo de MIME de audio	Gemini 2.0 Flash	Gemini 2.0 Flash‑Lite	Gemini 1.5 Flash	Gemini 1.5 Pro
AAC - `audio/aac`
FLAC - `audio/flac`
MP3 - `audio/mp3`
MPA - `audio/m4a`
MPEG - `audio/mpeg`
MPGA - `audio/mpga`
MP4 - `audio/mp4`
OPUS - `audio/opus`
PCM - `audio/pcm`
WAV - `audio/wav`
WEBM - `audio/webm`

Límites por solicitud

Puedes incluir un máximo de 1 archivo de audio en una solicitud de instrucción.

Audio: Limitaciones

Si bien los modelos multimodales de Gemini son potentes en muchos casos de usuarios multimodales, es importante comprender las limitaciones de los modelos:

Reconocimiento de sonido sin voz: los modelos que admiten audio pueden cometer errores que reconozcan un sonido que no es una voz.
Marcas de tiempo de solo audio: Para generar marcas de tiempo con exactitud para archivos de solo audio, debes configurar el parámetro audio_timestamp en generation_config.
Puntuación de transcripción: (si usas Gemini 1.5 Flash), los modelos pueden mostrar transcripciones que no incluyen puntuación.

Documentos (como archivos PDF): Requisitos, prácticas recomendadas y limitaciones

Documentos: Requisitos

En esta sección, obtén información sobre los tipos de MIME admitidos y los límites por solicitud para documentos (como archivos PDF).

Tipos de MIME admitidos

Los modelos multimodales de Gemini admiten los siguientes tipos de MIME de documentos:

Tipo de documento MIME	Gemini 2.0 Flash	Gemini 2.0 Flash‑Lite	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision
PDF - `application/pdf`
Texto - `text/plain`

Límites por solicitud

Los PDFs se tratan como imágenes, por lo que una sola página de un PDF se considera una sola imagen. La cantidad de páginas permitidas en una instrucción se limita a la cantidad de imágenes que el modelo puede admitir:

Gemini 2.0 Flash, Gemini 2.0 Flash‑Lite, Gemini 1.5 Pro y Gemini 1.5 Flash:
- Cantidad máxima de archivos por solicitud: 3,000
- Cantidad máxima de páginas por archivo: 1,000
- Tamaño máximo por archivo: 50 MB
Gemini 1.0 Pro Vision:
- Cantidad máxima de archivos por solicitud: 16
- Cantidad máxima de páginas por archivo: 16
- Tamaño máximo por archivo: 50 MB

Estos son algunos ejemplos de valores máximos que puedes proporcionar en una sola solicitud con Gemini 1.5 Flash (que puede procesar un total de 3,000 páginas en una solicitud):

3,000 archivos PDF de una sola página
diez archivos PDF de 300 páginas
tres archivos PDF de 1,000 páginas

Documentos: Asignación de token

Asignación de tokens de PDF

Los PDFs se tratan como imágenes, por lo que cada página de un PDF se tokeniza de la misma manera que una imagen.

Además, el costo de los archivos PDF sigue los precios de las imágenes de Gemini. Por ejemplo, si incluyes un PDF de dos páginas en una llamada a la API de Gemini, incurrirás en una tarifa de entrada por procesar dos imágenes.

Asignación de tokens de texto sin formato

Los documentos de texto sin formato se tokenizan como texto. Por ejemplo, si incluyes un documento de texto sin formato de 100 palabras en una llamada a la API de Gemini, incurrirás en una tarifa de entrada por procesar 100 palabras.

Documentos: Prácticas recomendadas

Cuando uses archivos PDF, usa la siguiente información y prácticas recomendadas para obtener los mejores resultados:

Si la instrucción contiene un solo PDF, colócalo antes de la instrucción de texto en tu solicitud.
Si tienes un documento largo, evalúa dividirlo en varios archivos PDF para procesarlo.
Usa archivos PDF creados con texto renderizado como texto en lugar de texto de imágenes escaneadas. Este formato garantiza que el texto sea legible para las máquinas, de modo que sea más fácil para el modelo editar, buscar y manipular en comparación con los PDFs de las imágenes escaneadas. Esta práctica proporciona resultados óptimos cuando se trabaja con documentos con mucho texto, como contratos.

Documentos: Limitaciones

Si bien los modelos multimodales de Gemini son potentes en muchos casos de usuarios multimodales, es importante comprender las limitaciones de los modelos:

Razonamiento espacial: Los modelos no son precisos para ubicar texto u objetos en archivos PDF. Es posible que solo devuelvan los recuentos aproximados de los objetos.
Exactitud: los modelos pueden tener alucinaciones cuando interpretan texto escrito a mano en documentos PDF.