Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

Se usó la API de Cloud Translation para traducir esta página.

Requisitos y archivos de entrada compatibles

Cuando llamas a Gemini API desde tu app con un SDK de Firebase AI Logic, puedes indicarle al modelo Gemini que genere texto basado en una entrada multimodal, como imágenes, videos, audio y documentos (como PDFs).

Debes usar tipos de archivos compatibles, especificar un tipo de MIME compatible y asegurarte de que tus archivos y solicitudes multimodales cumplan con los requisitos y sigan las prácticas recomendadas.

Esta página es específica para el uso de un GenerativeModel y describe lo siguiente:

Opciones para proporcionar archivos en tu solicitud.
Detalles sobre los tipos de MIME admitidos, las prácticas recomendadas y las limitaciones para las siguientes entradas de archivos:
Imágenes | Video | Audio | Documentos (como PDFs).

Opciones para proporcionar archivos en solicitudes multimodales

Selecciona tu proveedor de la API de Gemini para ver el contenido específico del proveedor en esta página

En cada solicitud multimodal, siempre debes proporcionar lo siguiente:

Es el mimeType del archivo. Consulta los tipos de MIME admitidos de cada archivo de entrada en la sección correspondiente de esta página.
El archivo. Puedes proporcionar el archivo como datos intercalados o proporcionar el archivo con su URL.

El tamaño y la cantidad de archivos que puedes proporcionar en la solicitud dependen del tipo de archivo de entrada, la forma en que proporcionas el archivo y el modelo que se usa (para obtener más detalles, consulta la sección de cada tipo de archivo de entrada en esta página).

Opción 1: Proporciona el archivo como datos intercalados

Ten en cuenta lo siguiente sobre los archivos proporcionados como datos intercalados:

Solo se pueden enviar archivos pequeños como datos intercalados, ya que el límite de tamaño total de la solicitud es de 20 MB.
El archivo se codifica en base64 durante la transmisión (lo que aumenta su tamaño).

Para ver un ejemplo de cómo incluir un archivo como datos intercalados, consulta Genera texto a partir de una entrada de texto y archivo (multimodal). Ten en cuenta que los SDKs para plataformas de Android y Apple pueden controlar imágenes intercaladas en solicitudes sin necesidad de especificar el tipo MIME. Obtén más información.

Opción 2: Proporciona el archivo con una URL

Estos son los tipos de URLs aceptables cuando se usa Gemini Developer API:

URL del video de YouTube: El video de YouTube debe ser público o no listado.

Puedes especificar una URL de video de YouTube por solicitud.

Imágenes: Requisitos, prácticas recomendadas y limitaciones

Imágenes: Requisitos

En esta sección, obtén información sobre los tipos de MIME admitidos y los límites por solicitud para las imágenes.

Tipos de MIME admitidos

Los modelos multimodales de Gemini admiten los siguientes tipos de MIME de imágenes:

PNG - image/png
JPEG - image/jpeg
WebP - image/webp

Límites por solicitud

No hay un límite específico para la cantidad de píxeles en una imagen. Sin embargo, las imágenes más grandes se reducen y se rellenan para adaptarse a una resolución máxima de 3,072 x 3,072, a la vez que conservan su relación de aspecto original.

Cantidad máxima de archivos por solicitud: 3,000 archivos de imagen

Imágenes: Asignación de token

A continuación, te mostramos cómo se calculan los tokens para las imágenes:

Si ambas dimensiones de una imagen son menores o iguales que 384 píxeles, se usan 258 tokens.
Si una dimensión de una imagen es superior a 384 píxeles, la imagen se corta en mosaicos. El tamaño de cada mosaico se establece de forma predeterminada en la dimensión más pequeña (ancho o alto) dividida por 1.5. Si es necesario, cada mosaico se ajusta para que no sea inferior a 256 píxeles ni mayor que 768 píxeles. Luego, cada tarjeta cambia de tamaño a 768 × 768 y usa 258 tokens.

Imágenes: prácticas recomendadas

Cuando uses imágenes, usa la siguiente información y prácticas recomendadas para obtener los mejores resultados.

Si quieres detectar texto en una imagen, usa instrucciones con una sola imagen para producir mejores resultados que las instrucciones con varias imágenes.
Si la instrucción contiene una sola imagen, colócala antes de la instrucción de texto en tu solicitud.
Si tu instrucción contiene varias imágenes y quieres consultarlas más adelante en la instrucción o hacer que el modelo haga referencia a ellas en la respuesta del modelo, puede ser útil darle a cada imagen un índice antes de que aparezca. Usa a b c or image 1 image 2 image 3 para tu índice. El siguiente es un ejemplo del uso de imágenes indexadas en un mensaje:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
Usa imágenes con mayor resolución, ya que producen mejores resultados.
Incluye algunos ejemplos en el mensaje.
Rota las imágenes a su orientación adecuada antes de agregarlas al mensaje.
Evita las imágenes borrosas.

Imágenes: Limitaciones

Si bien los modelos multimodales de Gemini son potentes en muchos casos de uso multimodales, es importante comprender las limitaciones de los modelos:

Moderación de contenido: Los modelos se niegan a proporcionar respuestas en las imágenes que infringen nuestras políticas de seguridad.
Razonamiento espacial: Los modelos no son precisos para ubicar texto u objetos en imágenes. Es posible que solo muestren los recuentos aproximados de los objetos.
Usos médicos: Los modelos no son adecuados para interpretar imágenes médicas (por ejemplo, radiografías y tomografías computarizadas) ni para brindar asesoramiento médico.
Reconocimiento de personas: Los modelos no están diseñados para identificar personas que no sean celebridades en imágenes.
Precisión: Los modelos pueden tener alucinaciones o cometer errores cuando interpretan imágenes de baja calidad, rotadas o de resolución extremadamente baja. Los modelos también pueden tener alucinaciones cuando se interpreta texto escrito a mano en documentos de imágenes.

Video: Requisitos, prácticas recomendadas y limitaciones

Video: Requisitos

En esta sección, obtén información sobre los tipos de MIME admitidos y los límites por solicitud para los videos.

Tipos de MIME admitidos

Los modelos multimodales de Gemini admiten los siguientes tipos de MIME de video:

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

Límites por solicitud

Cantidad máxima de archivos por solicitud: 10 archivos de video

Video: Tokenization

A continuación, te mostramos cómo se calculan los tokens para los videos:

La pista de audio está codificada con fotogramas de video. La pista de audio también se desglosa en enlaces troncales de 1 segundo, cada uno de los cuales tiene 32 tokens. El fotograma de video y los tokens de audio se intercalan junto con sus marcas de tiempo. Las marcas de tiempo se representan como 5 tokens.
En el caso de los videos que se muestrean a 1 fotograma por segundo (fps) o menos, las marcas de tiempo de la primera hora del video se representan como 5 tokens por fotograma de video. Las marcas de tiempo restantes se representan como 7 tokens por fotograma de video.
En el caso de los videos que se muestrean a más de 1 fotograma por segundo (FPS), las marcas de tiempo de la primera hora de video se representan como 9 tokens por fotograma de video. Las marcas de tiempo restantes se representan como 11 tokens por fotograma de video.

Video: Prácticas recomendadas

Cuando uses videos, usa la siguiente información y prácticas recomendadas para obtener los mejores resultados:

Si la instrucción contiene un solo video, colócalo antes de la instrucción de texto.
Si necesitas la localización de marcas de tiempo en un video con audio, pídele al modelo que genere marcas de tiempo que sigan el formato que se describe en "Formato de marca de tiempo".

Video: Limitaciones

Si bien los modelos multimodales de Gemini son potentes en muchos casos de uso multimodales, es importante comprender las limitaciones de los modelos:

Moderador de contenido: Los modelos se niegan a proporcionar respuestas en los videos que infringen nuestras políticas de seguridad.
Reconocimiento de sonido sin voz: los modelos que admiten audio pueden cometer errores que reconozcan un sonido que no es una voz.

Audio: Requisitos y limitaciones

Audio: Requisitos

En esta sección, obtén información sobre los tipos de MIME admitidos y los límites por solicitud de audio.

Tipos de MIME admitidos

Los modelos multimodales de Gemini admiten los siguientes tipos de MIME de audio:

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

Límites por solicitud

Cantidad máxima de archivos por solicitud: 1 archivo de audio

Audio: Limitaciones

Si bien los modelos multimodales de Gemini son potentes en muchos casos de uso multimodales, es importante comprender las limitaciones de los modelos:

Reconocimiento de sonido sin voz: los modelos que admiten audio pueden cometer errores que reconozcan un sonido que no es una voz.
Marcas de tiempo de solo audio: Para generar marcas de tiempo con exactitud para archivos de solo audio, debes configurar el parámetro audio_timestamp en generation_config.

Documentos (como archivos PDF): Requisitos, prácticas recomendadas y limitaciones

Documentos: Requisitos

En esta sección, obtén información sobre los tipos de MIME admitidos y los límites por solicitud para documentos (como PDFs).

Tipos de MIME admitidos

Los modelos multimodales de Gemini admiten los siguientes tipos de MIME de documento:

PDF - application/pdf
Texto - text/plain

Límites por solicitud

Los PDFs se tratan como imágenes, por lo que una sola página de un PDF se considera una sola imagen. La cantidad de páginas permitidas en una instrucción se limita a la cantidad de imágenes que pueden admitir los modelos multimodales de Gemini.

Cantidad máxima de archivos por solicitud: 3,000 archivos
Cantidad máxima de páginas por archivo: 1,000
Tamaño máximo por archivo: 50 MB por archivo

Documentos: Asignación de token

Tokenización de PDF

Los PDFs se tratan como imágenes, por lo que cada página de un PDF se tokeniza de la misma manera que una imagen.

Además, el costo de los PDFs sigue los precios de las imágenes de Gemini. Por ejemplo, si incluyes un PDF de dos páginas en una llamada a la API de Gemini, incurres en una tarifa de entrada por procesar dos imágenes.

Documentos: prácticas recomendadas

Cuando uses archivos PDF, usa la siguiente información y prácticas recomendadas para obtener los mejores resultados:

Si tu instrucción contiene un solo PDF, colócalo antes de la instrucción de texto en tu solicitud.
Si tienes un documento largo, evalúa dividirlo en varios archivos PDF para procesarlo.
Usa archivos PDF creados con texto renderizado como texto en lugar de texto de imágenes escaneadas. Este formato garantiza que el texto sea legible para las máquinas, de modo que sea más fácil para el modelo editar, buscar y manipular en comparación con los PDFs de las imágenes escaneadas. Esta práctica proporciona resultados óptimos cuando se trabaja con documentos con mucho texto, como contratos.

Documentos: Limitaciones

Si bien los modelos multimodales de Gemini son potentes en muchos casos de uso multimodales, es importante comprender las limitaciones de los modelos:

Razonamiento espacial: Los modelos no son precisos para ubicar texto u objetos en archivos PDF. Es posible que solo muestren los recuentos aproximados de los objetos.
Exactitud: los modelos pueden tener alucinaciones cuando interpretan texto escrito a mano en documentos PDF.

Requisitos y archivos de entrada compatibles Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Opciones para proporcionar archivos en solicitudes multimodales

Opción 1: Proporciona el archivo como datos intercalados

Opción 2: Proporciona el archivo con una URL

Imágenes: Requisitos, prácticas recomendadas y limitaciones

Imágenes: Requisitos

Tipos de MIME admitidos

Límites por solicitud

Imágenes: Asignación de token

Imágenes: prácticas recomendadas

Imágenes: Limitaciones

Video: Requisitos, prácticas recomendadas y limitaciones

Video: Requisitos

Tipos de MIME admitidos

Límites por solicitud

Video: Tokenization

Video: Prácticas recomendadas

Video: Limitaciones

Audio: Requisitos y limitaciones

Audio: Requisitos

Tipos de MIME admitidos

Límites por solicitud

Audio: Limitaciones

Documentos (como archivos PDF): Requisitos, prácticas recomendadas y limitaciones

Documentos: Requisitos

Tipos de MIME admitidos

Límites por solicitud

Documentos: Asignación de token

Documentos: prácticas recomendadas

Documentos: Limitaciones

Requisitos y archivos de entrada compatibles