La familia de modelos Gemini se considera multimodal porque son capaces de procesar información de varias modalidades, como imágenes, videos y texto. Por ejemplo, puedes enviar a un modelo de Gemini una foto de un plato de galletas y pedirle que te dé una receta de esas galletas.
Instrucción | Respuesta |
Dame una receta para estas cookies. |
**INGREDIENTES** - 1 c. (2 barras) mantequilla sin sal, ablandada - 3/4 t. azúcar granulado - 3/4 t. azúcar morena, compacta - 1 cdta. extracto de vainilla - 2 huevos grandes - 2 1/4 t. harina multipropósito - 1 cdta. polvos de hornear - 1 cdta. sal |
Puedes interactuar con la familia de modelos Gemini mediante la API de Gemini que proporciona Vertex AI en Google Cloud. En las apps web y para dispositivos móviles, puedes usar los SDK de Vertex AI para Firebase para llamar a la API de Gemini y, luego, interactuar con los modelos de Gemini directamente desde tu app.
En esta página, se proporciona la siguiente información sobre los modelos de Gemini:
Comparación de alto nivel de los casos de uso de los distintos modelos de Gemini, incluidos los tipos de entrada compatibles.
Comparación de los detalles de cada modelo, como tokens de entrada máximos o duración máxima de video
Descripción de cómo se controlan las versiones de los modelos de Gemini, específicamente, sus versiones estable, con actualización automática y vista previa.
Listas de nombres de modelos disponibles para incluir en tu código durante la inicialización
Lista de idiomas compatibles para los modelos de Gemini.
Modelos disponibles
Puedes usar cualquiera de los siguientes modelos de Gemini con Vertex AI para Firebase:
Gemini 1.5 Flash: Modelo multimodal que admite los mismos tipos de entrada y salida que 1.5 Pro (además del recuento total de tokens), pero Flash 1.5 está diseñado específicamente para aplicaciones rentables de gran volumen.
Gemini 1.5 Pro: Modelo multimodal que permite agregar archivos de imagen, audio, video y PDF en instrucciones de texto o chat para una respuesta de texto o código. Además, admite la comprensión del contexto largo con hasta 1 millón de tokens.
Gemini 1.0 Pro Vision: Modelo multimodal diseñado para controlar texto, imágenes y videos de una respuesta de texto o código. No se puede usar para el chat.
Gemini 1.0 Pro: Modelo diseñado para controlar tareas de lenguaje natural, chat de varios turnos con texto y código, y generación de código.
Ve a nombres de modelos para incluirlos en tu código.
Casos de uso de cada modelo
Gemini 1.5 Flash / Gemini 1.5 Pro |
Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|
Tipos de entrada | |||
Texto | |||
Código | |||
Imagen | |||
Video (solo fotogramas) | |||
Video (fotogramas y audio) | |||
Audio | |||
Tipos de salida | |||
Texto | |||
Código | |||
Casos de uso generales | |||
Solicitudes multimodales | |||
Chat de varios turnos |
Obtén más información sobre los casos de uso de los modelos de Gemini en la documentación de Google Cloud:
- Casos de uso de Gemini 1.5 Flash
- Casos de uso de Gemini 1.5 Pro
- Casos de uso de Gemini 1.0 Pro Vision
- Casos de uso de Gemini 1.0 Pro
Información detallada sobre cada modelo
Para todos los modelos de Gemini, un token es equivalente a, aproximadamente, 4 caracteres. 100 tokens son entre 60 y 80 palabras en inglés. Puedes determinar el recuento total de
tokens en tus solicitudes con countTokens
.
Propiedad |
Gemini 1.5 Flash / Gemini 1.5 Pro |
Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|
Límite total de tokens (entrada y salida combinadas) | 1 millón de tokens | 16,384 tokens | 32,760 tokens |
Límite de tokens de salida | 8,192 tokens | 2,048 tokens | 8,192 tokens |
Cantidad máxima de imágenes por solicitud | 3,000 imágenes | 16 imágenes | N/A |
Tamaño máximo de la imagen codificada en base64 | 7 MB | 7 MB | N/A |
Tamaño máximo de PDF | 30 MB | 30 MB | N/A |
Cantidad máxima de archivos de video por solicitud | 10 archivos de video | 1 archivo de video | N/A |
Duración máxima del video (solo fotogramas) | 60 minutos de video | 2 minutos | N/A |
Duración máxima del video (fotogramas y audio) | ~45 minutos de video | N/A | N/A |
Cantidad máxima de archivos de audio por solicitud | 1 archivo de audio | N/A | N/A |
Duración máxima del audio | ~8.4 horas de audio | N/A | N/A |
Aquí puedes encontrar información aún más detallada sobre los modelos y los archivos de entrada:
Obtén más información sobre las diferencias entre los modelos multimodales en la documentación de Google Cloud.
Obtén información sobre los tipos de archivos admitidos, cómo especificar el tipo de MIME y cómo asegurarte de que tus archivos y solicitudes multimodales cumplan con los requisitos, y sigue las prácticas recomendadas en Archivos de entrada y requisitos admitidos para la API de Vertex AI Gemini.
Control de versiones de los modelos
Los modelos de Gemini se ofrecen en versiones estable, con actualización automática y vista previa.
Las versiones estable se consideran disponibles de forma general.
- Las versiones estables tienen nombres de modelos anexados con un número de versión específico de tres dígitos, por ejemplo,
.gemini-1.0-pro-001
- Las versiones estables tienen nombres de modelos anexados con un número de versión específico de tres dígitos, por ejemplo,
Las versiones actualizadas automáticamente siempre apuntan a la versión estable más reciente de ese modelo. Si se lanza una nueva versión estable, la versión actualizada automáticamente comienza a apuntar automáticamente a esa versión estable nueva.
- Las versiones actualizadas automáticamente tienen nombres de modelos sin anexo, por ejemplo,
.gemini-1.0-pro
- Las versiones actualizadas automáticamente tienen nombres de modelos sin anexo, por ejemplo,
Las versiones Preview tienen funciones nuevas y se consideran no estables. Ten en cuenta que las versiones preliminares siempre apuntan a la versión de vista previa más reciente de ese modelo. Si se lanza una nueva versión preliminar, cualquier versión de vista previa existente comenzará a apuntar automáticamente a esa versión de vista previa nueva.
- Las versiones preliminares tienen nombres de modelos agregados con
junto con la fecha de lanzamiento inicial del modelo (-preview
), por ejemplo,-MMDD
(lanzada el 9 de abril de 2024).gemini-1.5-pro-preview-0409
- Las versiones preliminares tienen nombres de modelos agregados con
Obtén más información sobre las versiones de modelos de Gemini disponibles y su ciclo de vida en la documentación de Google Cloud.
Nombres de modelos disponibles
Los nombres de los modelos son los valores explícitos que incluyes en tu código durante la inicialización del modelo generativo (que es un paso necesario para llamar a la API de Gemini). Si deseas ver ejemplos de inicialización para tu lenguaje, consulta la guía de introducción.
Nombres de modelos de Flash de Gemini 1.5
Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento inicial | Fecha de descontinuación |
---|---|---|---|---|
Versiones estables | ||||
gemini-1.5-flash-001 |
La versión estable más reciente de Gemini 1.5 Flash | Disponibilidad general | 2024-05-24 | No antes del 24/5/2025 |
Versión actualizada automáticamente | ||||
gemini-1.5-flash |
Dirige a la versión estable más reciente de 1.5 Flash (actualmente gemini-1.5-flash-001 |
Disponibilidad general | 2024-05-24 | --- |
Versiones preliminares | ||||
gemini-1.5-flash-preview-0514 |
Versión preliminar más reciente de Gemini 1.5 Flash | Versión preliminar pública | 2024-05-14 | 2024-06-24 |
Nombres de los modelos de Gemini 1.5 Pro
Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento inicial | Fecha de descontinuación |
---|---|---|---|---|
Versiones estables | ||||
gemini-1.5-pro-001 |
La versión estable más reciente de Gemini 1.5 Pro | Disponibilidad general | 2024-05-24 | No antes del 24/5/2025 |
Versión actualizada automáticamente | ||||
gemini-1.5-pro |
Apunta a la versión estable más reciente de 1.5 Pro (actualmente, gemini-1.5-pro-001 |
Disponibilidad general | 2024-05-24 | --- |
Versiones preliminares | ||||
gemini-1.5-pro-preview-0514 |
Versión preliminar más reciente de Gemini 1.5 Pro | Versión preliminar pública | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
Apunta a gemini-1.5-pro-preview-0514 (que es la versión de la vista previa más reciente). |
Versión preliminar pública | 2024-04-09 | 2024-06-14 |
Nombres de los modelos de Gemini 1.0 Pro Vision
Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento inicial | Fecha de descontinuación |
---|---|---|---|---|
Versiones estables | ||||
gemini-1.0-pro-vision-001 |
La versión estable más reciente de Gemini 1.0 Pro Vision | Disponibilidad general | 2024-02-15 | No antes del 15/02/2025 |
Versión actualizada automáticamente | ||||
gemini-1.0-pro-vision |
Apunta a la versión estable más reciente de 1.5 Pro Vision (actualmente gemini-1.5-pro-vision-001 |
Disponibilidad general | 2024-01-04 | --- |
Nombres de los modelos de Gemini 1.0 Pro
Nombre del modelo | Descripción | Etapa de lanzamiento | Fecha de lanzamiento inicial | Fecha de descontinuación |
---|---|---|---|---|
Versiones estables | ||||
gemini-1.0-pro-002 |
La versión estable más reciente de Gemini 1.0 Pro | Disponibilidad general | 2024-04-09 | No antes del 9/4/2025 |
gemini-1.0-pro-001 |
Versión estable de Gemini 1.0 Pro | Disponibilidad general | 2024-02-15 | No antes del 15/02/2025 |
Versión actualizada automáticamente | ||||
gemini-1.0-pro |
Apunta a la versión estable más reciente de 1.0 Pro (actualmente, gemini-1.0-pro-002 |
Disponibilidad general | 2024-02-15 | --- |
Idiomas compatibles
Los modelos de Gemini admiten los siguientes idiomas:
Árabe (ar), bengalí (bn), bg
Próximos pasos
Prueba las funciones de la API de Gemini
- Crea conversaciones de varios turnos (chat).
- Generar texto desde mensajes solo de texto.
- Generar texto a partir de instrucciones multimodales (incluidos texto, imágenes, PDF, video y audio).
- Usa la llamada de funciones para conectar modelos generativos a información y sistemas externos.