Obtén información sobre los modelos de Gemini

La familia de modelos de Gemini se considera multimodal porque puede procesar información de varias modalidades, lo que incluye imágenes, videos y texto. Por ejemplo, puedes enviarle a un modelo de Gemini una foto de un plato de galletas y pedirle que te dé una receta para esas galletas.

Instrucción Respuesta

Dame una receta para estas cookies.

fotografía de varias galletas con chispas de chocolate
**INGREDIENTES**
- 1 c. (2 barras) mantequilla sin sal, ablandada
- 3/4 t. azúcar granulado
- 3/4 t. azúcar morena, compacta
- 1 cdta. extracto de vainilla
- 2 huevos grandes
- 2 1/4 t. harina multipropósito
- 1 cdta. polvos de hornear
- 1 cdta. sal

Puedes interactuar con la familia de modelos de Gemini usando la API de Gemini que proporciona Vertex AI en Google Cloud. En el caso de las apps web y para dispositivos móviles, puedes usar los SDK de Vertex AI para Firebase para llamar a la API de Gemini e interactuar con los modelos de Gemini directamente desde tu app.

En esta página, se proporciona la siguiente información sobre los modelos de Gemini:

  • Comparación de alto nivel de los casos de uso de los distintos modelos de Gemini, incluidos los tipos de entrada compatibles.

  • Comparación de los detalles de cada modelo, por ejemplo, tokens de entrada máximos o duración máxima de video.

  • Descripción de cómo se controlan las versiones de los modelos de Gemini, específicamente sus versiones estable, actualizada automáticamente y de vista previa

  • Listas de nombres de modelos disponibles para incluir en tu código durante la inicialización.

  • Lista de idiomas compatibles con los modelos de Gemini.

Modelos disponibles

Puedes usar cualquiera de los siguientes modelos de Gemini con Vertex AI para Firebase:

  • Gemini 1.5 Flash
    Modelo multimodal que admite los mismos tipos de entrada y salida que 1.5 Pro (además del recuento total de tokens), pero 1.5 Flash está diseñado específicamente para aplicaciones rentables y de gran volumen.

  • Gemini 1.5 Pro
    Modelo multimodal que admite agregar archivos de imagen, audio, video y PDF en instrucciones de texto o chat para una respuesta de texto o código. Además, admite la comprensión del contexto a largo plazo con hasta 1 millón de tokens.

  • Gemini 1.0 Pro Vision
    Modelo multimodal diseñado para procesar texto, imágenes y video en una respuesta de texto o código. No se puede usar para el chat.

  • Gemini 1.0 Pro
    Modelo diseñado para manejar tareas de lenguaje natural, chat de varios turnos con texto y código, y generación de código.

Ve a los nombres de modelos para incluirlos en tu código

Casos de uso y capacidades para cada modelo

Cada modelo de Gemini tiene diferentes capacidades para admitir varios casos de uso. Puedes obtener más información sobre cada uno de los modelos de Gemini en la documentación de Google Cloud.

Entrada y salida admitidas para cada modelo

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Tipos de entrada
Texto
Código
Imagen
PDF
Video (solo fotogramas)
Video (fotogramas y audio)
Audio
Tipos de salida
Texto
Código

Para obtener más información sobre los tipos de archivos admitidos, consulta Archivos de entrada compatibles y requisitos para la API de Vertex AI Gemini.

Capacidades admitidas y funciones generales para cada modelo

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Generación de texto a partir de instrucciones solo de texto
Generación de texto a partir de instrucciones multimodales
Salida de JSON (modo de esquema restringido)
(próximamente en los SDK de Vertex AI para Firebase)
Chat de varios turnos
Llamada a función
Llamadas a funciones básicas
Llamadas a funciones paralelas
Modo de llamada a función
Contar tokens y caracteres facturables
Instrucciones del sistema

Información detallada sobre cada modelo

Propiedad Gemini 1.5 Flash /
Gemini 1.5 Pro
Gemini 1.0 Pro Vision Gemini 1.0 Pro
Límite total de tokens (entrada y salida combinadas) * 1 millón de tokens 16,384 tokens 32,760 tokens
Límite de tokens de salida * 8,192 tokens 2,048 tokens 8,192 tokens
Cantidad máxima de imágenes por solicitud 3,000 imágenes 16 imágenes N/A
Tamaño máximo de la imagen codificada en base64 7 MB 7 MB N/A
Tamaño máximo del PDF 30 MB 30 MB N/A
Cantidad máxima de archivos de video por solicitud 10 archivos de video 1 archivo de video N/A
Duración máxima del video (solo fotogramas) 60 minutos de video 2 minutos N/A
Duración máxima del video (marcos y audio) ~45 minutos de video N/A N/A
Cantidad máxima de archivos de audio por solicitud 1 archivo de audio N/A N/A
Duración máxima del audio ~8.4 horas de audio N/A N/A

* En todos los modelos de Gemini, un token equivale a aproximadamente 4 caracteres, por lo que 100 tokens son entre 60 y 80 palabras en inglés. Puedes determinar el recuento total de tokens en tus solicitudes con countTokens.

Aquí es donde puedes encontrar información aún más detallada sobre los modelos y los archivos de entrada:

Control de versiones de los modelos

Los modelos de Gemini se ofrecen en las versiones estable, con actualización automática y de vista previa.

  • Las versiones estables se consideran con disponibilidad general.

    • Las versiones estables tienen nombres de modelos agregados con un número de versión específico de tres dígitos, por ejemplo, gemini-1.0-pro-001.
  • Las versiones actualizadas automáticamente siempre apuntan a la versión más reciente stable de ese modelo. Si se lanza una nueva versión estable, la actualizada automáticamente comienza a apuntar a esa nueva versión estable.

    • Las versiones actualizadas automáticamente tienen nombres de modelos sin anexos, por ejemplo, gemini-1.0-pro.
  • Las versiones de versión preliminar tienen funciones nuevas y se consideran no estables. Ten en cuenta que las versiones preliminares siempre apuntan a la versión de la vista previa más reciente de ese modelo. Si se lanza una nueva versión preliminar, cualquier versión existente comenzará a apuntar automáticamente a esa nueva versión.

    • Las versiones preliminares tienen nombres de modelos agregados con -preview junto con la fecha de lanzamiento inicial del modelo (-MMDD), por ejemplo gemini-1.5-pro-preview-0409 (lanzado el 9 de abril de 2024).

Obtén más información sobre las versiones disponibles del modelo de Gemini y su ciclo de vida en la documentación de Google Cloud.

Nombres de modelos disponibles

Los nombres del modelo son los valores explícitos que incluyes en tu código durante la inicialización del modelo generativo (un paso obligatorio para llamar a la API de Gemini). Para obtener ejemplos de inicialización para tu lenguaje, consulta la guía de introducción.

Nombres de modelos de Gemini 1.5 Flash

Nombre del modelo Descripción Etapa de lanzamiento Fecha del lanzamiento inicial Fecha de descontinuación
Versiones estables
gemini-1.5-flash-001 La versión estable más reciente de Gemini 1.5 Flash Disponibilidad general 2024-05-24 No antes del 24/05/2025
Versión actualizada automáticamente
gemini-1.5-flash Apunta a la versión estable más reciente de 1.5 Flash
(actualmente, gemini-1.5-flash-001)
Disponibilidad general 2024-05-24 ---
Versiones preliminares
gemini-1.5-flash-preview-0514 Versión preliminar más reciente de Gemini 1.5 Flash Versión preliminar pública 2024-05-14 2024-06-24

Nombres de modelos de Gemini 1.5 Pro

Nombre del modelo Descripción Etapa de lanzamiento Fecha del lanzamiento inicial Fecha de descontinuación
Versiones estables
gemini-1.5-pro-001 La versión estable más reciente de Gemini 1.5 Pro Disponibilidad general 2024-05-24 No antes del 24/05/2025
Versión actualizada automáticamente
gemini-1.5-pro Apunta a la versión estable más reciente de 1.5 Pro
(actualmente gemini-1.5-pro-001)
Disponibilidad general 2024-05-24 ---
Versiones preliminares
gemini-1.5-pro-preview-0514 Versión preliminar más reciente de Gemini 1.5 Pro Versión preliminar pública 2024-05-14 2024-06-24
gemini-1.5-pro-preview-0409 Apunta a gemini-1.5-pro-preview-0514
(que es la versión de vista previa más reciente)
Versión preliminar pública 2024-04-09 2024-06-14

Nombres de modelos de Gemini 1.0 Pro Vision

Nombre del modelo Descripción Etapa de lanzamiento Fecha del lanzamiento inicial Fecha de descontinuación
Versiones estables
gemini-1.0-pro-vision-001 La versión estable más reciente de Gemini 1.0 Pro Vision Disponibilidad general 2024-02-15 No antes del 15-02-2025
Versión actualizada automáticamente
gemini-1.0-pro-vision Apunta a la versión estable más reciente de 1.5 Pro Vision
(actualmente gemini-1.5-pro-vision-001)
Disponibilidad general 2024-01-04 ---

Nombres de modelos de Gemini 1.0 Pro

Nombre del modelo Descripción Etapa de lanzamiento Fecha del lanzamiento inicial Fecha de descontinuación
Versiones estables
gemini-1.0-pro-002 La versión estable más reciente de Gemini 1.0 Pro Disponibilidad general 2024-04-09 No antes del 9/4/2025
gemini-1.0-pro-001 Versión estable de Gemini 1.0 Pro Disponibilidad general 2024-02-15 No antes del 15-02-2025
Versión actualizada automáticamente
gemini-1.0-pro Apunta a la versión estable más reciente de 1.0 Pro
(actualmente gemini-1.0-pro-002)
Disponibilidad general 2024-02-15 ---

Idiomas compatibles

Los modelos de Gemini admiten los siguientes lenguajes:

árabe (ar), bengalí (bn), búlgaro (bg), chino simplificado y tradicional (zh), croata (hr), checo (cs), danés (da), holandés (nl), inglés (en), estonio (et), finés (fi), francés (fr), alemán (de), griego (el), hebreo (iw), polaco (iw), griego (iw), polaco (iw), italiano y polaco (hiviano), húngaro (iw), japonés (ID), húngaro (iw), japonés (ID), holandés (nl), noruego (sueco), polaco (iw), italiano y polaco (hiviano), japonés (ID), húngaro (es).

Próximos pasos

Prueba las funciones de la API de Gemini