Watch demos on how to build & run AI-powered apps with Firebase at Demo Day '24. Watch now.

Se usó la API de Cloud Translation para traducir esta página.

Genera texto a partir de instrucciones multimodales con la API de Gemini de Gemini

Cuando llamas a Gemini API desde tu app con un SDK de Vertex AI in Firebase, puedes pedirle al modelo de Gemini que genere texto según una entrada multimodal. Las instrucciones multimodales pueden incluir varias modalidades (o tipos de entrada), como texto junto con imágenes, PDF, video y audio.

Para probar y, luego, iterar las instrucciones multimodales, recomendamos usar Vertex AI Studio.

Otras opciones para trabajar con Gemini API

De manera opcional, experimenta con una versión alternativa "Google AI" de la función Gemini API
Obtén acceso sin costo (dentro de los límites y cuando esté disponible) con Google AI Studio y los SDKs de cliente Google AI. Estos SDKs deben usarse solo para crear prototipos en apps web y para dispositivos móviles.

Una vez que estés familiarizado con el funcionamiento de un Gemini API, migra a nuestros SDKs de Vertex AI in Firebase (esta documentación), que tienen muchas funciones adicionales importantes para las apps web y para dispositivos móviles, como proteger la API del abuso con Firebase App Check y compatibilidad con archivos multimedia grandes en las solicitudes.

Opcionalmente, llama al Vertex AI Gemini API del servidor (como con Python, Node.js o Go)
Usa los SDK de Vertex AI del servidor, Firebase Genkit o Firebase Extensions para Gemini API.

Antes de comenzar

Si aún no lo hiciste, completa la guía de introducción a los SDKs de Vertex AI in Firebase. Asegúrate de haber hecho lo siguiente:

Configura un proyecto de Firebase nuevo o existente, incluido el uso del plan de precios Blaze y la habilitación de las APIs requeridas.
Conecta tu app a Firebase, lo que incluye registrarla y agregar la configuración de Firebase a la app.
Agrega el SDK y, luego, inicializa el servicio de Vertex AI y el modelo generativo en tu app.

Una vez que hayas conectado tu app a Firebase, agregado el SDK y inicializado el servicio Vertex AI y el modelo generativo, todo estará listo para llamar a Gemini API.

Genera texto a partir de texto y una sola imagen
Genera texto a partir de texto y varias imágenes
Genera texto a partir de texto y un video

Genera texto a partir de texto y una sola imagen

Asegúrate de haber completado la sección Antes de comenzar de esta guía antes de probar este ejemplo.

Puedes llamar a Gemini API con instrucciones multimodales que incluyan texto y un solo archivo (como una imagen, como se muestra en este ejemplo). Para estas llamadas, debes usar un modelo que admita instrucciones multimodales (como Gemini 1.5 Pro).

Los archivos admitidos incluyen imágenes, archivos PDF, videos, audio y mucho más. Asegúrate de revisar los requisitos y las recomendaciones para los archivos de entrada.

Elige si quieres transmitir la respuesta (generateContentStream) o esperar a que se genere todo el resultado (generateContent).

Transmisión

Puedes lograr interacciones más rápidas si no esperas a que se genere todo el resultado del modelo y, en su lugar, usas la transmisión para controlar los resultados parciales.

Sin transmisión

Como alternativa, puedes esperar a que se muestre todo el resultado en lugar de transmitirlo. El resultado solo se muestra después de que el modelo completa todo el proceso de generación.

Aprende a elegir un modelo de Gemini y, de manera opcional, una ubicación adecuada para tu caso de uso y app.

Genera texto a partir de texto y varias imágenes

Asegúrate de haber completado la sección Antes de comenzar de esta guía antes de probar este ejemplo.

Puedes llamar a Gemini API con instrucciones multimodales que incluyan texto y varios archivos (como imágenes, como se muestra en este ejemplo). Para estas llamadas, debes usar un modelo que admita instrucciones multimodales (como Gemini 1.5 Pro).

Los archivos admitidos incluyen imágenes, archivos PDF, videos, audio y mucho más. Asegúrate de revisar los requisitos y las recomendaciones para los archivos de entrada.

Elige si quieres transmitir la respuesta (generateContentStream) o esperar a que se genere todo el resultado (generateContent).

Transmisión

Puedes lograr interacciones más rápidas si no esperas a que se genere todo el resultado del modelo y, en su lugar, usas la transmisión para controlar los resultados parciales.

Sin transmisión

Como alternativa, puedes esperar a que se complete todo el resultado en lugar de transmitirlo. El resultado solo se muestra después de que el modelo completa todo el proceso de generación.

Aprende a elegir un modelo de Gemini y, de manera opcional, una ubicación adecuada para tu caso de uso y app.

Genera texto a partir de texto y un video

Asegúrate de haber completado la sección Antes de comenzar de esta guía antes de probar este ejemplo.

Puedes llamar a Gemini API con instrucciones multimodales que incluyan texto y un solo video (como se muestra en este ejemplo). Para estas llamadas, debes usar un modelo que admita instrucciones multimodales (como Gemini 1.5 Pro).

Asegúrate de revisar los requisitos y las recomendaciones para los archivos de entrada.

Elige si quieres transmitir la respuesta (generateContentStream) o esperar a que se genere todo el resultado (generateContent).

Transmisión

Puedes lograr interacciones más rápidas si no esperas a que se genere todo el resultado del modelo y, en su lugar, usas la transmisión para controlar los resultados parciales.

Sin transmisión

Como alternativa, puedes esperar a que se muestre todo el resultado en lugar de transmitirlo. El resultado solo se muestra después de que el modelo completa todo el proceso de generación.

Aprende a elegir un modelo de Gemini y, de manera opcional, una ubicación adecuada para tu caso de uso y app.

Requisitos y recomendaciones para los archivos de entrada

Para obtener información sobre los tipos de archivos admitidos, cómo especificar el tipo MIME y cómo asegurarte de que tus archivos y solicitudes multimodales cumplan con los requisitos y sigan las prácticas recomendadas, consulta Archivos de entrada admitidos y requisitos para Vertex AI Gemini API.

¿Qué más puedes hacer?

Aprende a contar tokens antes de enviar instrucciones largas al modelo.
Configura Cloud Storage for Firebase para que puedas incluir archivos grandes en tus solicitudes multimodales con URLs Cloud Storage. Los archivos pueden incluir imágenes, archivos PDF, videos y audio.
Comienza a pensar en prepararte para la producción, lo que incluye configurar Firebase App Check para proteger el Gemini API del abuso de clientes no autorizados.

Prueba otras funciones de Gemini API

Crea conversaciones de varios turnos (chat).
Generar texto a partir de instrucciones de solo texto
Genera resultados estructurados (como JSON) a partir de instrucciones multimodales y de texto.
Usa las llamadas a funciones para conectar los modelos generativos a sistemas y datos externos.

Aprende a controlar la generación de contenido

Comprende el diseño de instrucciones, incluidas las prácticas recomendadas, las estrategias y los ejemplos de instrucciones.
Configura los parámetros del modelo, como la temperatura y la cantidad máxima de tokens de salida.
Usa la configuración de seguridad para ajustar la probabilidad de recibir respuestas que se puedan considerar dañinas.

También puedes experimentar con instrucciones y configuraciones de modelos con Vertex AI Studio.

Más información sobre los modelos de Gemini

Obtén información sobre los modelos disponibles para varios casos de uso y sus cuotas y precios.

Envía comentarios sobre tu experiencia con Vertex AI in Firebase