Générer du texte à partir de requêtes multimodales à l'aide de l'API Gemini


Lorsque vous appelez Gemini API à partir de votre application à l'aide d'un SDK Vertex AI in Firebase, vous pouvez demander au modèle Gemini de générer du texte à partir d'une entrée multimodale. Les requêtes multimodales peuvent inclure plusieurs modalités (ou types d'entrées), comme du texte, ainsi que des images, des fichiers PDF, de la vidéo et de l'audio.

Pour tester et itérer les requêtes multimodales, nous vous recommandons d'utiliser Vertex AI Studio.

Avant de commencer

Si vous ne l'avez pas déjà fait, suivez le guide de démarrage pour les SDK Vertex AI in Firebase. Assurez-vous d'avoir effectué les opérations suivantes :

  1. Configurez un projet Firebase nouveau ou existant, en utilisant le forfait Blaze et en activant les API requises.

  2. Connectez votre application à Firebase, y compris en l'enregistrant et en ajoutant votre configuration Firebase à votre application.

  3. Ajoutez le SDK et initialisez le service Vertex AI et le modèle génératif dans votre application.

Une fois que vous avez connecté votre application à Firebase, ajouté le SDK et initialisé le service Vertex AI et le modèle génératif, vous êtes prêt à appeler Gemini API.

Générer du texte à partir de texte et d'une seule image

Assurez-vous d'avoir terminé la section Avant de commencer de ce guide avant d'essayer cet exemple.

Vous pouvez appeler Gemini API avec des invites multimodales qui incluent à la fois du texte et un seul fichier (comme une image, comme illustré dans cet exemple). Pour ces appels, vous devez utiliser un modèle compatible avec les requêtes multimodales (comme Gemini 1.5 Pro).

Les fichiers image, PDF, vidéo, audio, etc. sont acceptés. Veillez à consulter les exigences et recommandations pour les fichiers d'entrée.

Indiquez si vous souhaitez diffuser la réponse (generateContentStream) ou attendre la réponse jusqu'à ce que le résultat complet soit généré (generateContent).

Streaming

Vous pouvez accélérer les interactions en n'attendant pas le résultat complet de la génération du modèle, et en utilisant plutôt le streaming pour gérer les résultats partiels.

Sans streaming

Vous pouvez également attendre le résultat complet au lieu de le diffuser en streaming. Le résultat n'est renvoyé qu'une fois que le modèle a terminé l'ensemble du processus de génération.

Découvrez comment choisir un modèle Gemini et éventuellement un emplacement adapté à votre cas d'utilisation et à votre application.

Générer du texte à partir de texte et de plusieurs images

Assurez-vous d'avoir suivi la section Avant de commencer de ce guide avant d'essayer cet exemple.

Vous pouvez appeler Gemini API avec des requêtes multimodales qui incluent à la fois du texte et plusieurs fichiers (comme des images, comme illustré dans cet exemple). Pour ces appels, vous devez utiliser un modèle compatible avec les requêtes multimodales (tel que Gemini 1.5 Pro).

Les fichiers image, PDF, vidéo, audio, etc. sont acceptés. Veillez à consulter les exigences et recommandations concernant les fichiers d'entrée.

Indiquez si vous souhaitez diffuser la réponse (generateContentStream) ou attendre la réponse jusqu'à ce que le résultat complet soit généré (generateContent).

Streaming

Vous pouvez obtenir des interactions plus rapides en n'attendant pas l'intégralité du résultat de la génération du modèle. Utilisez plutôt le traitement par flux pour gérer les résultats partiels.

Sans streaming

Vous pouvez également attendre l'intégralité du résultat au lieu de le diffuser. Le résultat n'est renvoyé qu'une fois que le modèle a terminé l'ensemble du processus de génération.

Découvrez comment choisir un modèle Gemini et éventuellement un emplacement adapté à votre cas d'utilisation et à votre application.

Générer du texte à partir de texte et d'une vidéo

Assurez-vous d'avoir terminé la section Avant de commencer de ce guide avant d'essayer cet exemple.

Vous pouvez appeler Gemini API avec des requêtes multimodales qui incluent à la fois du texte et une seule vidéo (comme indiqué dans cet exemple). Pour ces appels, vous devez utiliser un modèle compatible avec les requêtes multimodales (comme Gemini 1.5 Pro).

Veillez à consulter les exigences et recommandations pour les fichiers d'entrée.

Indiquez si vous souhaitez diffuser la réponse (generateContentStream) ou attendre la réponse jusqu'à ce que le résultat complet soit généré (generateContent).

Streaming

Vous pouvez obtenir des interactions plus rapides en n'attendant pas l'intégralité du résultat de la génération du modèle. Utilisez plutôt le traitement par flux pour gérer les résultats partiels.

Sans streaming

Vous pouvez également attendre l'intégralité du résultat au lieu de le diffuser. Le résultat n'est renvoyé qu'une fois que le modèle a terminé l'ensemble du processus de génération.

Découvrez comment choisir un modèle Gemini et éventuellement une localisation adaptée à votre cas d'utilisation et à votre application.

Exigences et recommandations pour les fichiers d'entrée

Pour en savoir plus sur les types de fichiers compatibles et sur la manière de spécifier le type MIME, et pour vous assurer que vos fichiers et requêtes multimodales répondent aux exigences et respectent les bonnes pratiques, consultez la section Fichiers d'entrée compatibles et exigences pour le Vertex AI Gemini API.

Qu'est-ce que tu sais faire d'autre ?

  • Apprenez à compter les jetons avant d'envoyer de longues requêtes au modèle.
  • Configurez Cloud Storage for Firebase pour inclure des fichiers volumineux dans vos requêtes multimodales à l'aide d'URL Cloud Storage. Les fichiers peuvent inclure des images, des PDF, des vidéos et des fichiers audio.
  • Commencez à réfléchir à la préparation pour la production, y compris à la configuration de Firebase App Check pour protéger Gemini API contre les utilisations abusives de clients non autorisés.

Essayer d'autres fonctionnalités de Gemini API

Découvrez comment contrôler la génération de contenu

Vous pouvez également tester des requêtes et des configurations de modèle à l'aide de Vertex AI Studio.

En savoir plus sur les modèles Gemini

Découvrez les modèles disponibles pour différents cas d'utilisation, ainsi que leurs quotas et tarifs.


Envoyer des commentaires sur votre expérience avec Vertex AI in Firebase