La famille de modèles Gemini est considéré comme multimodal, car il est capable de traiter des informations provenant de plusieurs modalités, y compris des images, des vidéos et du texte. Par exemple, vous pouvez envoyer à un modèle Gemini la photo d'une assiette de cookies et lui demander de vous fournir une recette pour ces cookies.
Prompt (Invite) | Response (Réponse) |
Donne-moi une recette pour ces cookies. |
**INGRÉDIENTS** - 1 tasse. (2 briques) beurre doux, ramolli - 3/4 de tasse de sucre cristallisé - 3/4 de tasse de cassonade - 1 cuillère à café d'extrait de vanille - 2 gros œufs - 2 tasses 1/4 de farine tous usages - 1 cuillère à café de levure chimique - 1 cuillère à café de sel ... |
Vous pouvez interagir avec la famille de modèles Gemini à l'aide de la Gemini API fournie par Vertex AI sur Google Cloud. Pour les applications mobiles et Web, vous pouvez utiliser les SDK Vertex AI in Firebase afin d'appeler l'API Gemini et d'interagir avec les modèles Gemini directement depuis votre application.
Cette page fournit les informations suivantes sur les modèles Gemini:
Comparaison générale des cas d'utilisation des différents modèles Gemini, y compris les types d'entrées compatibles.
Comparaison des détails de chaque modèle, par exemple le nombre maximal de jetons d'entrée ou la longueur maximale de la vidéo.
Description de la gestion des versions des modèles Gemini, en particulier de leurs versions stables, mises à jour automatiquement et preview.
Listes des noms de modèles disponibles à inclure dans votre code lors de l'initialisation.
Liste des langues acceptées pour les modèles Gemini.
Modèles disponibles
Vous pouvez utiliser l'un des modèles Gemini suivants avec Vertex AI in Firebase :
Gemini 1.5 Flash
Modèle multimodal compatible avec les mêmes types d'entrée et de sortie que 1.5 Pro, mais avec une compréhension du contexte de longue durée de 1 million de jetons. Gemini 1.5 Flash est spécialement conçu pour les applications économiques et volumineuses.Gemini 1.5 Pro
Modèle multimodal qui permet d'ajouter des fichiers image, audio, vidéo et PDF dans des requêtes de texte ou de chat pour obtenir une réponse textuelle ou de code. Il est également compatible avec la compréhension du contexte de grande taille avec deux millions de jetons.Gemini 1.0 Pro Vision
Modèle multimodal conçu pour gérer du texte, des images et des vidéos pour une réponse textuelle ou de code. Ne peut pas être utilisée pour le chat.Gemini 1.0 Pro
Modèle conçu pour gérer les tâches en langage naturel, le chat multitour avec du texte et du code, et la génération de code.
Accéder aux noms de modèles à inclure dans votre code
Cas d'utilisation et fonctionnalités de chaque modèle
Chaque modèle Gemini offre des capacités différentes pour répondre à différents cas d'utilisation. Pour en savoir plus sur chacun des modèles Gemini, consultez la documentation Google Cloud.
Entrées et sorties compatibles pour chaque modèle
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
Types d'entrée | ||||
Texte | ||||
Code | ||||
Image | ||||
Vidéo (images uniquement) | ||||
Vidéo (images et audio) | ||||
Audio | ||||
Types de sortie | ||||
Texte | ||||
Sortie structurée (comme JSON) à l'aide d'un schéma de réponse | ||||
Code |
Pour en savoir plus sur les types de fichiers compatibles, consultez la section Fichiers d'entrée compatibles et exigences pour Vertex AI Gemini API.
Fonctionnalités prises en charge et fonctionnalités générales pour chaque modèle
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
Génération de texte à partir d'une entrée textuelle uniquement | |||||
Génération de texte à partir d'une entrée multimodale | |||||
Sortie structurée (comme JSON) à l'aide d'un schéma de réponse | |||||
Chat multitour | |||||
Appel de fonction | |||||
Appel de fonction de base | |||||
Appel de fonction en parallèle | |||||
Mode d'appel de fonction | |||||
Compter les jetons et les caractères facturables | |||||
Instructions système |
Informations détaillées sur chaque modèle
Propriété | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
Limite totale de jetons (entrées et sorties combinées)* | 1 048 576 jetons | 2 097 152 jetons | 16 384 jetons | 32 760 jetons |
Limite de jetons de sortie* | 8 192 jetons | 8 192 jetons | 2 048 jetons | 8 192 jetons |
Nombre maximal d'images par requête | 3 000 images | 3 000 images | 16 images | N/A |
Taille maximale de l'image encodée en base64 | 7 Mo | 7 Mo | 7 Mo | N/A |
Taille maximale du PDF | 30 MB | 30 MB | 30 MB | N/A |
Nombre maximal de fichiers vidéo par requête | 10 fichiers vidéo | 10 fichiers vidéo | 1 fichier vidéo | N/A |
Durée maximale de la vidéo (images uniquement) | ~60 minutes de vidéo | ~60 minutes de vidéo | 2 minutes | N/A |
Durée maximale de la vidéo (images et audio) | ~45 minutes de vidéo | ~45 minutes de vidéo | N/A | N/A |
Nombre maximal de fichiers audio par requête | 1 fichier audio | 1 fichier audio | N/A | N/A |
Durée maximale de l'audio | ~8,4 heures d'audio | ~8,4 heures d'audio | N/A | N/A |
* Pour tous les modèles Gemini, un jeton équivaut à environ 4 caractères, donc 100 jetons représentent environ 60 à 80 mots en anglais. Vous pouvez déterminer le nombre total de jetons dans vos requêtes à l'aide de countTokens
.
Découvrez les types de fichiers compatibles, comment spécifier le type MIME, et comment vous assurer que vos fichiers et requêtes multimodales répondent aux exigences et suivez les bonnes pratiques de la section Fichiers d'entrée compatibles et exigences pour le Vertex AI Gemini API.
Gestion des versions des modèles
Les modèles Gemini sont proposés en versions stable, mise à jour automatiquement et preview.
Les versions stables sont considérées comme disponibles pour tous les utilisateurs.
- Les noms de modèle des versions stables sont suivis d'un numéro de version à trois chiffres spécifique, par exemple
.gemini-1.5-pro-002
- Les noms de modèle des versions stables sont suivis d'un numéro de version à trois chiffres spécifique, par exemple
Les versions mises à jour automatiquement pointent toujours vers la dernière version stable de ce modèle. Si une nouvelle version stable est publiée, la version mise à jour automatiquement commence automatiquement à pointer vers cette nouvelle version stable.
- Les versions mises à jour automatiquement portent des noms de modèles sans aucun ajout (par exemple,
).gemini-1.5-pro
- Les versions mises à jour automatiquement portent des noms de modèles sans aucun ajout (par exemple,
Les versions Preview disposent de nouvelles fonctionnalités et sont considérées comme non stables. Notez que les versions d'aperçu pointent toujours vers la dernière version d'aperçu de ce modèle. Si une nouvelle version d'aperçu est publiée, toute version d'aperçu existante commence automatiquement à pointer vers cette nouvelle version d'aperçu.
- Les noms de modèle des versions preview sont suivis de
, ainsi que de la date de sortie initiale du modèle (-preview
), par exemple-MMDD
(publié le 9 avril 2024).gemini-1.5-pro-preview-0409
- Les noms de modèle des versions preview sont suivis de
Pour en savoir plus sur les versions de modèle Gemini disponibles et leur cycle de vie, consultez la documentation Google Cloud.
Noms de modèles disponibles
Les noms de modèle sont les valeurs explicites que vous incluez dans votre code lors de l'initialisation du modèle génératif (étape obligatoire pour appeler Gemini API). Pour obtenir des exemples d'initialisation pour votre langue, consultez le guide de démarrage.
Noms des modèles Gemini 1.5 Flash
Nom du modèle | Description | Étape de version | Date de disponibilité initiale | Date d'arrêt |
---|---|---|---|---|
Versions stables | ||||
gemini-1.5-flash-002 |
La dernière version stable de Gemini 1.5 Flash | Disponibilité générale | 2024-09-24 | Au plus tôt le 24/09/2025 |
gemini-1.5-flash-001 |
Version stable initiale de Gemini 1.5 Flash | Disponibilité générale | 2024-05-24 | Pas avant le 24/05/2025 |
Version mise à jour automatiquement | ||||
gemini-1.5-flash |
Pointe vers gemini-1.5-flash-001 Pour accéder à gemini-1.5-flash-002 |
Disponibilité générale | 2024-05-24 | --- |
Noms des modèles Gemini 1.5 Pro
Nom du modèle | Description | Étape de version | Date de disponibilité initiale | Date d'arrêt |
---|---|---|---|---|
Versions stables | ||||
gemini-1.5-pro-002 |
Dernière version stable de Gemini 1.5 Pro | Disponibilité générale | 2024-09-24 | Pas avant le 24/09/2025 |
gemini-1.5-pro-001 |
Version stable initiale de Gemini 1.5 Pro | Disponibilité générale | 2024-05-24 | Au plus tôt le 24 mai 2025 |
Version mise à jour automatiquement | ||||
gemini-1.5-pro |
Pointe vers gemini-1.5-pro-001 Pour accéder à gemini-1.5-pro-002 |
Disponibilité générale | 2024-05-24 | --- |
Noms des modèles Gemini 1.0 Pro Vision
Nom du modèle | Description | Étape de version | Date de disponibilité initiale | Date d'arrêt |
---|---|---|---|---|
Versions stables | ||||
gemini-1.0-pro-vision-001 |
Dernière version stable de Gemini 1.0 Pro Vision | Disponibilité générale | 2024-02-15 | Pas avant le 15/02/2025 |
Version mise à jour automatiquement | ||||
gemini-1.0-pro-vision |
Pointe vers la dernière version stable de 1.5 Pro Vision (actuellement gemini-1.5-pro-vision-001 |
Disponibilité générale | 2024-01-04 | --- |
Noms des modèles Gemini 1.0 Pro
Nom du modèle | Description | Étape de version | Date de disponibilité initiale | Date d'arrêt |
---|---|---|---|---|
Versions stables | ||||
gemini-1.0-pro-002 |
Dernière version stable de Gemini 1.0 Pro | Disponibilité générale | 2024-04-09 | Pas avant le 09/04/2025 |
gemini-1.0-pro-001 |
Version stable de Gemini 1.0 Pro | Disponibilité générale | 2024-02-15 | Au plus tôt le 15 février 2025 |
Version mise à jour automatiquement | ||||
gemini-1.0-pro |
Pointe vers la dernière version stable de 1.0 Pro (actuellement gemini-1.0-pro-002 |
Disponibilité générale | 2024-02-15 | --- |
Langues disponibles
Tous les modèles Gemini peuvent comprendre et répondre dans les langues suivantes:
Arabic (ar), Bengali (bn), Bulgarian (bg), Chinese simplified and traditional (zh), Croatian (hr), Czech (cs), Danish (da), Dutch (nl), English (en), Estonian (et), Finnish (fi), French (fr), German (de), Greek (el), Hebrew (iw), Hindi (hi), Hungarian (hu), Indonesian (id), Italian (it), Japanese (ja), Korean (ko), Latvian (lv), Lithuanian (lt), Norwegian (no), Polish (pl), Portuguese (pt), Romanian (ro), Russian (ru), Serbian (sr), Slovak (sk), Slovenian (sl), Spanish (es), Swahili (sw), Swedish (sv), Thai (th), Turkish (tr), Ukrainian (uk), Vietnamese (vi)
Les modèles Gemini 1.5 Pro et Gemini 1.5 Flash peuvent comprendre et répondre dans les langues supplémentaires suivantes :
Afrikaans (af), Amharique (am), Assamais (as), Azerbaïdjanais (az), Biélorusse (be), Bosniaque (bs), Catalan (ca), Cebuano (ceb), Corse (co), Gallois (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persan (fa), Filipino (Tagalog) (fil), Frison (fy), Irlandais (ga), Gaélique écossais (gd), Galicien (gl), Gujarati (gu), Haoussa (ha), Hawaïen (haw), Hmong (hmn), Créole haïtien (ht), Arménien (hy), Igbo (ig), Islandais (is), Javanais (jv), Géorgien (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurde (ku), Kirghize (ky), Latin (la), Luxembourgeois (lb), Lao (lo), Malagasy (mg), Maori (mi), Macédonien (mk), Malayalam (ml), Mongol (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Malais (ms), Maltais (mt), Myanmar (birman) (my), Népalais (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Pachto (ps), Sindhi (sd), Sinhala (singalais) (si), Samoan (sm), Shona (sn), Somali (so), Albanais (sq), Sesotho (st), Sundanais (su), Tamoul (ta), Télougou (te), Tadjik (tg), Ouïghour (ug), Urdu (ur), Ouzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Zoulou (zu)
Étapes suivantes
Essayer les fonctionnalités de Gemini API
- Créez des conversations multitours (chat).
- Générez du texte à partir de requêtes textuelles uniquement.
- Générer du texte à partir de requêtes multimodales (y compris du texte, des images, des PDF, des vidéos et de l'audio)
- Générez une sortie structurée (comme JSON) à partir de requêtes textuelles et multimodales.
- Utilisez l'appel de fonction pour connecter des modèles génératifs à des informations et à des systèmes externes.