Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

Cette page a été traduite par l'API Cloud Translation.

Fichiers d'entrée compatibles et exigences

Lorsque vous appelez Gemini API depuis votre application à l'aide d'un SDK Firebase AI Logic, vous pouvez demander au modèle Gemini de générer du texte à partir d'une entrée multimodale, comme des images, des vidéos, de l'audio et des documents (comme des PDF).

Vous devez utiliser des types de fichiers compatibles, spécifier un type MIME compatible et vous assurer que vos fichiers et vos requêtes multimodales respectent les exigences et les bonnes pratiques.

Cette page est spécifique à l'utilisation d'un GenerativeModel et décrit les éléments suivants :

Options pour fournir des fichiers dans votre demande
Détails sur les types MIME compatibles, les bonnes pratiques et les limites pour les entrées de fichiers suivantes :
Images | Vidéos | Audio | Documents (comme les PDF).

Options pour fournir des fichiers dans les requêtes multimodales

Sélectionnez votre fournisseur d'API Gemini pour afficher du contenu spécifique à ce fournisseur sur cette page.

Dans chaque requête multimodale, vous devez toujours fournir les éléments suivants :

Le fichier est mimeType. Consultez les types MIME acceptés pour chaque fichier d'entrée dans la section correspondante de cette page.
Le fichier. Vous pouvez fournir le fichier en tant que données intégrées ou fournir le fichier à l'aide de son URL.

La taille et le nombre de fichiers que vous pouvez fournir dans la requête dépendent du type de fichier d'entrée, de la façon dont vous fournissez le fichier et du modèle utilisé (pour en savoir plus, consultez la section de cette page consacrée à chaque type de fichier d'entrée).

Option 1 : Fournir le fichier en tant que données intégrées

Notez les points suivants concernant les fichiers fournis en tant que données intégrées :

Seuls les petits fichiers peuvent être envoyés en tant que données intégrées, car la taille totale des requêtes est limitée à 20 Mo.
Le fichier est encodé en base64 lors du transfert (ce qui augmente sa taille).

Pour obtenir un exemple montrant comment inclure un fichier en tant que données intégrées, consultez Générer du texte à partir d'une entrée texte et fichier (multimodale). Notez que les SDK pour les plates-formes Android et Apple peuvent gérer les images intégrées dans les requêtes sans qu'il soit nécessaire de spécifier le type MIME. En savoir plus

Option 2 : Fournir le fichier à l'aide d'une URL

Voici les types d'URL acceptés lorsque vous utilisez le Gemini Developer API :

URL de la vidéo YouTube : la vidéo YouTube doit être publique ou non répertoriée.

Vous pouvez spécifier une URL de vidéo YouTube par requête.

Images : exigences, bonnes pratiques et limites

Images : conditions requises

Dans cette section, découvrez les types MIME et les limites par requête acceptés pour les images.

Types MIME compatibles

Les modèles multimodaux Gemini sont compatibles avec les types MIME suivants associés aux images :

PNG - image/png
JPEG - image/jpeg
WebP - image/webp

Limites par requête

Il n'y a pas de limite spécifique au nombre de pixels dans une image. Cependant, les images plus volumineuses sont réduites et remplies pour correspondre à une résolution maximale de 3072 x 3072, tout en préservant leur format d'origine.

Nombre maximal de fichiers par requête : 3 000 fichiers image

Images : tokenisation

Voici comment les jetons sont calculés pour les images :

Si les deux dimensions d'une image sont inférieures ou égales à 384 pixels, 258 jetons sont utilisés.
Si l'une des dimensions d'une image est supérieure à 384 pixels, l'image est recadrée en vignettes. Chaque taille de vignette est définie par défaut sur la plus petite dimension (largeur ou hauteur), divisée par 1,5. Si nécessaire, chaque vignette est ajustée pour qu'elle ne soit pas inférieure à 256 pixels et ne dépasse pas 768 pixels. Chaque vignette est ensuite redimensionnée au format 768 x 768 et utilise 258 jetons.

Images : bonnes pratiques

Lorsque vous utilisez des images, suivez les bonnes pratiques et informations suivantes pour obtenir des résultats optimaux :

Si vous souhaitez détecter du texte dans une image, utilisez des requêtes avec une seule image pour obtenir de meilleurs résultats qu'avec des requêtes comportant plusieurs images.
Si votre prompt contient une seule image, placez cette image avant le prompt textuel.
Si votre prompt contient plusieurs images, et que vous souhaitez les référencer ultérieurement dans votre prompt ou demander au modèle de les référencer dans la réponse du modèle, il peut être utile d'ajouter un index avant chaque image. Utilisez a b c ou image 1 image 2 image 3 pour votre index. Voici un exemple d'utilisation d'images indexées dans un prompt :
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
Utilisez des images d'une résolution plus élevée pour obtenir de meilleurs résultats.
Incluez quelques exemples dans la requête.
Faites pivoter les images dans l'orientation appropriée avant de les ajouter au prompt.
Évitez les images floues.

Images : limites

Bien que les modèles multimodaux Gemini soient performants dans de nombreux cas d'utilisation multimodaux, il est important de comprendre leurs limites :

Modération de contenus : les modèles refusent de fournir des réponses sur des images qui ne respectent pas nos règles de sécurité.
Raisonnement spatial : les modèles ne parviennent pas à localiser précisément du texte ou des objets dans des images. Ils peuvent ne renvoyer que des décomptes approximatifs d'objets.
Utilisations médicales : les modèles ne conviennent pas à l'interprétation d'images médicales (par exemple, les radiographies et les scanners), ni à la fourniture de conseils médicaux.
Reconnaissance de personnes : les modèles ne sont pas conçus pour identifier des personnes qui ne sont pas des célébrités sur des images.
Justesse : les modèles peuvent halluciner ou faire des erreurs lors de l'interprétation d'images de mauvaise qualité, pivotées ou dont la résolution est extrêmement basse. Les modèles peuvent également halluciner lors de l'interprétation de texte manuscrit dans des images.

Vidéo : exigences, bonnes pratiques et limites

Vidéo : exigences

Dans cette section, découvrez les types MIME et les limites par requête acceptés pour les vidéos.

Types MIME compatibles

Les modèles multimodaux Gemini sont compatibles avec les types vidéo MIME suivants :

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

Limites par requête

Nombre maximal de fichiers par demande : 10 fichiers vidéo

Vidéo : Tokenisation

Voici comment les jetons sont calculés pour les vidéos :

La piste audio est encodée avec des images vidéo. Elle est également divisée en segments d'une seconde, chacun représentant 32 jetons. Les images vidéo et les jetons audio sont entrelacés avec leurs codes temporels. Les codes temporels sont représentés par 5 jetons.
Pour les vidéos échantillonnées à 1 image par seconde (FPS) ou moins, les codes temporels de la première heure de vidéo sont représentés par cinq jetons par image vidéo. Les codes temporels restants sont représentés par 7 jetons par frame vidéo.
Pour les vidéos échantillonnées à plus de 1 image par seconde (FPS), les codes temporels de la première heure de vidéo sont représentés par neuf jetons par image vidéo. Les codes temporels restants sont représentés par 11 jetons par frame vidéo.

Vidéo : Bonnes pratiques

Lorsque vous utilisez des vidéos, suivez les bonnes pratiques et informations suivantes pour obtenir de meilleurs résultats :

Si votre prompt contient une seule vidéo, placez cette vidéo avant le prompt textuel.
Si vous devez définir une localisation de code temporel dans une vidéo avec audio, demandez au modèle de générer des codes temporels au format décrit dans "Format des codes temporels".

Vidéo : limites

Bien que les modèles multimodaux Gemini soient performants dans de nombreux cas d'utilisation multimodaux, il est important de comprendre leurs limites :

Modération de contenus : les modèles refusent de fournir des réponses sur des vidéos qui ne respectent pas nos règles de sécurité.
Reconnaissance des sons non vocaux : les modèles compatibles avec les flux audio peuvent faire des erreurs de reconnaissance avec les sons autres que la parole.

Contenu audio : exigences et limites

Audio : exigences

Dans cette section, découvrez les types MIME et les limites par requête pour l'audio.

Types MIME compatibles

Les modèles multimodaux Gemini sont compatibles avec les types audio MIME suivants :

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

Limites par requête

Nombre maximal de fichiers par requête : 1 fichier audio

Audio : limites

Bien que les modèles multimodaux Gemini soient performants dans de nombreux cas d'utilisation multimodaux, il est important de comprendre leurs limites :

Reconnaissance des sons non vocaux : les modèles compatibles avec les flux audio peuvent faire des erreurs de reconnaissance avec les sons autres que la parole.
Codes temporels audio : pour générer des codes temporels précis pour les fichiers contenant uniquement des données audio, vous devez configurer le paramètre audio_timestamp dans generation_config.

Documents (comme les PDF) : exigences, bonnes pratiques et limites

Documents : exigences

Dans cette section, découvrez les types MIME et les limites par requête acceptés pour les documents (comme les PDF).

Types MIME compatibles

Les modèles multimodaux Gemini sont compatibles avec les types MIME suivants associés aux documents :

PDF - application/pdf
Texte - text/plain

Limites par requête

Les PDF sont traités comme des images. Ainsi, une page individuelle d'un PDF est traitée comme une image individuelle. Le nombre de pages autorisées dans une requête est limité au nombre d'images que les modèles multimodaux Gemini peuvent accepter.

Nombre maximal de fichiers par requête : 3 000
Nombre maximal de pages par fichier : 1 000
Taille maximale par fichier : 50 Mo

Documents : Tokenization

Tokenisation de fichiers PDF

Les PDF sont traités comme des images. Ainsi, chaque page d'un PDF est tokenisée de la même manière qu'une image.

De plus, le coût applicable aux fichiers PDF est aligné sur les tarifs de Gemini pour les images. Par exemple, si vous incluez un fichier PDF de deux pages dans un appel d'API Gemini, des frais d'entrée pour le traitement des deux images vous sont facturés.

Documents : bonnes pratiques

Lorsque vous utilisez des fichiers PDF, suivez les bonnes pratiques et informations suivantes pour obtenir des résultats optimaux :

Si votre prompt contient un seul fichier PDF, placez-le avant le prompt textuel.
Si votre document est long, envisagez de le diviser en plusieurs fichiers PDF pour faciliter son traitement.
Utilisez des PDF créés avec du texte affiché au format texte plutôt que du texte d'images numérisées. Ce format permet de s'assurer que le texte est lisible par un ordinateur. Le modèle peut ainsi le modifier, y effectuer des recherches et le manipuler plus facilement qu'avec des fichiers PDF constitués d'images numérisées. Cette bonne pratique fournit des résultats optimaux si les documents contiennent beaucoup de texte (par exemple, des contrats).

Documents : limites

Bien que les modèles multimodaux Gemini soient performants dans de nombreux cas d'utilisation multimodaux, il est important de comprendre leurs limites :

Raisonnement spatial : les modèles ne parviennent pas à localiser précisément du texte ou des objets dans des fichiers PDF. Ils peuvent ne renvoyer que des décomptes approximatifs d'objets.
Justesse : les modèles peuvent produire des hallucinations lors de l'interprétation de texte manuscrit dans des documents PDF.

Fichiers d'entrée compatibles et exigences Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Options pour fournir des fichiers dans les requêtes multimodales

Option 1 : Fournir le fichier en tant que données intégrées

Option 2 : Fournir le fichier à l'aide d'une URL

Images : exigences, bonnes pratiques et limites

Images : conditions requises

Types MIME compatibles

Limites par requête

Images : tokenisation

Images : bonnes pratiques

Images : limites

Vidéo : exigences, bonnes pratiques et limites

Vidéo : exigences

Types MIME compatibles

Limites par requête

Vidéo : Tokenisation

Vidéo : Bonnes pratiques

Vidéo : limites

Contenu audio : exigences et limites

Audio : exigences

Types MIME compatibles

Limites par requête

Audio : limites

Documents (comme les PDF) : exigences, bonnes pratiques et limites

Documents : exigences

Types MIME compatibles

Limites par requête

Documents : Tokenization

Documents : bonnes pratiques

Documents : limites

Fichiers d'entrée compatibles et exigences