Fichiers d'entrée compatibles et exigences pour l'API Gemini Vertex AI

Lorsque vous appelez Vertex AI Gemini API à partir de votre application à l'aide d'un SDK Vertex AI in Firebase, vous pouvez demander au modèle Gemini de générer du texte à partir d'une entrée multimodale. Les requêtes multimodales peuvent inclure plusieurs modalités (ou types d'entrée), comme du texte avec des images, des PDF, des vidéos et de l'audio.

Pour les parties non textuelles de l'entrée (comme les fichiers multimédias), vous devez utiliser des types de fichiers compatibles, spécifier un type MIME compatible et vous assurer que vos fichiers et vos requêtes multimodales répondent aux exigences et respectent les bonnes pratiques.

Cette page décrit les types MIME acceptés, les bonnes pratiques et les limites applicables aux éléments suivants:

Exigences spécifiques aux SDK Vertex AI in Firebase

Pour les SDK Vertex AI in Firebase, la taille totale maximale des requêtes est de 20 Mo. Vous obtenez une erreur HTTP 413 si une requête est trop volumineuse.



Images: exigences, bonnes pratiques et limites

Images : conditions requises

Dans cette section, découvrez les types MIME compatibles et les limites par requête pour les images.

Types MIME compatibles

Les modèles multimodaux Gemini sont compatibles avec les types vidéo MIME suivants :

Type MIME de l'image Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

Limites par requête

Il n'y a pas de limite spécifique au nombre de pixels dans une image. Cependant, les images plus volumineuses sont réduites et remplies pour correspondre à une résolution maximale de 3072 x 3072, tout en préservant leur format d'origine.

Voici le nombre maximal de fichiers image autorisés dans une requête de requête :

  • Gemini 1.0 Pro Vision: 16 images
  • Gemini 1.5 Flash et Gemini 1.5 Pro : 3 000 images

Images : tokenisation

Voici comment les jetons sont calculés pour les images :

  • Gemini 1.0 Pro Vision: chaque image représente 258 jetons.
  • Gemini 1.5 Flash et Gemini 1.5 Pro :
    • Si les deux dimensions d'une image sont inférieures ou égales à 384 pixels, 258 jetons sont utilisés.
    • Si l'une des dimensions d'une image est supérieure à 384 pixels, celle-ci est recadrée sous forme de tuiles. Chaque taille de vignette est définie par défaut sur la plus petite dimension (largeur ou hauteur), divisée par 1,5. Si nécessaire, chaque vignette est ajustée pour qu'elle ne soit pas inférieure à 256 et ne dépasse pas 768. Chaque vignette est ensuite redimensionnée au format 768x768 et utilise 258 jetons.

Images : bonnes pratiques

Lorsque vous utilisez des images, suivez les bonnes pratiques et les informations ci-dessous pour obtenir de meilleurs résultats :

  • Si vous souhaitez détecter du texte dans une image, utilisez des requêtes avec une seule image pour obtenir de meilleurs résultats qu'avec des requêtes comportant plusieurs images.
  • Si votre requête contient une seule image, placez-la avant la requête textuelle.
  • Si votre requête contient plusieurs images et que vous souhaitez vous y référer ultérieurement dans votre requête ou demander au modèle d'y faire référence dans la réponse du modèle, il peut être utile d'attribuer un index à chaque image avant l'image. Utilisez a b c ou image 1 image 2 image 3 pour votre index. Voici un exemple d'utilisation d'images indexées dans une requête :
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Utilisez des images en haute résolution, car elles offrent de meilleurs résultats.
  • Incluez quelques exemples dans la requête.
  • Faites pivoter les images dans l'orientation appropriée avant de les ajouter à la requête.
  • Évitez les images floues.

Images : limites

Bien que les modèles multimodaux Gemini soient puissants dans de nombreux cas d'utilisation multimodaux, il est important de comprendre les limites des modèles :

  • Modération de contenu: les modèles refusent de fournir des réponses sur les images qui ne respectent pas nos règles de sécurité.
  • Raisonnement spatial: les modèles ne localisent pas avec précision le texte ou les objets dans les images. Ils peuvent ne renvoyer que des décomptes approximatifs d'objets.
  • Utilisations médicales : les modèles ne conviennent pas à l'interprétation d'images médicales (par exemple, les radiographies et les scanners), ni à la fourniture de conseils médicaux.
  • Reconnaissance de personnes : les modèles ne sont pas conçus pour identifier des personnes qui ne sont pas des célébrités sur des images.
  • Précision : les modèles peuvent halluciner ou faire des erreurs lors de l'interprétation d'images de mauvaise qualité, retournées ou d'extrêmement basse résolution. Les modèles peuvent également halluciner lors de l'interprétation de texte manuscrit dans des documents image.



Vidéo: exigences, bonnes pratiques et limites

Vidéo : Conditions requises

Dans cette section, vous allez découvrir les types MIME acceptés et les limites par requête pour les vidéos.

Types MIME compatibles

Les modèles multimodaux Gemini sont compatibles avec les types vidéo MIME suivants :

Type vidéo MIME Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

Limites par requête

Voici le nombre maximal de fichiers vidéo autorisés dans une requête de requête:

  • Gemini 1.0 Pro Vision: un fichier vidéo
  • Gemini 1.5 Flash et Gemini 1.5 Pro: 10 fichiers vidéo

Vidéo: tokenisation

Voici comment les jetons sont calculés pour une vidéo:

  • Tous les modèles multimodaux Gemini: les vidéos sont échantillonnées à une image par seconde (FPS). Chaque image vidéo compte 258 jetons.
  • Gemini 1.5 Flash et Gemini 1.5 Pro: la piste audio est encodée avec des images vidéo. La piste audio est également divisée en trompes d'une seconde qui représentent chacune 32 jetons. Les trames vidéo et les jetons audio sont entrelacés avec leurs codes temporels. Les codes temporels sont représentés par 7 jetons.

Vidéo: bonnes pratiques

Lorsque vous utilisez une vidéo, suivez les bonnes pratiques et informations suivantes pour optimiser les résultats:

  • Si votre requête contient une seule vidéo, placez-la avant la requête textuelle.
  • Si vous avez besoin de localiser des codes temporels dans une vidéo avec audio, demandez au modèle de générer des codes temporels au format MM:SS, où les deux premiers chiffres représentent les minutes et les deux derniers chiffres représentent les secondes. Utilisez le même format pour les questions concernant un code temporel.
  • Prenez note des points suivants si vous utilisez Gemini 1.0 Pro Vision:

    • N'utilisez pas plus d'une vidéo par requête.
    • Le modèle ne traite que les informations des deux premières minutes de la vidéo.
    • Le modèle traite les vidéos comme des cadres d'images non contigus de la vidéo. Le son n'est pas inclus. Si vous constatez qu'il manque du contenu dans la vidéo, essayez de raccourcir la vidéo afin que le modèle capture une plus grande partie du contenu vidéo.
    • Le modèle ne traite aucune information audio ni aucune métadonnée de code temporel. De ce fait, le modèle peut ne pas fonctionner correctement dans les cas d'utilisation nécessitant des entrées audio, comme le sous-titrage de données audio, ou des informations temporelles telles que la vitesse ou le rythme.

Vidéo: limites

Bien que les modèles multimodaux Gemini soient puissants dans de nombreux cas d'utilisation multimodaux, il est important de comprendre les limites des modèles :

  • Modération de contenu: les modèles refusent de fournir des réponses sur les vidéos qui ne respectent pas nos règles de sécurité.
  • Reconnaissance des sons non vocaux : les modèles compatibles avec l'audio peuvent faire des erreurs de reconnaissance avec les sons autres que la parole.
  • Mouvements très rapides : en raison du taux d'échantillonnage fixe d'une image par seconde (FPS), les modèles peuvent faire des erreurs lors de l'analyse de mouvements très rapides dans des vidéos.
  • Ponctuation pour la transcription : (si vous utilisez Gemini 1.5 Flash) les modèles peuvent renvoyer des transcriptions qui n'incluent pas de ponctuation.



Audio : conditions requises et limites

Audio: configuration requise

Dans cette section, découvrez les types MIME compatibles et les limites par requête pour les fichiers audio.

Types MIME compatibles

Les modèles multimodaux Gemini sont compatibles avec les types MIME audio suivants :

Type MIME de l'audio Gemini 1.5 Flash Gemini 1.5 Pro
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

Limites par requête

Vous ne pouvez inclure qu'un fichier audio dans une requête de requête.

Audio: limites

Bien que les modèles multimodaux Gemini soient puissants dans de nombreux cas d'utilisation multimodaux, il est important de comprendre les limites des modèles :

  • Reconnaissance audio non vocale: les modèles qui prennent en charge l'audio peuvent commettre des erreurs en reconnaissant un son autre que la parole.
  • Codes temporels audio : pour générer précisément des codes temporels pour les fichiers audio uniquement, vous devez configurer le paramètre audio_timestamp dans generation_config.
  • Ponctuation pour la transcription : (si vous utilisez Gemini 1.5 Flash) les modèles peuvent renvoyer des transcriptions qui n'incluent pas de ponctuation.



Documents (PDF, par exemple): exigences, bonnes pratiques et limites

Documents: configuration requise

Dans cette section, vous allez découvrir les types MIME compatibles et les limites par requête pour les documents (comme les PDF).

Types MIME compatibles

Les modèles multimodaux Gemini sont compatibles avec les types MIME de documents suivants:

Type MIME du document Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF - application/pdf
Texte - text/plain

Limites par requête

Les PDF sont traités comme des images. Ainsi, une seule page d'un PDF est traitée comme une seule image. Le nombre de pages autorisées dans une requête est limité au nombre d'images que le modèle peut accepter:

  • Gemini 1.0 Pro Vision: 16 pages
  • Gemini 1.5 Pro et Gemini 1.5 Flash: 1 000 pages

Documents: tokenisation

Tokenisation des PDF

Les PDF sont traités comme des images. Chaque page d'un PDF est donc tokenisée de la même manière qu'une image.

De plus, le coût des fichiers PDF suit les tarifs de Gemini pour les images. Par exemple, si vous incluez un PDF de deux pages dans un appel d'API Gemini, vous payez des frais d'entrée pour le traitement de deux images.

Tokenisation en texte brut

Les documents en texte brut sont tokenisés sous forme de texte. Par exemple, si vous incluez un document en texte brut de 100 mots dans un appel d'API Gemini, des frais d'entrée vous sont facturés pour le traitement de 100 mots.

Documents: bonnes pratiques

Lorsque vous utilisez des PDF, suivez les bonnes pratiques et informations suivantes pour optimiser les résultats:

  • Si votre requête contient un seul PDF, placez-le avant le texte de la requête.
  • Si votre document est long, envisagez de le diviser en plusieurs fichiers PDF pour le traiter.
  • Utilisez des PDF créés avec du texte affiché sous forme de texte plutôt que d'utiliser du texte dans des images numérisées. Ce format garantit que le texte est lisible par un ordinateur, ce qui permet au modèle de le modifier, d'effectuer des recherches et de le manipuler plus facilement qu'avec des fichiers PDF constitués d'images scannées. Cette pratique fournit des résultats optimaux lorsque vous travaillez avec des documents contenant beaucoup de texte, tels que des contrats.

Documents : limites

Bien que les modèles multimodaux Gemini soient puissants dans de nombreux cas d'utilisation multimodaux, il est important de comprendre les limites des modèles :

  • Raisonnement spatial : les modèles ne parviennent pas à localiser précisément du texte ou des objets dans des PDF. Ils peuvent ne renvoyer que des décomptes approximatifs d'objets.
  • Précision: les modèles peuvent halluciner lors de l'interprétation de texte manuscrit dans des documents PDF.