Unterstützte Eingabedateien und Anforderungen für die Vertex AI Gemini API

Wenn Sie die Vertex AI Gemini API über ein Vertex AI in Firebase SDK aus Ihrer App aufrufen, können Sie das Gemini-Modell auffordern, Text basierend auf einer multimodalen Eingabe zu generieren. Multimodale Prompts können mehrere Modalitäten (oder Eingabetypen) umfassen, z. B. Text sowie Bilder, PDFs, Video und Audio.

Für die nicht textbasierten Teile der Eingabe (z. B. Mediendateien) müssen Sie unterstützte Dateitypen verwenden, einen unterstützten MIME-Typ angeben und dafür sorgen, dass Ihre Dateien und multimodalen Anfragen die Anforderungen erfüllen und den Best Practices entsprechen.

Auf dieser Seite werden die unterstützten MIME-Typen, Best Practices und Einschränkungen für Folgendes beschrieben:

Anforderungen speziell für die Vertex AI in Firebase-SDKs

Für Vertex AI in Firebase-SDKs beträgt die maximale Gesamtgröße der Anfrage 20 MB. Wenn eine Anfrage zu groß ist, erhalten Sie den HTTP-Fehler 413.



Bilder: Anforderungen, Best Practices und Einschränkungen

Bilder: Anforderungen

In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Bilder.

Unterstützte MIME-Typen

Gemini-Multimodal-Modelle unterstützen die folgenden MIME-Bildtypen:

MIME-Typ für Bild Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG - image/png
JPEG - image/jpeg
WebP – image/webp

Limits pro Anfrage

Die Anzahl der Pixel in einem Bild ist nicht begrenzt. Größere Bilder werden jedoch herunterskaliert und auf eine maximale Auflösung von 3072 × 3072 aufgefüllt, wobei ihr ursprüngliches Seitenverhältnis beibehalten wird.

Die maximale Anzahl von Bilddateien, die in einer Prompt-Anfrage zulässig sind:

  • Gemini 1.0 Pro Vision: 16 Bilder
  • Gemini 1.5 Flash und Gemini 1.5 Pro: 3.000 Bilder

Bilder: Tokenisierung

So werden Tokens für Bilder berechnet:

  • Gemini 1.0 Pro Vision: Jedes Bild berücksichtigt 258 Tokens.
  • Gemini 1.5 Flash und Gemini 1.5 Pro:
    • Wenn beide Seiten eines Bildes maximal 384 Pixel haben, werden 258 Tokens verwendet.
    • Wenn eine Dimension eines Bildes größer als 384 Pixel ist, wird das Bild in Kacheln zugeschnitten. Die Standardgröße der einzelnen Kacheln entspricht der kleinsten Dimension (Breite oder Höhe) geteilt durch 1,5. Falls erforderlich, wird jede Kachel so angepasst, dass sie nicht kleiner als 256 Pixel und nicht größer als 768 Pixel ist. Jede Kachel wird dann auf 768 × 768 Pixel skaliert und verwendet 258 Token.

Bilder: Best Practices

Beachten Sie bei der Verwendung von Bildern die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:

  • Wenn Sie Text in einem Bild erkennen möchten, erzielen Sie mit Prompts mit einem einzelnen Bild bessere Ergebnisse als mit Prompts mit mehreren Bildern.
  • Wenn Ihr Prompt ein einzelnes Bild enthält, platzieren Sie das Bild in Ihrer Anfrage vor dem Text-Prompt.
  • Wenn sich in Ihrem Prompt mehrere Bilder befinden und Sie später in Ihrem Prompt darauf verweisen möchten oder das Modell in der Modellantwort auf sie verweisen soll, kann es hilfreich sein, jedem Bild einen Index vor dem Bild zu geben. Verwenden Sie a b c oder image 1 image 2 image 3 für Ihren Index. Das folgende Beispiel zeigt die Verwendung indexierter Bilder in einem Prompt:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Verwenden Sie Bilder mit höherer Auflösung, da sie bessere Ergebnisse liefern.
  • Fügen Sie einige Beispiele in den Prompt ein.
  • Drehen Sie die Bilder in der richtigen Ausrichtung, bevor Sie sie dem Prompt hinzufügen.
  • Vermeiden Sie unscharfe Bilder.

Bilder: Einschränkungen

Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:

  • Inhaltsmoderation: Die Modelle geben keine Antworten zu Bildern, die gegen unsere Sicherheitsrichtlinien verstoßen.
  • Räumliches Denken: Die Modelle können Text oder Objekte in Bildern nicht genau finden. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
  • Medizinische Zwecke: Die Modelle sind nicht für die Interpretation medizinischer Bilder (z. B. Röntgen- und CT-Scans) oder die Bereitstellung von medizinischem Rat geeignet.
  • Personenerkennung: Die Modelle sind nicht dazu gedacht, Personen in Bildern zu identifizieren, die keine Prominenten sind.
  • Genauigkeit: Die Modelle können bei der Interpretation von gedrehten Bildern sowie Bildern mit niedriger Qualität oder sehr niedrigen Auflösungen halluzinieren oder Fehler machen. Die Modelle können auch bei der Interpretation von handgeschriebenem Text in Bilddokumenten halluzinieren.



Videos: Anforderungen, Best Practices und Einschränkungen

Video: Anforderungen

In diesem Abschnitt erfährst du mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Videos.

Unterstützte MIME-Typen

Gemini-Multimodal-Modelle unterstützen die folgenden MIME-Videotypen:

Video-MIME-Typ Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

Limits pro Anfrage

In einer Prompt-Anfrage ist die folgende maximale Anzahl von Videodateien zulässig:

  • Gemini 1.0 Pro Vision: 1 Videodatei
  • Gemini 1.5 Flash und Gemini 1.5 Pro: 10 Videodateien

Video: Tokenisierung

So werden Tokens für Videos berechnet:

  • Alle multimodalen Gemini-Modelle: Videos werden mit 1 Bild pro Sekunde (fps) abgetastet. Für jeden Videoframe werden 258 Tokens berücksichtigt.
  • Gemini 1.5 Flash und Gemini 1.5 Pro: Der Audiotrack wird mit Videoframes codiert. Der Audiotrack wird außerdem in 1-Sekunden-Blöcke unterteilt, die jeweils 32 Tokens enthalten. Die Videoframe- und Audio-Token werden zusammen mit ihren Zeitstempeln interleaved. Die Zeitstempel werden als 7 Token dargestellt.

Video: Best Practices

Beachten Sie bei der Verwendung von Videos die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:

  • Wenn Ihr Prompt ein einzelnes Video enthält, platzieren Sie das Video vor dem Text-Prompt.
  • Wenn Sie die Zeitstempellokalisierung in einem Video mit Audio benötigen, bitten Sie das Modell, Zeitstempel im MM:SS-Format zu generieren, wobei die ersten beiden Ziffern für Minuten und die letzten beiden Ziffern für Sekunden stehen. Verwenden Sie dasselbe Format für Fragen, bei denen nach einem Zeitstempel gefragt wird.
  • Wenn Sie Gemini 1.0 Pro Vision verwenden, beachten Sie Folgendes:

    • Verwenden Sie nicht mehr als ein Video pro Prompt.
    • Das Modell verarbeitet nur die Informationen der ersten zwei Minuten des Videos.
    • Das Modell verarbeitet Videos als nicht fortlaufende Bildframes aus dem Video. Audio ist nicht enthalten. Wenn Sie feststellen, dass im Modell Inhalte aus dem Video fehlen, versuchen Sie, das Video zu verkürzen, damit das Modell einen größeren Teil des Videoinhalts erfasst.
    • Das Modell verarbeitet keine Audiodaten oder Zeitstempelmetadaten. Aus diesem Grund funktioniert das Modell möglicherweise nicht gut in Anwendungsfällen, die eine Audioeingabe erfordern, z. B. für Untertitel oder zeitbezogene Informationen wie Geschwindigkeit oder Rhythmus.

Video: Einschränkungen

Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:

  • Inhaltsmoderation: Die Models weigern sich, Antworten zu Videos zu geben, die gegen unsere Sicherheitsrichtlinien verstoßen.
  • Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.
  • Hochgeschwindigkeitsbewegungen: Aufgrund der festen Abtastrate von 1 Bild pro Sekunde (fps) können die Modelle beim Interpretieren von Hochgeschwindigkeitsbewegungen in Videos Fehler machen.
  • Transkription und Satzzeichen: (bei Verwendung von Gemini 1.5 Flash) Die Modelle geben möglicherweise Transkriptionen zurück, die keine Satzzeichen enthalten.



Audio: Anforderungen und Einschränkungen

Audio: Anforderungen

In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Audio.

Unterstützte MIME-Typen

Gemini-Multimodal-Modelle unterstützen die folgenden MIME-Audiotypen:

Audio-MIME-Typ Gemini 1.5 Flash Gemini 1.5 Pro
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

Limits pro Anfrage

Sie können in einer Promptanfrage maximal eine Audiodatei angeben.

Audio: Einschränkungen

Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:

  • Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.
  • Zeitstempel nur für Audio: Wenn Sie Zeitstempel für reine Audiodateien korrekt generieren möchten, müssen Sie den Parameter audio_timestamp in generation_config konfigurieren.
  • Transkription und Satzzeichen: (bei Verwendung von Gemini 1.5 Flash) Die Modelle geben möglicherweise Transkriptionen zurück, die keine Satzzeichen enthalten.



Dokumente (z. B. PDFs): Anforderungen, Best Practices und Einschränkungen

Dokumente: Anforderungen

In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und die Limits pro Anfrage für Dokumente (z. B. PDFs).

Unterstützte MIME-Typen

Gemini-Multimodal-Modelle unterstützen die folgenden MIME-Dokumenttypen:

MIME-Typ für das Dokument Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF – application/pdf
Text – text/plain

Limits pro Anfrage

PDFs werden als Bilder behandelt, sodass eine einzelne Seite einer PDF-Datei als ein einzelnes Bild behandelt wird. Die Anzahl der Seiten in einem Prompt ist auf die Anzahl der Bilder beschränkt, die das Modell unterstützen kann:

  • Gemini 1.0 Pro Vision: 16 Seiten
  • Gemini 1.5 Pro und Gemini 1.5 Flash: 1.000 Seiten

Dokumente: Tokenisierung

PDF-Tokenisierung

PDFs werden als Bilder behandelt, sodass jede Seite einer PDF-Datei auf die gleiche Weise wie ein Bild tokenisiert wird.

Außerdem entsprechen die Kosten für PDFs den Gemini-Bildpreisen. Wenn Sie beispielsweise eine zweiseitige PDF in einen Gemini API-Aufruf einfügen, wird Ihnen eine Eingabegebühr für die Verarbeitung von zwei Bildern berechnet.

Tokenisierung von Nur-Text

Nur-Text-Dokumente werden als Text tokenisiert. Wenn Sie beispielsweise ein 100-Wörter-Dokument im reinen Textformat in einen Gemini API-Aufruf einfügen, wird Ihnen eine Eingabegebühr für die Verarbeitung von 100 Wörtern berechnet.

Dokumente: Best Practices

Beachten Sie bei der Verwendung von PDFs die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen.

  • Wenn Ihr Prompt eine einzelne PDF-Datei enthält, platzieren Sie die PDF-Datei in Ihrer Anfrage vor dem Text-Prompt.
  • Wenn Sie ein langes Dokument haben, sollten Sie es in mehrere PDFs aufteilen, um es zu verarbeiten.
  • Verwenden Sie PDFs, die mit Text entwickelt wurden, der als Text statt als Bilder gerendert wird. Dieses Format sorgt dafür, dass Text maschinenlesbar ist, damit das Modell im Vergleich zu gescannten Bild-PDFs einfacher bearbeiten, suchen und ändern kann. Dies liefert optimale Ergebnisse bei der Arbeit mit textintensiven Dokumenten wie Verträgen.

Dokumente: Einschränkungen

Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:

  • Räumliches Denken: Die Modelle können Text oder Objekte in PDFs nicht genau finden. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
  • Genauigkeit: Die Modelle können bei der Interpretation von handgeschriebenem Text in PDF-Dokumenten halluzinieren.