Wenn Sie Vertex AI Gemini API über Ihre App mit einem Vertex AI in Firebase SDK aufrufen, können Sie das Gemini-Modell auffordern, Text basierend auf einer multimodalen Eingabe zu generieren. Multimodale Prompts können mehrere Modalitäten (oder Eingabetypen) enthalten, z. B. Text sowie Bilder, PDFs, Video und Audio.
Für die nicht textbasierten Teile der Eingabe (z. B. Mediendateien) müssen Sie unterstützte Dateitypen verwenden, einen unterstützten MIME-Typ angeben und dafür sorgen, dass Ihre Dateien und multimodalen Anfragen die Anforderungen erfüllen und den Best Practices entsprechen.
Auf dieser Seite werden die unterstützten MIME-Typen, Best Practices und Einschränkungen für Folgendes beschrieben:
Anforderungen speziell für die Vertex AI in Firebase-SDKs
Bei Vertex AI in Firebase-SDKs beträgt die maximale Gesamtgröße für Anfragen 20 MB. Wenn eine Anfrage zu groß ist, wird der HTTP-Fehler 413 angezeigt.
Wenn die Größe einer Datei die Gesamtgröße der Anfrage auf über 20 MB erhöht, verwenden Sie eine Cloud Storage for Firebase-URL, um die Datei in Ihre multimodale Anfrage aufzunehmen.
Wenn eine Datei klein ist, können Sie sie häufig direkt als Inline-Daten übergeben. Beachte jedoch, dass eine Datei, die als Inline-Daten bereitgestellt wird, während der Übertragung in Base64 codiert wird, wodurch die Größe der Anfrage erhöht wird. Beispiele zum Einbeziehen von Dateien als Inline-Daten finden Sie unter Text aus multimodalen Prompts mit der Gemini API generieren.
Bilder: Anforderungen, Best Practices und Einschränkungen
Bilder: Anforderungen
In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Bilder.
Unterstützte MIME-Typen
Gemini-Multimodal-Modelle unterstützen die folgenden MIME-Bildtypen:
MIME-Typ für Bild | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
|||
WebP – image/webp |
Limits pro Anfrage
Die Anzahl der Pixel in einem Bild ist nicht begrenzt. Größere Bilder werden jedoch verkleinert und aufgefüllt, sodass sie eine maximale Auflösung von 3.072 × 3.072 erreichen. Das ursprüngliche Seitenverhältnis wird dabei beibehalten.
Die maximale Anzahl von Bilddateien, die in einer Prompt-Anfrage zulässig sind:
- Gemini 1.0 Pro Vision: 16 Bilder
- Gemini 1.5 Flash und Gemini 1.5 Pro: 3.000 Bilder
Bilder: Tokenisierung
So werden Tokens für Bilder berechnet:
- Gemini 1.0 Pro Vision: Jedes Bild berücksichtigt 258 Tokens.
- Gemini 1.5 Flash und Gemini 1.5 Pro:
- Wenn beide Abmessungen eines Bildes kleiner oder gleich 384 Pixel sind, werden 258 Tokens verwendet.
- Wenn eine Dimension eines Bildes größer als 384 Pixel ist, wird das Bild in Kacheln zugeschnitten. Die Standardgröße der einzelnen Kacheln entspricht der kleinsten Dimension (Breite oder Höhe) geteilt durch 1,5. Falls erforderlich, wird jede Kachel so angepasst, dass sie nicht kleiner als 256 Pixel und nicht größer als 768 Pixel ist. Jede Kachel wird dann auf 768 × 768 Pixel skaliert und verwendet 258 Token.
Bilder: Best Practices
Mit den folgenden Best Practices und Informationen lassen sich optimale Ergebnisse erzielen:
- Wenn Sie Text in einem Bild erkennen möchten, verwenden Sie Prompts mit einem einzelnen Bild, um bessere Ergebnisse zu erzielen als Prompts mit mehreren Bildern.
- Wenn der Prompt ein einzelnes Bild enthält, platziere das Bild vor dem Text-Prompt in der Anfrage.
- Wenn Ihr Prompt mehrere Bilder enthält und Sie später in Ihrem Prompt darauf verweisen oder das Modell in der Modellantwort darauf verweisen möchten, kann es hilfreich sein, jedem Bild einen Index vor dem Bild zuzuweisen. Verwenden Sie
odera
b
c
für Ihren Index. Das folgende Beispiel zeigt die Verwendung indexierter Bilder in einem Prompt:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Verwenden Sie Bilder mit höherer Auflösung, da sie bessere Ergebnisse liefern.
- Fügen Sie einige Beispiele in den Prompt ein.
- Drehen Sie die Bilder in der richtigen Ausrichtung, bevor Sie sie dem Prompt hinzufügen.
- Vermeiden Sie verschwommene Bilder.
Bilder: Einschränkungen
Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:
- Inhaltsmoderation: Die Modelle weigern sich, Antworten zu Bildern zu geben, die gegen unsere Sicherheitsrichtlinien verstoßen.
- Räumliche Begründungen: Die Modelle finden Text oder Objekte in Bildern nicht präzise. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
- Medizinische Verwendung: Die Modelle eignen sich nicht für die Interpretation medizinischer Bilder (z. B. Röntgen- und CT-Scans) oder für medizinische Beratung.
- Personenerkennung: Die Modelle sind nicht dafür gedacht, Personen zu identifizieren, die auf Bildern keine Prominenten sind.
- Genauigkeit: Die Modelle können bei der Interpretation von gedrehten Bildern sowie Bildern mit niedriger Qualität oder sehr niedrigen Auflösungen halluzinieren oder Fehler machen. Die Modelle können auch halluzinieren, wenn sie handschriftlichen Text in Bilddokumenten interpretieren.
Video: Anforderungen, Best Practices und Einschränkungen
Video: Anforderungen
In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und die Beschränkungen pro Videoanfrage.
Unterstützte MIME-Typen
Gemini-Multimodal-Modelle unterstützen die folgenden MIME-Videotypen:
Video-MIME-Typ | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
Limits pro Anfrage
Dies ist die maximal zulässige Anzahl von Videodateien in einer Prompt-Anfrage:
- Gemini 1.0 Pro Vision: 1 Videodatei
- Gemini 1.5 Flash und Gemini 1.5 Pro: 10 Videodateien
Video: Tokenisierung
So werden Tokens für Videos berechnet:
- Alle multimodalen Gemini-Modelle: Videos werden mit
1 Frame pro Sekunde (fps) gesampelt. Für jeden Videoframe werden 258 Tokens berücksichtigt. - Gemini 1.5 Flash und Gemini 1.5 Pro: Der Audiotrack wird mit Videoframes codiert. Der Audiotrack wird außerdem in
1-sekündige Trunks unterteilt, die jeweils 32 Tokens enthalten. Der Videoframe und die Audiotokens sind mit ihren Zeitstempeln verschränkt. Die Zeitstempel werden als 7 Tokens dargestellt.
Video: Best Practices
Beachten Sie bei der Verwendung von Videos die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:
- Wenn Ihr Prompt nur ein einzelnes Video enthält, platzieren Sie das Video vor dem Text-Prompt.
- Wenn Sie eine Zeitstempellokalisierung in einem Video mit Audio benötigen, bitten Sie das Modell, Zeitstempel im
MM:SS
-Format zu generieren, wobei die ersten beiden Ziffern für Minuten und die letzten beiden Ziffern für Sekunden stehen. Verwenden Sie dasselbe Format für Fragen, bei denen nach einem Zeitstempel gefragt wird. Beachten Sie Folgendes, wenn Sie Gemini 1.0 Pro Vision verwenden:
- Verwende nicht mehr als ein Video pro Prompt.
- Das Modell verarbeitet nur die Informationen in den ersten zwei Minuten des Videos.
- Das Modell verarbeitet Videos als nicht zusammenhängende Bildframes aus dem Video. Audio ist nicht enthalten. Wenn Sie feststellen, dass im Video Inhalte fehlen, versuchen Sie, das Video zu kürzen, damit das Modell einen größeren Teil des Videoinhalts erfasst.
- Das Modell verarbeitet keine Audioinformationen oder Zeitstempelmetadaten. Aus diesem Grund funktioniert das Modell möglicherweise nicht gut in Anwendungsfällen, die eine Audioeingabe wie Untertitelung von Audio oder zeitbezogene Informationen wie Geschwindigkeit oder Rhythmus erfordern.
Video: Einschränkungen
Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:
- Inhaltsmoderation: Die Modelle weigern sich, auf Videos, die gegen unsere Sicherheitsrichtlinien verstoßen, Antworten zu geben.
- Klangerkennung ohne Spracherkennung: Die Modelle, die Audio unterstützen, können Fehler bei der Erkennung von Geräuschen machen, die keine Sprache sind.
- Bewegungen mit hoher Geschwindigkeit: Die Modelle können aufgrund der festen Abtastrate von
1 Frame pro Sekunde (fps) Fehler beim Erkennen von Hochgeschwindigkeitsbewegungen in Videos machen. - Satzzeichen von Transkriptionen: (bei Verwendung von Gemini 1.5 Flash) Die Modelle geben möglicherweise Transkriptionen zurück, die keine Satzzeichen enthalten.
Audio: Anforderungen und Einschränkungen
Audio: Anforderungen
In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Audio.
Unterstützte MIME-Typen
Multimodale Gemini-Modelle unterstützen die folgenden Audio-MIME-Typen:
Audio-MIME-Typ | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
Limits pro Anfrage
Sie können in einer Promptanfrage maximal
Audio: Einschränkungen
Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:
- Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.
- Nur Audio-Zeitstempel: Konfigurieren Sie den Parameter
audio_timestamp
ingeneration_config
, um Zeitstempel für Nur-Audio-Dateien korrekt zu generieren. - Satzzeichen von Transkriptionen: (bei Verwendung von Gemini 1.5 Flash) Die Modelle geben möglicherweise Transkriptionen zurück, die keine Satzzeichen enthalten.
Dokumente (z. B. PDFs): Anforderungen, Best Practices und Einschränkungen
Dokumente: Anforderungen
In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und die Limits pro Anfrage für Dokumente (z. B. PDFs).
Unterstützte MIME-Typen
Gemini-Multimodal-Modelle unterstützen die folgenden MIME-Dokumenttypen:
MIME-Typ für das Dokument | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF – application/pdf |
|||
Text – text/plain |
Limits pro Anfrage
PDFs werden als Bilder behandelt, sodass eine einzelne Seite einer PDF-Datei als ein einzelnes Bild behandelt wird. Die Anzahl der Seiten in einem Prompt ist auf die Anzahl der Bilder beschränkt, die das Modell unterstützen kann:
- Gemini 1.0 Pro Vision: 16 Seiten
- Gemini 1.5 Pro und Gemini 1.5 Flash: 1.000 Seiten
Dokumente: Tokenisierung
PDF-Tokenisierung
PDFs werden als Bilder behandelt, sodass jede Seite einer PDF-Datei auf die gleiche Weise wie ein Bild tokenisiert wird.
Außerdem entsprechen die Kosten für PDFs den Gemini-Bildpreisen. Wenn Sie beispielsweise eine zweiseitige PDF in einen Gemini API-Aufruf einfügen, wird Ihnen eine Eingabegebühr für die Verarbeitung von zwei Bildern berechnet.
Tokenisierung im reinen Textformat
Nur-Text-Dokumente werden als Text tokenisiert. Wenn Sie beispielsweise ein Nur-Text-Dokument mit 100 Wörtern in einen Gemini API-Aufruf einbinden, wird eine Eingabegebühr für die Verarbeitung von 100 Wörtern erhoben.
Dokumente: Best Practices
Beachten Sie bei der Verwendung von PDFs die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen.
- Wenn Ihr Prompt eine einzelne PDF-Datei enthält, platzieren Sie die PDF-Datei in Ihrer Anfrage vor dem Text-Prompt.
- Wenn Sie ein langes Dokument haben, sollten Sie es in mehrere PDFs aufteilen, um es zu verarbeiten.
- Verwenden Sie PDFs, die mit Text entwickelt wurden, der als Text statt als Bilder gerendert wird. Dieses Format sorgt dafür, dass Text maschinenlesbar ist, damit das Modell im Vergleich zu gescannten Bild-PDFs einfacher bearbeiten, suchen und ändern kann. Dies liefert optimale Ergebnisse bei der Arbeit mit textintensiven Dokumenten wie Verträgen.
Dokumente: Einschränkungen
Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:
- Räumliches Denken: Die Modelle können Text oder Objekte in PDFs nicht genau finden. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
- Genauigkeit: Die Modelle können bei der Interpretation von handgeschriebenem Text in PDF-Dokumenten halluzinieren.