Wenn Sie die Vertex AI Gemini API über ein Vertex AI in Firebase SDK von Ihrer App aus aufrufen, können Sie das Gemini-Modell auffordern, Text basierend auf einer multimodalen Eingabe zu generieren. Multimodale Prompts können mehrere Modalitäten umfassen. oder andere Arten der Eingabe, wie Text in Verbindung mit Bildern, PDFs, Videos und Audiodateien.
Für die Nicht-Text-Teile der Eingabe (z. B. Mediendateien) müssen Sie unterstützten Dateityp sind, geben Sie einen unterstützten MIME-Typ an und stellen Sie sicher, dass Ihr Dateien und multimodale Anfragen die Anforderungen erfüllen und den Best Practices folgen.
Auf dieser Seite werden die unterstützten MIME-Typen, Best Practices und Einschränkungen beschrieben. für Folgendes:
Anforderungen speziell für die Vertex AI in Firebase SDKs
Für Vertex AI in Firebase SDKs beträgt die maximale Gesamtgröße der Anfrage 20 MB. Wenn eine Anfrage zu groß ist, erhalten Sie den HTTP-Fehler 413.
Wenn die Größe einer Datei die Gesamtgröße der Anfrage auf über 20 MB erhöht, verwenden Sie eine Cloud Storage for Firebase-URL, um die Datei in Ihre multimodale Anfrage aufzunehmen.
Wenn eine Datei klein ist, können Sie sie häufig direkt als Inline-Daten übergeben. Beachte jedoch, dass eine Datei, die als Inline-Daten bereitgestellt wird, während der Übertragung in Base64 codiert wird, wodurch die Größe der Anfrage erhöht wird. Beispiele für Dateien als Inline-Daten einschließen, siehe Text aus multimodalen Prompts mit der Gemini API generieren
Bilder: Anforderungen, Best Practices und Einschränkungen
Bilder: Anforderungen
In diesem Abschnitt erhalten Sie Informationen zu den unterstützten MIME-Typen und den Beschränkungen pro Anfrage für Bilder.
Unterstützte MIME-Typen
Multimodale Gemini-Modelle unterstützen die folgenden Bild-MIME-Typen:
MIME-Typ für Bild | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
|||
WebP – image/webp |
Limits pro Anfrage
Die Anzahl der Pixel in einem Bild ist nicht begrenzt. Sie können jedoch größere Bilder werden verkleinert und auf eine maximale Auflösung von 3072 x 3072-Statuscodes unter Beibehaltung des ursprünglichen Seitenverhältnisses.
Die maximale Anzahl von Bilddateien, die in einer Prompt-Anfrage zulässig sind:
- Gemini 1.0 Pro Vision: 16 Bilder
- Gemini 1.5 Flash und Gemini 1.5 Pro: 3.000 Bilder
Bilder: Tokenisierung
So werden Tokens für Bilder berechnet:
- Gemini 1.0 Pro Vision: Jedes Bild wird registriert um 258 Tokens zu erhalten.
- Gemini 1.5 Flash und
Gemini 1.5 Pro:
- Wenn beide Abmessungen eines Bildes kleiner oder gleich 384 Pixel sind, werden 258 Tokens verwendet.
- Wenn ein Bild größer als 384 Pixel ist, auf Kacheln zugeschnitten. Für jede Kachelgröße wird standardmäßig die (Breite oder Höhe) geteilt durch 1,5. Falls erforderlich, wird jede Kachel so angepasst, dass sie nicht kleiner als 256 Pixel und nicht größer als 768 Pixel ist. Jede Kachel wird dann auf 768 x 768 verkleinert und verwendet 258 Tokens.
Bilder: Best Practices
Beachten Sie bei der Verwendung von Bildern die folgenden Best Practices und Informationen für die beste Ergebnisse:
- Wenn Sie Text in einem Bild erkennen möchten, verwenden Sie Prompts mit einem einzelnen Bild, um liefern bessere Ergebnisse als Prompts mit mehreren Bildern.
- Wenn Ihr Prompt ein einzelnes Bild enthält, platzieren Sie das Bild in Ihrer Anfrage vor dem Text-Prompt.
- Wenn Ihr Prompt mehrere Bilder enthält und Sie darauf verweisen möchten
oder das Modell in der Modellantwort darauf verweisen soll,
kann es hilfreich sein, jedem Bild einen Index vor dem Bild zu geben. Verwenden Sie
odera
b
c
für Ihren Index. Hier sehen Sie ein Beispiel für die Verwendung indexierter Bilder in einer Eingabeaufforderung:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Verwenden Sie Bilder mit höherer Auflösung. sie bessere Ergebnisse liefern.
- Fügen Sie einige Beispiele in den Prompt ein.
- Drehen Sie Bilder in die richtige Ausrichtung, bevor Sie sie zum .
- Vermeiden Sie unscharfe Bilder.
Bilder: Einschränkungen
Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:
- Inhaltsmoderation: Die Modelle verweigern, Antworten zu geben. zu Bildern, die gegen unsere Sicherheitsrichtlinien verstoßen.
- Räumliches Denken: Die Modelle können Text oder Objekte in Bildern nicht genau finden. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
- Medizinische Zwecke: Die Modelle sind nicht für die Interpretation medizinischer Bilder (z. B. Röntgen- und CT-Scans) oder die Bereitstellung von medizinischem Rat geeignet.
- Personenerkennung: Die Modelle sind nicht dazu gedacht, Personen in Bildern zu identifizieren, die keine Prominenten sind.
- Genauigkeit: Die Modelle können bei der Interpretation von gedrehten Bildern sowie Bildern mit niedriger Qualität oder sehr niedrigen Auflösungen halluzinieren oder Fehler machen. Die Modelle können auch bei der Interpretation von handgeschriebenem Text in Bilddokumenten halluzinieren.
Video: Anforderungen, Best Practices und Einschränkungen
Video: Anforderungen
In diesem Abschnitt erfährst du mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Videos.
Unterstützte MIME-Typen
Gemini-Multimodal-Modelle unterstützen die folgenden MIME-Videotypen:
Video-MIME-Typ | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
Limits pro Anfrage
In einer Prompt-Anfrage ist die folgende maximale Anzahl von Videodateien zulässig:
- Gemini 1.0 Pro Vision: 1 Videodatei
- Gemini 1.5 Flash und Gemini 1.5 Pro: 10 Videodateien
Video: Tokenisierung
So werden Tokens für Videos berechnet:
- Alle multimodalen Gemini-Modelle: Die Videos werden hier erhoben:
1 Frame pro Sekunde (fps) . Jeder Video-Frame macht 258 Tokens. - Gemini 1.5 Flash und
Gemini 1.5 Pro: Der Audiotrack ist codiert.
mit Videoframes. Der Audiotrack ist auch unterteilt in
1-Sekunden-Trunks , die jeweils 32 Tokens enthalten. Das Video Frame- und Audiotokens sind mit ihren Zeitstempeln verschränkt. Die Zeitstempel werden als 7 Tokens dargestellt.
Video: Best Practices
Beachten Sie bei der Verwendung von Videos die folgenden Best Practices und Informationen für beste Ergebnisse:
- Wenn Ihr Prompt ein einzelnes Video enthält, platzieren Sie das Video vor dem Text-Prompt.
- Wenn du in einem Video mit Audio eine Zeitstempellokalisierung benötigst, frage das Modell
zum Generieren von Zeitstempeln im
MM:SS
-Format, bei denen die ersten beiden Ziffern stehen für Minuten und die letzten beiden Ziffern für Sekunden. Verwenden Sie dasselbe Format für Fragen, bei denen nach einem Zeitstempel gefragt wird. Wenn Sie Gemini 1.0 Pro Vision verwenden, beachten Sie Folgendes:
- Verwenden Sie nicht mehr als ein Video pro Prompt.
- Das Modell verarbeitet nur die Informationen in den ersten zwei Minuten Video.
- Das Modell verarbeitet Videos als nicht fortlaufende Bildframes aus dem Video. Audio ist nicht enthalten. Wenn Sie feststellen, dass im Modell Inhalte aus dem Video fehlen, versuchen Sie, das Video zu verkürzen, damit das Modell einen größeren Teil des Videoinhalts erfasst.
- Das Modell verarbeitet keine Audiodaten oder Zeitstempelmetadaten. Aus diesem Grund funktioniert das Modell möglicherweise nicht gut in Anwendungsfällen, die eine Audioeingabe erfordern, z. B. für Untertitel oder zeitbezogene Informationen wie Geschwindigkeit oder Rhythmus.
Video: Einschränkungen
Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:
- Inhaltsmoderation: Die Modelle verweigern, Antworten zu geben. bei Videos, die gegen unsere Sicherheitsrichtlinien verstoßen.
- Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.
- Hochgeschwindigkeitsbewegung: Die Modelle können Fehler machen.
schnell Bewegungen in Videos erkennen,
Abtastrate mit
1 Frame pro Sekunde (fps) - Satzzeichen des Transkripts: (bei Verwendung von Gemini 1.5 Flash) Die Modelle sind möglicherweise Transkriptionen zurückgeben, die keine Satzzeichen enthalten
Audio: Anforderungen und Einschränkungen
Audio: Anforderungen
In diesem Abschnitt erhalten Sie Informationen zu den unterstützten MIME-Typen und den Beschränkungen pro Anfrage für Audio.
Unterstützte MIME-Typen
Gemini-Multimodal-Modelle unterstützen die folgenden MIME-Audiotypen:
Audio-MIME-Typ | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
Limits pro Anfrage
Sie können maximal
Audio: Einschränkungen
Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:
- Nicht-Spracherkennung: Die Modelle, die Audio kann Fehler machen, Geräusche zu erkennen, die keine Sprache sind.
- Nur Audio-Zeitstempel: Damit werden die
Zeitstempeln für Audiodateien haben, müssen Sie den Parameter
audio_timestamp
konfigurieren. ingeneration_config
- Satzzeichen des Transkripts: (bei Verwendung von Gemini 1.5 Flash) Die Modelle sind möglicherweise Transkriptionen zurückgeben, die keine Satzzeichen enthalten
Dokumente (z. B. PDFs): Anforderungen, Best Practices und Einschränkungen
Dokumente: Anforderungen
In diesem Abschnitt erfahren Sie mehr über die unterstützten MIME-Typen und Limits pro Anfrage für Dokumente (z. B. PDFs).
Unterstützte MIME-Typen
Gemini-Multimodal-Modelle unterstützen die folgenden MIME-Dokumenttypen:
MIME-Typ für das Dokument | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF – application/pdf |
|||
SMS – text/plain |
Limits pro Anfrage
PDFs werden als Bilder behandelt, sodass eine einzelne Seite einer PDF-Datei als ein einzelnes Bild behandelt wird. Die Anzahl der Seiten in einem Prompt ist auf die Anzahl der Bilder beschränkt, die das Modell unterstützen kann:
- Gemini 1.0 Pro Vision: 16 Seiten
- Gemini 1.5 Pro und Gemini 1.5 Flash: 1.000 Seiten
Dokumente: Tokenisierung
PDF-Tokenisierung
PDFs werden als Bilder behandelt, sodass jede Seite einer PDF-Datei auf die gleiche Weise wie ein Bild tokenisiert wird.
Außerdem entsprechen die Kosten für PDFs den Gemini-Bildpreisen. Wenn Sie beispielsweise eine zweiseitige PDF in einen Gemini API-Aufruf einfügen, wird Ihnen eine Eingabegebühr für die Verarbeitung von zwei Bildern berechnet.
Tokenisierung im reinen Textformat
Nur-Text-Dokumente werden als Text tokenisiert. Wenn Sie beispielsweise ein 100-Wörter-Dokument im reinen Textformat in einen Gemini API-Aufruf einfügen, wird Ihnen eine Eingabegebühr für die Verarbeitung von 100 Wörtern berechnet.
Dokumente: Best Practices
Beachten Sie bei der Verwendung von PDFs die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen.
- Wenn Ihr Prompt eine einzelne PDF-Datei enthält, platzieren Sie die PDF-Datei in Ihrer Anfrage vor dem Text-Prompt.
- Wenn Sie ein langes Dokument haben, sollten Sie es in mehrere PDFs aufteilen, um es zu verarbeiten.
- Verwenden Sie PDFs, die mit Text entwickelt wurden, der als Text statt als Bilder gerendert wird. Dieses Format sorgt dafür, dass Text maschinenlesbar ist, damit das Modell im Vergleich zu gescannten Bild-PDFs einfacher bearbeiten, suchen und ändern kann. Dies liefert optimale Ergebnisse bei der Arbeit mit textintensiven Dokumenten wie Verträgen.
Dokumente: Einschränkungen
Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:
- Räumliches Denken: Die Modelle können Text oder Objekte in PDFs nicht genau finden. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
- Genauigkeit: Die Modelle können bei der Interpretation von handgeschriebenem Text in PDF-Dokumenten halluzinieren.