Unterstützte Eingabedateien und Anforderungen

Wenn Sie die Gemini API über Ihre App mit einem Firebase AI Logic SDK aufrufen, können Sie das Gemini-Modell auffordern, Text basierend auf einer multimodalen Eingabe wie Bildern, Videos, Audio und Dokumenten (z. B. PDFs) zu generieren.

Sie müssen unterstützte Dateitypen verwenden, einen unterstützten MIME-Typ angeben und darauf achten, dass Ihre Dateien und multimodalen Anfragen den Anforderungen entsprechen und den Best Practices folgen.

Diese Seite bezieht sich speziell auf die Verwendung eines GenerativeModel und beschreibt Folgendes:

Optionen zum Bereitstellen von Dateien in multimodalen Anfragen

Gemini API-Anbieter auswählen, um anbieterspezifische Inhalte auf dieser Seite aufzurufen

In jeder multimodalen Anfrage müssen Sie immer Folgendes angeben:

  • Die mimeType der Datei. Die unterstützten MIME-Typen für die einzelnen Eingabedateien finden Sie im entsprechenden Abschnitt auf dieser Seite.

  • Die Datei. Sie können die Datei entweder als Inline-Daten bereitstellen oder über die URL.

Die Größe und Anzahl der Dateien, die Sie in der Anfrage angeben können, hängt vom Eingabedateityp, der Art der Bereitstellung der Datei und dem verwendeten Modell ab. Weitere Informationen finden Sie im Abschnitt für den jeweiligen Eingabedateityp auf dieser Seite.

Option 1: Datei als Inlinedaten bereitstellen

Beachten Sie Folgendes zu Dateien, die als Inlinedaten bereitgestellt werden:

  • Nur kleine Dateien können als Inline-Daten gesendet werden, da die Gesamtgröße der Anfrage auf 20 MB begrenzt ist.

  • Die Datei wird während der Übertragung mit Base64 codiert, was die Dateigröße erhöht.

Ein Beispiel dafür, wie Sie eine Datei als Inlinedaten einfügen, finden Sie unter Text aus multimodaler Eingabe (Text und Datei) generieren. Hinweis: Die SDKs für Android- und Apple-Plattformen können Inline-Bilder in Anfragen verarbeiten, ohne dass der MIME-Typ angegeben werden muss. Weitere Informationen

Option 2: Datei über eine URL bereitstellen

Hier sind die akzeptablen URL-Typen bei Verwendung von Gemini Developer API:



Bilder: Anforderungen, Best Practices und Einschränkungen

Bilder: Anforderungen

In diesem Abschnitt finden Sie Informationen zu den unterstützten MIME-Typen und den Beschränkungen pro Anfrage für Bilder.

Unterstützte MIME-Typen

Gemini-Multimodal-Modelle unterstützen die folgenden Bild-MIME-Typen:

  • PNG - image/png
  • JPEG - image/jpeg
  • WebP – image/webp

Limits pro Anfrage

Es gibt keine bestimmte Beschränkung für die Anzahl der Pixel in einem Bild. Größere Bilder werden jedoch herunterskaliert und auf eine maximale Auflösung von 3072 × 3072 aufgefüllt, wobei ihr ursprüngliches Seitenverhältnis beibehalten wird.

Maximale Anzahl von Dateien pro Anfrage: 3.000 Bilddateien

Bilder: Tokenisierung

So werden Tokens für Bilder berechnet:

  • Wenn beide Dimensionen eines Bildes kleiner oder gleich 384 Pixel sind, werden 258 Tokens verwendet.
  • Wenn eine Dimension eines Bildes größer als 384 Pixel ist, wird das Bild in Kacheln zugeschnitten. Die Standardgröße für jede Kachel ist die kleinste Dimension (Breite oder Höhe) geteilt durch 1,5. Bei Bedarf wird jede Kachel so angepasst, dass sie nicht kleiner als 256 Pixel und nicht größer als 768 Pixel ist. Jede Kachel wird dann auf 768 × 768 Pixel skaliert und verwendet 258 Tokens.

Bilder: Best Practices

Beachten Sie bei der Verwendung von Bildern die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:

  • Wenn Sie Text in einem Bild erkennen möchten, verwenden Sie Prompts mit einem einzelnen Bild, um bessere Ergebnisse zu erzielen als Prompts mit mehreren Bildern.
  • Wenn Ihr Prompt ein einzelnes Bild enthält, platzieren Sie das Bild in Ihrer Anfrage vor dem Text-Prompt.
  • Wenn Ihr Prompt mehrere Bilder enthält und Sie später in Ihrem Prompt darauf verweisen möchten oder das Modell in der Modellantwort auf sie verweisen soll, kann es hilfreich sein, jedem Bild einen Index vor dem Bild zu geben. Verwenden Sie a b c oder image 1 image 2 image 3 für Ihren Index. Das folgende Beispiel zeigt die Verwendung indexierter Bilder in einem Prompt:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Verwenden Sie Bilder mit einer höheren Auflösung, da diese bessere Ergebnisse liefern.
  • Fügen Sie einige Beispiele in den Prompt ein.
  • Drehen Sie die Bilder in der richtigen Ausrichtung, bevor Sie sie dem Prompt hinzufügen.
  • Vermeiden Sie unscharfe Bilder.

Bilder: Einschränkungen

Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:

  • Inhaltsmoderation: Die Modelle weigern sich, Antworten auf Bilder zu geben, die gegen unsere Sicherheitsrichtlinien verstoßen.
  • Räumliches Denken: Die Modelle können Text oder Objekte in Bildern nicht genau finden. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
  • Medizinische Anwendungen: Die Modelle sind nicht für die Interpretation medizinischer Bilder (z. B. Röntgen- und CT-Scans) oder die Bereitstellung von medizinischem Rat geeignet.
  • Personenerkennung: Die Modelle sind nicht dafür vorgesehen, Personen zu identifizieren, die keine Prominenten sind.
  • Genauigkeit: Die Modelle können bei der Interpretation von gedrehten Bildern sowie Bildern mit niedriger Qualität oder sehr niedrigen Auflösungen halluzinieren oder Fehler machen. Die Modelle können auch bei der Interpretation von handgeschriebenem Text in Bilddokumenten halluzinieren.



Video: Anforderungen, Best Practices und Einschränkungen

Video: Anforderungen

In diesem Abschnitt finden Sie Informationen zu den unterstützten MIME-Typen und den Beschränkungen pro Anfrage für Videos.

Unterstützte MIME-Typen

Gemini-Multimodal-Modelle unterstützen die folgenden Video-MIME-Typen:

  • FLV - video/x-flv
  • MOV - video/quicktime
  • MPEG - video/mpeg
  • MPEGPS - video/mpegps
  • MPG - video/mpg
  • MP4 - video/mp4
  • WEBM - video/webm
  • WMV - video/wmv
  • 3GPP - video/3gpp

Limits pro Anfrage

Maximale Anzahl von Dateien pro Anfrage: 10 Videodateien

Video: Tokenisierung

So werden Tokens für Videos berechnet:

  • Der Audiotrack ist mit Videoframes codiert. Der Audiotrack wird ebenfalls in 1-Sekunden-Blöcke unterteilt, die jeweils 32 Tokens enthalten. Die Videoframes und Audio-Tokens werden zusammen mit ihren Zeitstempeln verschachtelt. Die Zeitstempel werden als 5 Tokens dargestellt.
  • Bei Videos, die mit einer Geschwindigkeit von 1 Bild pro Sekunde (fps) oder weniger gesampelt werden, werden die Zeitstempel für die erste Stunde des Videos als 5 Tokens pro Videobild dargestellt. Die verbleibenden Zeitstempel werden als 7 Tokens pro Videobild dargestellt.
  • Bei Videos, die mit mehr als 1 Bild pro Sekunde (fps) aufgenommen wurden, werden die Zeitstempel für die erste Stunde des Videos als 9 Tokens pro Videobild dargestellt. Die verbleibenden Zeitstempel werden als 11 Tokens pro Videobild dargestellt.

Video: Best Practices

Beachten Sie bei der Verwendung von Videos die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:

  • Wenn Ihr Prompt ein einzelnes Video enthält, platzieren Sie das Video vor dem Text-Prompt.
  • Wenn Sie eine Zeitstempellokalisierung in einem Video mit Audio benötigen, bitten Sie das Modell, Zeitstempel zu generieren, die dem Format entsprechen, das unter „Zeitstempelformat“ beschrieben wird.

Video: Einschränkungen

Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:

  • Inhaltsmoderation: Die Modelle weigern sich, Antworten auf Videos zu geben, die gegen unsere Sicherheitsrichtlinien verstoßen.
  • Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.



Audio: Anforderungen und Einschränkungen

Audio: Anforderungen

In diesem Abschnitt finden Sie Informationen zu den unterstützten MIME-Typen und den Beschränkungen pro Anfrage für Audio.

Unterstützte MIME-Typen

Gemini-Multimodal-Modelle unterstützen die folgenden Audio-MIME-Typen:

  • AAC - audio/aac
  • FLAC - audio/flac
  • MP3 - audio/mp3
  • MPA - audio/m4a
  • MPEG - audio/mpeg
  • MPGA - audio/mpga
  • MP4 - audio/mp4
  • OPUS - audio/opus
  • PCM - audio/pcm
  • WAV - audio/wav
  • WEBM - audio/webm

Limits pro Anfrage

Maximale Anzahl von Dateien pro Anfrage: 1 Audiodatei

Audio: Einschränkungen

Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:

  • Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.
  • Zeitstempel nur für Audio: Damit Zeitstempel für Dateien, die nur Audio enthalten, genau generiert werden, müssen Sie den Parameter audio_timestamp in generation_config konfigurieren.



Dokumente (z. B. PDFs): Anforderungen, Best Practices und Einschränkungen

Dokumente: Anforderungen

In diesem Abschnitt finden Sie Informationen zu den unterstützten MIME-Typen und den Beschränkungen pro Anfrage für Dokumente wie PDFs.

Unterstützte MIME-Typen

Gemini-Multimodal-Modelle unterstützen die folgenden MIME-Dokumenttypen:

  • PDF – application/pdf
  • Text - text/plain

Limits pro Anfrage

PDFs werden als Bilder behandelt, sodass eine einzelne Seite einer PDF-Datei als ein einzelnes Bild behandelt wird. Die Anzahl der Seiten in einem Prompt ist auf die Anzahl der Bilder beschränkt, die die multimodalen Modelle von Gemini unterstützen können.

  • Maximale Anzahl von Dateien pro Anfrage: 3.000 Dateien
  • Maximale Seiten pro Datei: 1.000 Seiten pro Datei
  • Maximale Größe pro Datei: 50 MB pro Datei

Dokumente: Tokenisierung

PDF-Tokenisierung

PDFs werden als Bilder behandelt, sodass jede Seite einer PDF-Datei auf die gleiche Weise wie ein Bild tokenisiert wird.

Außerdem entsprechen die Kosten für PDFs den Gemini-Bildpreisen. Wenn Sie beispielsweise eine zweiseitige PDF in einen Gemini API-Aufruf einfügen, wird Ihnen eine Eingabegebühr für die Verarbeitung von zwei Bildern berechnet.

Dokumente: Best Practices

Beachten Sie bei der Verwendung von PDFs die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen.

  • Wenn Ihr Prompt eine einzelne PDF-Datei enthält, platzieren Sie die PDF-Datei in Ihrer Anfrage vor dem Text-Prompt.
  • Wenn Sie ein langes Dokument haben, sollten Sie es in mehrere PDFs aufteilen, um es zu verarbeiten.
  • Verwenden Sie PDFs, die mit Text entwickelt wurden, der als Text statt als Bilder gerendert wird. Dieses Format sorgt dafür, dass Text maschinenlesbar ist, damit das Modell im Vergleich zu gescannten Bild-PDFs einfacher bearbeiten, suchen und ändern kann. Dies liefert optimale Ergebnisse bei der Arbeit mit textintensiven Dokumenten wie Verträgen.

Dokumente: Einschränkungen

Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:

  • Räumliches Denken: Die Modelle können Text oder Objekte in PDFs nicht genau finden. Sie geben möglicherweise nur eine ungefähre Anzahl an Objekten zurück.
  • Genauigkeit: Die Modelle können bei der Interpretation von handgeschriebenem Text in PDF-Dokumenten halluzinieren.