Gemini-Modelle

Die Gemini-Modelle gelten als multimodal, da sie Informationen aus verschiedenen Modalitäten verarbeiten können, darunter Bilder, Videos und Text. Sie können einem Gemini-Modell beispielsweise ein Foto eines Tellers mit Keksen schicken und es bitten, Ihnen ein Rezept für diese Kekse zu geben.

Eingabeaufforderung Antwort

Nenne mir ein Rezept für diese Kekse.

Foto mehrerer Kekse mit Schokoladenstückchen
**ZUTATEN**
– 1 Tasse (2 Stück) weiche Butter
- 3/4 Tasse raffinierter Zucker
- 3/4 Tasse brauner Zucker
– 1 Teelöffel Vanillemark
– 2 große Eier
– 2 1/4 Tassen Mehl
- 1 Teelöffel Backpulver
- 1 Teelöffel Salz
...

Sie können mit der Gemini-Modellfamilie über die Gemini API von Vertex AI auf Google Cloud interagieren. Für mobile Apps und Webanwendungen können Sie die Vertex AI in Firebase SDKs verwenden, um die Gemini API aufzurufen und direkt über Ihre App mit den Gemini-Modellen zu interagieren.

Auf dieser Seite finden Sie die folgenden Informationen zu den Gemini-Modellen:

  • Einen Gesamtvergleich der Anwendungsfälle für die verschiedenen Gemini-Modelle, einschließlich der unterstützten Eingabetypen.

  • Vergleich der Details für jedes Modell, z. B. maximale Eingabetokens oder maximale Videolänge.

  • Beschreibung der versionierten Gemini-Modelle, insbesondere ihre stabile, automatische Aktualisierung und eine Vorabversion.

  • Listen verfügbarer Modellnamen, die während der Initialisierung in Ihren Code aufgenommen werden sollen.

  • Liste der unterstützten Sprachen für die Gemini-Modelle.

Verfügbare Modelle

Sie können die folgenden Gemini-Modelle mit Vertex AI in Firebase verwenden:

  • Gemini 1.5 Flash
    Multimodales Modell, das die gleichen Eingabe- und Ausgabetypen unterstützt wie 1.5 Pro, aber mit einem Long-Kontext-Understanding von 1 Million Tokens. Gemini 1.5 Flash wurde speziell für kostengünstige Anwendungen mit hohem Volumen entwickelt.

  • Gemini 1.5 Pro
    Multimodales Modell, das das Hinzufügen von Bild-, Audio-, Video- und PDF-Dateien in Text- oder Chat-Prompts für eine Text- oder Codeantwort unterstützt. Außerdem unterstützt es das Long-Context-Verstehen mit 2 Millionen Tokens.

  • Gemini 1.0 Pro Vision
    Multimodales Modell, das Text sowie Bilder und Videos für eine Text- oder Codeantwort verarbeitet. Kann nicht für Chats verwendet werden.

  • Gemini 1.0 Pro
    Modell, das für Aufgaben in natürlicher Sprache, wechselseitigen Chat mit Text und Code sowie Codegenerierung entwickelt wurde.

Zu den Modellnamen springen, die Sie in Ihren Code aufnehmen möchten

Anwendungsfälle und Funktionen für jedes Modell

Jedes Gemini-Modell hat unterschiedliche Funktionen, die verschiedene Anwendungsfälle unterstützen. Weitere Informationen zu den einzelnen Gemini-Modellen finden Sie in der Google Cloud-Dokumentation.

Unterstützte Ein- und Ausgabe für jedes Modell

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Eingabetypen
Text
Code
Bild
PDF
Video (nur Frames)
Video (Frames und Audio)
Audio
Ausgabetypen
Text
Strukturierte Ausgabe (wie JSON) mit dem Antwortschema
Code

Informationen zu unterstützten Dateitypen finden Sie unter Unterstützte Eingabedateien und Anforderungen für die Vertex AI Gemini API.

Unterstützte Funktionen und allgemeine Funktionen für jedes Modell

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Textgenerierung aus reiner Texteingabe
Text aus multimodaler Eingabe generieren
Strukturierte Ausgabe (z. B. JSON) mit Antwortschema
Wechselseitiger Chat
Funktionsaufrufe
Grundlegende Funktionsaufrufe
Paralleler Funktionsaufruf
Modus für Funktionsaufrufe
Tokens und abrechenbare Zeichen zählen
Systemanweisungen

Detaillierte Informationen zu den einzelnen Modellen

Attribut Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Gesamttokenlimit (Eingabe- und Ausgabe kombiniert) * 1.048.576 Tokens 2.097.152 Tokens 16.384 Tokens 32.760 Tokens
Ausgabetokenlimit * 8.192 Tokens 8.192 Tokens 2.048 Tokens 8.192 Tokens
Maximale Anzahl von Bildern pro Anfrage 3.000 Bilder 3.000 Bilder 16 Bilder
Maximale Größe von Base64-codierten Bildern 7 MB 7 MB 7 MB
Maximale PDF-Größe 30 MB 30 MB 30 MB
Maximale Anzahl von Videodateien pro Anfrage 10 Videodateien 10 Videodateien 1 Videodatei
Maximale Videolänge (nur Frames) ~60 Minuten Videomaterial ~60 Minuten Videomaterial 2 Minuten
Maximale Videolänge (Frames und Audio) Ca. 45 Minuten Video Ca. 45 Minuten Video
Maximale Anzahl von Audiodateien pro Anfrage 1 Audiodatei 1 Audiodatei
Maximale Audiolänge ~ 8,4 Stunden Audio ~ 8,4 Stunden Audio

* Bei allen Gemini-Modellen entspricht ein Token etwa 4 Zeichen. 100 Tokens entsprechen also etwa 60–80 englischen Wörtern. Die Gesamtzahl der Tokens in deinen Anfragen kannst du mit countTokens ermitteln.

Weitere Informationen zu unterstützten Dateitypen, zum Angeben des MIME-Typs und dazu, wie Sie dafür sorgen, dass Ihre Dateien und multimodalen Anfragen die Anforderungen erfüllen und Best Practices einhalten, finden Sie unter Unterstützte Eingabedateien und Anforderungen für die Vertex AI Gemini API.

Versionsverwaltung der Modelle

Die Gemini-Modelle werden in stabilen, automatisch aktualisierten und Vorabversionen angeboten.

  • Stabile Versionen gelten als allgemein verfügbar.

    • Stabile Versionen haben eine dreistellige Versionsnummer, die an den Modellnamen angehängt ist, z. B. gemini-1.5-pro-002.
  • Automatisch aktualisierte Versionen verweisen immer auf die neueste stabile Version dieses Modells. Wird eine neue stabile Version veröffentlicht, verweist die automatisch aktualisierte Version automatisch auf diese neue stabile Version.

    • Automatisch aktualisierte Versionen haben Modellnamen ohne Zusatz, z. B. gemini-1.5-pro.
  • Vorabversionen bieten neue Funktionen und gelten als nicht stabil. Vorschauversionen verweisen immer auf die aktuelle Vorschauversion dieses Modells. Wenn eine neue Vorschauversion veröffentlicht wird, verweist jede vorhandene Vorschauversion automatisch auf diese neue Vorschauversion.

    • An Vorschauversionen werden Modellnamen mit -preview und dem ersten Releasedatum des Modells (-MMDD) angehängt. Beispiel: gemini-1.5-pro-preview-0409 (veröffentlicht am 9. April 2024).

Weitere Informationen zu den verfügbaren Gemini-Modellversionen und ihrem Lebenszyklus finden Sie in der Google Cloud-Dokumentation.

Verfügbare Modellnamen

Modellnamen sind die expliziten Werte, die Sie während der Initialisierung des generativen Modells in Ihren Code aufnehmen. Dies ist ein erforderlicher Schritt zum Aufrufen von Gemini API. Initialisierungsbeispiele für Ihre Sprache finden Sie im Startleitfaden.

Namen von Gemini 1.5-Flash-Modellen

Modellname Beschreibung Veröffentlichungsphase Datum der Erstveröffentlichung Einstellungsdatum
Stabile Versionen
gemini-1.5-flash-002 Neueste stabile Version von Gemini 1.5 Flash General Availability 2024-09-24 Frühestens am 24.09.2025
gemini-1.5-flash-001 Erste stabile Version von Gemini 1.5 Flash General Availability 2024-05-24 Frühestens am 24. Mai 2025
Automatisch aktualisierte Version
gemini-1.5-flash Verweist auf die neueste stabile Version von 1.5 Flash
(aktuell gemini-1.5-flash-002)
General Availability 2024-09-24 ---

Modellnamen für Gemini 1.5 Pro

Modellname Beschreibung Veröffentlichungsphase Datum der Erstveröffentlichung Einstellungsdatum
Stabile Versionen
gemini-1.5-pro-002 Aktuelle stabile Version von Gemini 1.5 Pro General Availability 2024-09-24 Frühestens am 24.09.2025
gemini-1.5-pro-001 Erste stabile Version von Gemini 1.5 Pro General Availability 2024-05-24 Frühestens am 24. Mai 2025
Automatisch aktualisierte Version
gemini-1.5-pro Verweist auf die aktuelle stabile Version von 1.5 Pro
(derzeit gemini-1.5-pro-002)
General Availability 2024-09-24 ---

Namen der Gemini 1.0 Pro Vision-Modelle

Modellname Beschreibung Veröffentlichungsphase Datum der Erstveröffentlichung Einstellungsdatum
Stabile Versionen
gemini-1.0-pro-vision-001 Neueste stabile Version von Gemini 1.0 Pro Vision General Availability 2024-02-15 Nicht vor dem 15.02.2025
Automatisch aktualisierte Version
gemini-1.0-pro-vision Verweist auf die aktuelle stabile Version von 1.5 Pro Vision
(aktuell gemini-1.5-pro-vision-001)
General Availability 2024-01-04 ---

Modellnamen für Gemini 1.0 Pro

Modellname Beschreibung Veröffentlichungsphase Datum der Erstveröffentlichung Einstellungsdatum
Stabile Versionen
gemini-1.0-pro-002 Neueste stabile Version von Gemini 1.0 Pro General Availability 2024-04-09 Nicht vor dem 09.04.2025
gemini-1.0-pro-001 Stabile Version von Gemini 1.0 Pro General Availability 2024-02-15 Frühestens am 15.02.2025
Automatisch aktualisierte Version
gemini-1.0-pro Verweist auf die aktuelle stabile Version von 1.0 Pro
(derzeit gemini-1.0-pro-002)
General Availability 2024-02-15 ---

Unterstützte Sprachen

  • Alle Gemini-Modelle können die folgenden Sprachen verstehen und darauf antworten:

    Deutsch (de), Arabisch (ar), Bengali (bn), Bulgarisch (bg), Chinesisch (vereinfacht und traditionell) (zh), Kroatisch (hr), Tschechisch (cs), Dänisch (da), Niederländisch (nl), Englisch (en), Estnisch (et), Finnisch (fi), Französisch (fr), Griechisch (el), Hebräisch (iw), Hindi (hi), Ungarisch (hu), Indonesisch (id), Italienisch (it), Japanisch (ja), Koreanisch (ko), Lettisch (lv), Litauisch (lt), Norwegisch (no), Polnisch (pl), Portugiesisch (pt), Rumänisch (ro), Russisch (ru), Serbisch (sr), Slowakisch (sk), Slowenisch (sl), Spanisch (es), Swahili (sw), Schwedisch (sv), Thailändisch (th), Türkisch (tr), Ukrainisch (uk), Vietnamesisch (vi)

  • Die Flash-Modelle von Gemini 1.5 Pro und Gemini 1.5 können die folgenden zusätzlichen Sprachen verstehen und darauf antworten:

    Afrikaans (af), Amharisch (am), Assamesisch (as), Aserbaidschanisch (az), Weißrussisch (be), Bosnisch (bs), Katalanisch (ca), Cebuano (ceb), Korsisch (co), Walisisch (cy), Divehi (dv), Esperanto (eo), Baskisch (eu), Persisch (fa), Filipino (Tagalog) (fil), Friesisch (fy), Irisch (ga), Schottisch-Gälisch (gd), Galicisch (gl), Gujarati (gu), Hausa (ha), Hawaiianisch (haw), Hmong (hmn), Haitianisch-Kreolisch (ht), Armenisch (hy), Igbo (ig), Isländisch (is), Javanisch (jv), Georgisch (ka), Kasachisch (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdisch (ku), Kirgisisch (ky), Lateinisch (la), Luxemburgisch (lb), Laotisch (lo), Malagasy (mg), Maori (mi), Mazedonisch (mk), Malayalam (ml), Mongolisch (mn), Meitei (Manipuri) (mni-Mtei), Marathi (mr), Malaysisch (ms), Maltesisch (mt), Myanmar (Burmesisch) (my), Nepalesisch (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Paschtu (ps), Sindhi (sd), Sinhala (Singhalesisch) (si), Samoanisch (sm), Shona (sn), Somali (so), Albanisch (sq), Sesotho (st), Sundanesisch (su), Tamil (ta), Telugu (te), Tadschikisch (tg), Uigurisch (ug), Urdu (ur), Usbekisch (uz), Xhosa (xh), Jiddisch (yi), Yoruba (yo), Zulu (zu)

Nächste Schritte

Funktionen des Gemini API testen