Die Gemini-Modelle gelten als multimodal, da sie Informationen aus mehreren Modalitäten verarbeiten können, einschließlich Bildern, Videos und Text. Sie können einem Gemini-Modell beispielsweise ein Foto eines Tellers mit Keksen schicken und es bitten, Ihnen ein Rezept für diese Kekse zu geben.
Eingabeaufforderung | Antwort |
Geben Sie mir ein Rezept für diese Kekse. |
**ZUTATEN** – 1 Tasse (2 Stück) weiche Butter - 3/4 Tasse raffinierter Zucker - 3/4 Tasse brauner Zucker – 1 Teelöffel Vanillemark – 2 große Eier – 2 1/4 Tassen Mehl - 1 Teelöffel Backpulver - 1 Teelöffel Salz ... |
Sie können mit der Gemini-Modellfamilie über die Gemini API interagieren, die von Vertex AI auf Google Cloud bereitgestellt wird. Für mobile Apps und Webanwendungen können Sie die Vertex AI in Firebase SDKs verwenden, um die Gemini API aufzurufen und direkt über Ihre App mit den Gemini-Modellen zu interagieren.
Auf dieser Seite finden Sie die folgenden Informationen zu den Gemini-Modellen:
Grober Vergleich der Anwendungsfälle für die verschiedenen Gemini-Modelle, einschließlich der unterstützten Eingabetypen.
Vergleich der Details für jedes Modell, z. B. maximale Eingabetokens oder maximale Videolänge.
Beschreibung der Versionierung von Gemini-Modellen, insbesondere der stabilen, automatisch aktualisierten und Vorabversionen.
Listen mit verfügbaren Modellnamen, die bei der Initialisierung in Ihren Code aufgenommen werden sollen.
Liste der unterstützten Sprachen für die Gemini-Modelle.
Verfügbare Modelle
Sie können jedes der folgenden Gemini-Modelle mit Vertex AI in Firebase verwenden:
Gemini 1.5 Flash
Multimodales Modell, das dieselben Eingabe- und Ausgabetypen wie 1.5 Pro unterstützt, aber mit einem Long-Context-Verstehen von 1 Million Tokens. Gemini 1.5 Flash wurde speziell für kostengünstige Anwendungen mit hohem Volumen entwickelt.Gemini 1.5 Pro
Multimodales Modell, das das Hinzufügen von Bild-, Audio-, Video- und PDF-Dateien in Text- oder Chat-Prompts für eine Text- oder Codeantwort unterstützt. Außerdem unterstützt es das Long-Context-Verstehen mit 2 Millionen Tokens.Gemini 1.0 Pro Vision
Multimodales Modell, das Text sowie Bilder und Videos für eine Text- oder Codeantwort verarbeitet. Kann nicht für Chats verwendet werden.Gemini 1.0 Pro
Modell, das für Aufgaben in natürlicher Sprache, wechselseitigen Chat mit Text und Code sowie Codegenerierung entwickelt wurde.
Zu den Modellnamen springen, die Sie in Ihren Code aufnehmen möchten
Anwendungsfälle und Funktionen für jedes Modell
Jedes Gemini-Modell hat unterschiedliche Funktionen, die verschiedene Anwendungsfälle unterstützen. Weitere Informationen zu den einzelnen Gemini-Modellen finden Sie in der Google Cloud-Dokumentation.
Unterstützte Ein- und Ausgabe für jedes Modell
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
Eingabetypen | ||||
Text | ||||
Code | ||||
Bild | ||||
Video (nur Frames) | ||||
Video (Frames und Audio) | ||||
Audio | ||||
Ausgabetypen | ||||
Text | ||||
Strukturierte Ausgabe (z. B. JSON) mit Antwortschema | ||||
Code |
Informationen zu unterstützten Dateitypen finden Sie unter Unterstützte Eingabedateien und Anforderungen für die Vertex AI Gemini API.
Unterstützte Funktionen und allgemeine Features für jedes Modell
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
Textgenerierung aus reiner Texteingabe | |||||
Textgenerierung aus multimodaler Eingabe | |||||
Strukturierte Ausgabe (wie JSON) mit dem Antwortschema | |||||
Wechselseitiger Chat | |||||
Funktionsaufrufe | |||||
Grundlegende Funktionsaufrufe | |||||
Paralleler Funktionsaufruf | |||||
Modus für Funktionsaufrufe | |||||
Tokens und abrechenbare Zeichen zählen | |||||
Systemanweisungen |
Detaillierte Informationen zu den einzelnen Modellen
Attribut | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
Gesamttokenlimit (Eingabe- und Ausgabe kombiniert) * | 1.048.576 Tokens | 2.097.152 Tokens | 16.384 Tokens | 32.760 Tokens |
Ausgabetokenlimit * | 8.192 Tokens | 8.192 Tokens | 2.048 Tokens | 8.192 Tokens |
Maximale Anzahl von Bildern pro Anfrage | 3.000 Bilder | 3.000 Bilder | 16 Bilder | – |
Maximale Größe von Base64-codierten Bildern | 7 MB | 7 MB | 7 MB | – |
Maximale PDF-Größe | 30 MB | 30 MB | 30 MB | – |
Maximale Anzahl von Videodateien pro Anfrage | 10 Videodateien | 10 Videodateien | 1 Videodatei | – |
Maximale Videolänge (nur Frames) | ~60 Minuten Videomaterial | ~60 Minuten Videomaterial | 2 Minuten | – |
Maximale Videolänge (Frames und Audio) | Ca. 45 Minuten Video | Ca. 45 Minuten Video | – | – |
Maximale Anzahl von Audiodateien pro Anfrage | 1 Audiodatei | 1 Audiodatei | – | – |
Maximale Audiolänge | ~8,4 Stunden Audio | ~ 8,4 Stunden Audio | – | – |
* Bei allen Gemini-Modellen entspricht ein Token etwa 4 Zeichen. 100 Tokens entsprechen also etwa 60–80 englischen Wörtern. Die Gesamtzahl der Tokens in deinen Anfragen kannst du mit countTokens
ermitteln.
Weitere Informationen zu unterstützten Dateitypen, zum Angeben des MIME-Typs und dazu, wie Sie dafür sorgen, dass Ihre Dateien und multimodalen Anfragen die Anforderungen erfüllen und Best Practices einhalten, finden Sie unter Unterstützte Eingabedateien und Anforderungen für die Vertex AI Gemini API.
Versionsverwaltung der Modelle
Die Gemini-Modelle werden in stabilen, automatisch aktualisierten und Vorabversionen angeboten.
Stabile Versionen gelten als allgemein verfügbar.
- Stabile Versionen haben Modellnamen, denen eine bestimmte dreistellige Versionsnummer angehängt wird, z. B.
.gemini-1.5-pro-002
- Stabile Versionen haben Modellnamen, denen eine bestimmte dreistellige Versionsnummer angehängt wird, z. B.
Automatisch aktualisierte Versionen verweisen immer auf die neueste stabile Version dieses Modells. Wird eine neue stabile Version veröffentlicht, verweist die automatisch aktualisierte Version automatisch auf diese neue stabile Version.
- Automatisch aktualisierte Versionen haben Modellnamen ohne Zusatz, z. B.
.gemini-1.5-pro
- Automatisch aktualisierte Versionen haben Modellnamen ohne Zusatz, z. B.
Vorabversionen bieten neue Funktionen und gelten als nicht stabil. Vorschauversionen verweisen immer auf die aktuelle Vorschauversion dieses Modells. Wenn eine neue Vorschauversion veröffentlicht wird, verweist jede vorhandene Vorschauversion automatisch auf diese neue Vorschauversion.
- Modellnamen von Vorabversionen werden mit
und dem Datum der Erstveröffentlichung des Modells (-preview
) angehängt, z. B.-MMDD
(veröffentlicht am 9. April 2024).gemini-1.5-pro-preview-0409
- Modellnamen von Vorabversionen werden mit
Weitere Informationen zu den verfügbaren Gemini-Modellversionen und deren Lebenszyklus finden Sie in der Google Cloud-Dokumentation.
Verfügbare Modellnamen
Modellnamen sind die expliziten Werte, die Sie in Ihren Code während der Initialisierung des generativen Modells einfügen. Dies ist ein erforderlicher Schritt, um die Gemini API aufzurufen. Beispiele für die Initialisierung für Ihre Sprache finden Sie im Leitfaden für den Einstieg.
Namen von Gemini 1.5-Flash-Modellen
Modellname | Beschreibung | Veröffentlichungsphase | Erstveröffentlichungsdatum | Einstellungsdatum |
---|---|---|---|---|
Stabile Versionen | ||||
gemini-1.5-flash-002 |
Neueste stabile Version von Gemini 1.5 Flash | General Availability | 2024-09-24 | Nicht vor dem 24.09.2025 |
gemini-1.5-flash-001 |
Erste stabile Version von Gemini 1.5 Flash | General Availability | 2024-05-24 | Frühestens am 24. Mai 2025 |
Automatisch aktualisierte Version | ||||
gemini-1.5-flash |
Verweist auf gemini-1.5-flash-001 Verwenden Sie für den Zugriff auf gemini-1.5-flash-002 |
General Availability | 2024-05-24 | --- |
Modellnamen von Gemini 1.5 Pro
Modellname | Beschreibung | Veröffentlichungsphase | Erstveröffentlichungsdatum | Einstellungsdatum |
---|---|---|---|---|
Stabile Versionen | ||||
gemini-1.5-pro-002 |
Aktuelle stabile Version von Gemini 1.5 Pro | General Availability | 2024-09-24 | Frühestens am 24.09.2025 |
gemini-1.5-pro-001 |
Erste stabile Version von Gemini 1.5 Pro | General Availability | 2024-05-24 | Frühestens am 24. Mai 2025 |
Automatisch aktualisierte Version | ||||
gemini-1.5-pro |
Verweist auf gemini-1.5-pro-001 Verwenden Sie für den Zugriff auf gemini-1.5-pro-002 |
General Availability | 2024-05-24 | --- |
Gemini 1.0 Pro Vision-Modellnamen
Modellname | Beschreibung | Veröffentlichungsphase | Erstveröffentlichungsdatum | Einstellungsdatum |
---|---|---|---|---|
Stabile Versionen | ||||
gemini-1.0-pro-vision-001 |
Neueste stabile Version von Gemini 1.0 Pro Vision | General Availability | 2024-02-15 | Nicht vor dem 15.02.2025 |
Automatisch aktualisierte Version | ||||
gemini-1.0-pro-vision |
Verweist auf die aktuelle stabile Version von 1.5 Pro Vision (aktuell gemini-1.5-pro-vision-001 |
General Availability | 2024-01-04 | --- |
Modellnamen für Gemini 1.0 Pro
Modellname | Beschreibung | Veröffentlichungsphase | Erstveröffentlichungsdatum | Einstellungsdatum |
---|---|---|---|---|
Stabile Versionen | ||||
gemini-1.0-pro-002 |
Aktuelle stabile Version von Gemini 1.0 Pro | General Availability | 2024-04-09 | Nicht vor dem 09.04.2025 |
gemini-1.0-pro-001 |
Stabile Version von Gemini 1.0 Pro | General Availability | 2024-02-15 | Frühestens am 15.02.2025 |
Automatisch aktualisierte Version | ||||
gemini-1.0-pro |
Verweist auf die aktuelle stabile Version von 1.0 Pro (derzeit gemini-1.0-pro-002 |
General Availability | 2024-02-15 | --- |
Unterstützte Sprachen
Alle Gemini-Modelle können die folgenden Sprachen verstehen und darauf antworten:
Deutsch (de), Arabisch (ar), Bengali (bn), Bulgarisch (bg), Chinesisch (vereinfacht und traditionell) (zh), Kroatisch (hr), Tschechisch (cs), Dänisch (da), Niederländisch (nl), Englisch (en), Estnisch (et), Finnisch (fi), Französisch (fr), Griechisch (el), Hebräisch (iw), Hindi (hi), Ungarisch (hu), Indonesisch (id), Italienisch (it), Japanisch (ja), Koreanisch (ko), Lettisch (lv), Litauisch (lt), Norwegisch (no), Polnisch (pl), Portugiesisch (pt), Rumänisch (ro), Russisch (ru), Serbisch (sr), Slowakisch (sk), Slowenisch (sl), Spanisch (es), Swahili (sw), Schwedisch (sv), Thailändisch (th), Türkisch (tr), Ukrainisch (uk), Vietnamesisch (vi)
Die Modelle Gemini 1.5 Pro und Gemini 1.5 Flash können zusätzlich in den folgenden Sprachen verstehen und antworten:
Afrikaans (af), Amharisch (am), Assamesisch (as), Aserbaidschanisch (az), Weißrussisch (be), Bosnisch (bs), Katalanisch (ca), Cebuano (ceb), Korsisch (co), Walisisch (cy), Divehi (dv), Esperanto (eo), Baskisch (eu), Persisch (fa), Filipino (Tagalog) (fil), Friesisch (fy), Irisch (ga), Schottisch-Gälisch (gd), Galicisch (gl), Gujarati (gu), Hausa (ha), Hawaiianisch (haw), Hmong (hmn), Haitianisch-Kreolisch (ht), Armenisch (hy), Igbo (ig), Isländisch (is), Javanisch (jv), Georgisch (ka), Kasachisch (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdisch (ku), Kirgisisch (ky), Lateinisch (la), Luxemburgisch (lb), Laotisch (lo), Malagasy (mg), Maori (mi), Mazedonisch (mk), Malayalam (ml), Mongolisch (mn), Meitei (Manipuri) (mni-Mtei), Marathi (mr), Malaysisch (ms), Maltesisch (mt), Myanmar (Burmesisch) (my), Nepalesisch (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Paschtu (ps), Sindhi (sd), Sinhala (Singhalesisch) (si), Samoanisch (sm), Shona (sn), Somali (so), Albanisch (sq), Sesotho (st), Sundanesisch (su), Tamil (ta), Telugu (te), Tadschikisch (tg), Uigurisch (ug), Urdu (ur), Usbekisch (uz), Xhosa (xh), Jiddisch (yi), Yoruba (yo), Zulu (zu)
Nächste Schritte
Funktionen des Gemini API testen
- Unterhaltungen mit mehreren Themen (Chat) erstellen.
- Text aus nur-Text-Prompts generieren
- Text aus multimodalen Prompts generieren (einschließlich Text, Bildern, PDFs, Videos und Audio).
- Generieren Sie eine strukturierte Ausgabe (wie JSON) aus Text- und multimodalen Prompts.
- Verwenden Sie Funktionsaufrufe, um generative Modelle mit externen Systemen und Informationen zu verbinden.