Wenn Sie Gemini API über ein Vertex AI in Firebase SDK aus Ihrer App aufrufen, können Sie das Gemini-Modell auffordern, Text basierend auf einer multimodalen Eingabe zu generieren. Multimodale Prompts können mehrere Modalitäten (oder Eingabetypen) umfassen, z. B. Text zusammen mit Bildern, PDFs, Video und Audio.
Zum Testen und Iterieren multimodaler Prompts empfehlen wir die Verwendung von Vertex AI Studio.
Hinweis
Lesen Sie den Einstiegsleitfaden für die Vertex AI in Firebase SDKs, falls Sie dies noch nicht getan haben. Achten Sie darauf, dass Sie Folgendes getan haben:
Richten Sie ein neues oder vorhandenes Firebase-Projekt ein. Verwenden Sie dabei den Blaze-Preisplan und aktivieren Sie die erforderlichen APIs.
Verbinden Sie Ihre App mit Firebase. Dazu müssen Sie Ihre App registrieren und die Firebase-Konfiguration hinzufügen.
SDK hinzufügen und den Vertex AI-Dienst sowie das generative Modell initialisieren in Ihrer App.
Nachdem Sie Ihre App mit Firebase verbunden, das SDK hinzugefügt und die Vertex AI-Dienst und das generative Modell, können Sie die Gemini API aufrufen.
- Text aus Text und einem einzelnen Bild generieren
- Text aus Text und mehreren Bildern generieren
- Text aus Text und einem Video generieren
Text aus Text und einem einzelnen Bild generieren
Sie müssen die Schritte Vorbereitung abgeschlossen haben. dieses Leitfadens, bevor Sie dieses Beispiel ausprobieren.
Sie können die Gemini API mit multimodalen Prompts aufrufen, die Folgendes enthalten: sowohl Text als auch eine einzelne Datei (wie ein Bild, wie in diesem Beispiel gezeigt). Für diese aufrufen, müssen Sie ein Modell verwenden, das multimodale Prompts unterstützt. (z. B. Gemini 1.5 Pro).
Zu den unterstützten Dateien gehören Bilder, PDFs, Videos und Audiodateien. Lesen Sie sich die Anforderungen und Empfehlungen für Eingabedateien durch.
Wählen Sie aus, ob Sie die Antwort streamen (generateContentStream
) oder warten möchten
bis das gesamte Ergebnis generiert ist (generateContent
).
Streaming
Sie können schnellere Interaktionen erzielen, wenn Sie nicht auf das gesamte Ergebnis warten müssen. Modellgenerierung und verwenden stattdessen Streaming zur Verarbeitung von Teilergebnissen.
Ohne Streaming
Alternativ können Sie auf das gesamte Ergebnis warten, anstatt auf das Streaming zu warten. die Ergebnis wird erst zurückgegeben, nachdem das Modell die gesamte Generierung abgeschlossen hat. .
Hier erfahren Sie, wie Sie ein Gemini-Modell und optional einen Standort für Ihren Anwendungsfall und Ihre App auswählen.
Text aus Text und mehreren Bildern generieren
Sie müssen die Schritte Vorbereitung abgeschlossen haben. dieses Leitfadens, bevor Sie dieses Beispiel ausprobieren.
Sie können Gemini API mit multimodalen Prompts aufrufen, die sowohl Text als auch mehrere Dateien (z. B. Bilder, wie in diesem Beispiel gezeigt) enthalten. Für diese Aufrufe müssen Sie ein Modell verwenden, das multimodale Prompts unterstützt (z. B. Gemini 1.5 Pro).
Zu den unterstützten Dateien gehören Bilder, PDFs, Videos und Audiodateien. Sehen Sie sich die Anforderungen und Empfehlungen für Eingabedateien.
Wählen Sie aus, ob Sie die Antwort streamen (generateContentStream
) oder warten möchten
für die Antwort, bis das gesamte Ergebnis generiert wurde (generateContent
).
Streaming
Sie können schnellere Interaktionen erzielen, wenn Sie nicht auf das gesamte Ergebnis warten müssen. Modellgenerierung und verwenden stattdessen Streaming zur Verarbeitung von Teilergebnissen.
Ohne Streaming
Alternativ können Sie auf das gesamte Ergebnis warten, anstatt Streaming; Das Ergebnis wird erst zurückgegeben, nachdem das Modell die gesamte Generierungsprozess.
Hier erfahren Sie, wie Sie ein Gemini-Modell und optional einen Standort für Ihren Anwendungsfall und Ihre App auswählen.
Text aus Texten und Videos generieren
Sie müssen die Schritte Vorbereitung abgeschlossen haben. dieses Leitfadens, bevor Sie dieses Beispiel ausprobieren.
Sie können Gemini API mit multimodalen Prompts aufrufen, die sowohl Text als auch ein einzelnes Video enthalten (wie in diesem Beispiel gezeigt). Für diese aufrufen, müssen Sie ein Modell verwenden, das multimodale Prompts unterstützt. (z. B. Gemini 1.5 Pro).
Lesen Sie sich die Anforderungen und Empfehlungen für Eingabedateien durch.
Wählen Sie aus, ob Sie die Antwort streamen (generateContentStream
) oder bis zur vollständigen Generierung des Ergebnisses warten möchten (generateContent
).
Streaming
Sie können schnellere Interaktionen erzielen, wenn Sie nicht auf das gesamte Ergebnis warten müssen. Modellgenerierung und verwenden stattdessen Streaming zur Verarbeitung von Teilergebnissen.
Ohne Streaming
Alternativ können Sie auf das vollständige Ergebnis warten, anstatt es zu streamen. Das Ergebnis wird erst zurückgegeben, wenn das Modell den gesamten Generierungsprozess abgeschlossen hat.
Hier erfahren Sie, wie Sie ein Gemini-Modell und optional einen Standort für Ihren Anwendungsfall und Ihre App auswählen.
Anforderungen und Empfehlungen für Eingabedateien
Informationen zu unterstützten Dateitypen, zur Angabe des MIME-Typs und zum dass Ihre Dateien und multimodalen Anfragen die Anforderungen erfüllen, Best Practices finden Sie unter Unterstützte Eingabedateien und Anforderungen für die Vertex AI Gemini API.
Was kannst du noch tun?
- Token zählen bevor lange Prompts an das Modell gesendet werden.
- Cloud Storage for Firebase einrichten damit Sie große Dateien in Ihre multimodalen Anfragen mit Cloud Storage URLs. Dateien können Bilder, PDFs, Videos und Audiodateien enthalten.
- Bereite dich auf die Produktion vor, Firebase App Check wird eingerichtet um Gemini API vor Missbrauch durch nicht autorisierte Clients zu schützen.
Weitere Gemini API-Funktionen ausprobieren
- Unterhaltungen mit mehreren Themen (Chat) erstellen.
- Text generieren aus ausschließliche Text-Prompts.
- Verwenden Sie Funktionsaufrufe, um generative Modelle mit externen Systemen und Informationen zu verbinden.
Informationen zum Steuern der Inhaltsgenerierung
- Machen Sie sich mit dem Prompt-Entwurf vertraut, einschließlich Best Practices, Strategien und Beispielaufforderungen.
- Konfigurieren Sie Modellparameter wie Temperatur und maximale Ausgabetokens.
- Verwenden Sie die Sicherheitseinstellungen, um die Wahrscheinlichkeit von Antworten erhalten, die als schädlich eingestuft werden können.
Weitere Informationen zu den Gemini-Modellen
Weitere Informationen für verschiedene Anwendungsfälle und ihre Kontingente und Preise.Feedback geben zu Ihren Erfahrungen mit Vertex AI in Firebase