Mit der Gemini API Text aus multimodalen Prompts generieren


Wenn Sie Gemini API über ein Vertex AI in Firebase SDK aus Ihrer App aufrufen, können Sie das Gemini-Modell auffordern, Text basierend auf einer multimodalen Eingabe zu generieren. Multimodale Prompts können mehrere Modalitäten (oder Arten von Eingaben) umfassen, z. B. Text sowie Bilder, PDFs, Video und Audio.

Zum Testen und Iterieren multimodaler Prompts empfehlen wir die Verwendung von Vertex AI Studio.

Hinweis

Falls noch nicht geschehen, folgen Sie der Anleitung im Startleitfaden für die Vertex AI in Firebase-SDKs. Prüfen Sie, ob Sie alle folgenden Schritte ausgeführt haben:

  1. Ein neues oder vorhandenes Firebase-Projekt einrichten, einschließlich des Blaze-Preismodells und der Aktivierung der erforderlichen APIs.

  2. Verbinden Sie Ihre App mit Firebase. Dazu gehört auch das Registrieren der App und das Hinzufügen der Firebase-Konfiguration zur App.

  3. Fügen Sie das SDK hinzu und initialisieren Sie den Vertex AI-Dienst und das generative Modell in Ihrer App.

Nachdem du deine App mit Firebase verbunden, das SDK hinzugefügt und den Vertex AI-Dienst sowie das generative Modell initialisiert hast, kannst du Gemini API aufrufen.

Text aus Text und einem einzelnen Bild generieren

Lesen Sie den Abschnitt Vorbereitung in dieser Anleitung, bevor Sie dieses Beispiel ausprobieren.

Sie können Gemini API mit multimodalen Prompts aufrufen, die sowohl Text als auch eine einzelne Datei enthalten (z. B. ein Bild, wie in diesem Beispiel gezeigt). Für diese Aufrufe müssen Sie ein Modell verwenden, das multimodale Prompts unterstützt (z. B. Gemini 1.5 Pro).

Unterstützt werden u. a. Bilder, PDFs, Videos und Audiodateien. Lesen Sie sich die Anforderungen und Empfehlungen für Eingabedateien durch.

Wählen Sie aus, ob Sie die Antwort streamen möchten (generateContentStream) oder auf die Antwort warten möchten, bis das gesamte Ergebnis generiert wurde (generateContent).

Streaming

Sie können schnellere Interaktionen erzielen, wenn Sie nicht auf das vollständige Ergebnis der Modellgenerierung warten, sondern stattdessen Streaming zum Verarbeiten von Teilergebnissen verwenden.

Ohne Streaming

Alternativ können Sie auf das gesamte Ergebnis warten, anstatt auf das Streaming zu warten. Das Ergebnis wird erst zurückgegeben, nachdem das Modell den gesamten Generierungsprozess abgeschlossen hat.

Informationen zum Auswählen eines Gemini-Modells und optional eines für Ihren Anwendungsfall und Ihre App geeigneten Standorts

Text aus Text und mehreren Bildern generieren

Lesen Sie den Abschnitt Vorbereitung in dieser Anleitung, bevor Sie dieses Beispiel ausprobieren.

Sie können Gemini API mit multimodalen Prompts aufrufen, die sowohl Text als auch mehrere Dateien (z. B. Bilder, wie in diesem Beispiel) enthalten. Für diese Aufrufe müssen Sie ein Modell verwenden, das multimodale Prompts unterstützt (wie Gemini 1.5 Pro).

Unterstützt werden u. a. Bilder, PDFs, Videos und Audiodateien. Lesen Sie auch die Anforderungen und Empfehlungen für Eingabedateien.

Wählen Sie aus, ob Sie die Antwort streamen möchten (generateContentStream) oder auf die Antwort warten möchten, bis das gesamte Ergebnis generiert wurde (generateContent).

Streaming

Sie können schnellere Interaktionen erzielen, wenn Sie nicht auf das vollständige Ergebnis der Modellgenerierung warten, sondern stattdessen Streaming zum Verarbeiten von Teilergebnissen verwenden.

Ohne Streaming

Alternativ können Sie auch auf das gesamte Ergebnis warten, anstatt zu streamen. Das Ergebnis wird erst zurückgegeben, nachdem das Modell den gesamten Generierungsprozess abgeschlossen hat.

Hier erfahren Sie, wie Sie ein Gemini-Modell und optional einen Standort für Ihren Anwendungsfall und Ihre App auswählen.

Text aus Texten und Videos generieren

Lesen Sie den Abschnitt Vorbereitung in dieser Anleitung, bevor Sie dieses Beispiel ausprobieren.

Sie können Gemini API mit multimodalen Prompts aufrufen, die sowohl Text als auch ein einzelnes Video enthalten (wie in diesem Beispiel gezeigt). Für diese Aufrufe müssen Sie ein Modell verwenden, das multimodale Prompts unterstützt (wie Gemini 1.5 Pro).

Lesen Sie sich die Anforderungen und Empfehlungen für Eingabedateien durch.

Wählen Sie aus, ob Sie die Antwort streamen (generateContentStream) oder bis zur vollständigen Generierung des Ergebnisses warten möchten (generateContent).

Streaming

Sie können schnellere Interaktionen erzielen, wenn Sie nicht auf das gesamte Ergebnis der Modellgenerierung warten und stattdessen Streaming verwenden, um Teilergebnisse zu verarbeiten.

Ohne Streaming

Alternativ können Sie auf das gesamte Ergebnis warten, anstatt auf das Streaming zu warten. Das Ergebnis wird erst zurückgegeben, nachdem das Modell den gesamten Generierungsprozess abgeschlossen hat.

Hier erfahren Sie, wie Sie ein Gemini-Modell und optional einen Standort für Ihren Anwendungsfall und Ihre App auswählen.

Anforderungen und Empfehlungen für Eingabedateien

Informationen zu unterstützten Dateitypen, zum Angeben des MIME-Typs und dazu, wie Sie dafür sorgen, dass Ihre Dateien und multimodalen Anfragen die Anforderungen erfüllen und den Best Practices entsprechen, finden Sie unter Unterstützte Eingabedateien und Anforderungen für die Vertex AI Gemini API.

Was können Sie sonst noch tun?

  • Token zählen, bevor lange Aufforderungen an das Modell gesendet werden
  • Richte Cloud Storage for Firebase ein, damit du große Dateien in deine multimodalen Anfragen über Cloud Storage-URLs aufnehmen kannst. Dateien können Bilder, PDFs, Videos und Audiodateien enthalten.
  • Denken Sie über die Vorbereitungen für die Produktion nach und richten Sie Firebase App Check ein, um Gemini API vor Missbrauch durch nicht autorisierte Clients zu schützen.

Weitere Funktionen des Gemini API ausprobieren

Inhaltserstellung steuern

Mit Vertex AI Studio können Sie auch mit Prompts und Modellkonfigurationen experimentieren.

Weitere Informationen zu den Gemini-Modellen

Informationen zu den verfügbaren Modellen für verschiedene Anwendungsfälle sowie zu den zugehörigen Kontingenten und Preisen


Feedback zu Vertex AI in Firebase geben