Watch demos on how to build & run AI-powered apps with Firebase at Demo Day '24. Watch now.

Diese Seite wurde von der Cloud Translation API übersetzt.

Mit der Gemini API Text aus multimodalen Prompts generieren

Wenn Sie Gemini API über ein Vertex AI in Firebase SDK aus Ihrer App aufrufen, können Sie das Gemini-Modell auffordern, Text basierend auf einer multimodalen Eingabe zu generieren. Multimodale Prompts können mehrere Modalitäten (oder Eingabetypen) umfassen, z. B. Text zusammen mit Bildern, PDFs, Video und Audio.

Zum Testen und Iterieren multimodaler Prompts empfehlen wir die Verwendung von Vertex AI Studio.

Weitere Optionen für die Arbeit mit Gemini API

Optional können Sie mit einer alternativen „Google AI“-Version der Gemini API
-Funktion „Kostenlosen Zugriff erhalten“ (im Rahmen der Limits und sofern verfügbar) experimentieren. Verwenden Sie dazu die Google AI Studio- und Google AI-Client-SDKs. Diese SDKs sollten nur für Prototypen in mobilen und Web-Apps verwendet werden.

Nachdem Sie mit der Funktionsweise von Gemini API vertraut sind, können Sie auf unsere Vertex AI in Firebase SDKs umstellen (diese Dokumentation). Diese bieten viele zusätzliche Funktionen, die für mobile und Web-Apps wichtig sind, z. B. den Schutz der API vor Missbrauch mithilfe von Firebase App Check und die Unterstützung von großen Mediendateien in Anfragen.

Optional serverseitig Vertex AI Gemini API aufrufen (z. B. mit Python, Node.js oder Go)
Serverseitige Vertex AI SDKs, Firebase Genkit oder Firebase Extensions für die Gemini API verwenden

Hinweis

Lesen Sie den Einstiegsleitfaden für die Vertex AI in Firebase SDKs, falls Sie dies noch nicht getan haben. Achten Sie darauf, dass Sie Folgendes getan haben:

Richten Sie ein neues oder vorhandenes Firebase-Projekt ein. Verwenden Sie dabei den Blaze-Preisplan und aktivieren Sie die erforderlichen APIs.
Verbinden Sie Ihre App mit Firebase. Dazu müssen Sie Ihre App registrieren und die Firebase-Konfiguration hinzufügen.
Fügen Sie das SDK hinzu und initialisieren Sie den Vertex AI-Dienst und das generative Modell in Ihrer App.

Nachdem Sie Ihre App mit Firebase verbunden, das SDK hinzugefügt und den Vertex AI-Dienst und das generative Modell initialisiert haben, können Sie Gemini API aufrufen.

Text aus Text und einem einzelnen Bild generieren
Text aus Text und mehreren Bildern generieren
Text aus Text und einem Video generieren

Text aus Text und einem einzelnen Bild generieren

Lesen Sie den Abschnitt Vorbereitung in dieser Anleitung, bevor Sie dieses Beispiel ausprobieren.

Sie können Gemini API mit multimodalen Prompts aufrufen, die sowohl Text als auch eine einzelne Datei enthalten, z. B. ein Bild (wie in diesem Beispiel). Für diese Aufrufe müssen Sie ein Modell verwenden, das multimodale Prompts unterstützt (z. B. Gemini 1.5 Pro).

Zu den unterstützten Dateien gehören Bilder, PDFs, Videos und Audiodateien. Lesen Sie sich die Anforderungen und Empfehlungen für Eingabedateien durch.

Wählen Sie aus, ob Sie die Antwort streamen (generateContentStream) oder bis zur vollständigen Generierung des Ergebnisses warten möchten (generateContent).

Streaming

Sie können schnellere Interaktionen erzielen, wenn Sie nicht auf das vollständige Ergebnis der Modellgenerierung warten, sondern stattdessen Streaming zum Verarbeiten von Teilergebnissen verwenden.

Ohne Streaming

Alternativ können Sie auf das vollständige Ergebnis warten, anstatt es zu streamen. Das Ergebnis wird erst zurückgegeben, wenn das Modell den gesamten Generierungsprozess abgeschlossen hat.

Hier erfahren Sie, wie Sie ein Gemini-Modell und optional einen Standort auswählen, der für Ihren Anwendungsfall und Ihre App geeignet ist.

Text aus Text und mehreren Bildern generieren

Lesen Sie den Abschnitt Vorbereitung in dieser Anleitung, bevor Sie dieses Beispiel ausprobieren.

Sie können Gemini API mit multimodalen Prompts aufrufen, die sowohl Text als auch mehrere Dateien (z. B. Bilder, wie in diesem Beispiel gezeigt) enthalten. Für diese Aufrufe müssen Sie ein Modell verwenden, das multimodale Prompts unterstützt (z. B. Gemini 1.5 Pro).

Zu den unterstützten Dateien gehören Bilder, PDFs, Videos und Audiodateien. Lesen Sie sich die Anforderungen und Empfehlungen für Eingabedateien durch.

Wählen Sie aus, ob Sie die Antwort streamen (generateContentStream) oder bis zur vollständigen Generierung des Ergebnisses warten möchten (generateContent).

Streaming

Sie können schnellere Interaktionen erzielen, wenn Sie nicht auf das vollständige Ergebnis der Modellgenerierung warten, sondern stattdessen Streaming zum Verarbeiten von Teilergebnissen verwenden.

Ohne Streaming

Alternativ können Sie auch auf das vollständige Ergebnis warten, anstatt es zu streamen. Das Ergebnis wird erst zurückgegeben, wenn das Modell den gesamten Generierungsprozess abgeschlossen hat.

Hier erfahren Sie, wie Sie ein Gemini-Modell und optional einen Standort auswählen, der für Ihren Anwendungsfall und Ihre App geeignet ist.

Text aus Text und einem Video generieren

Lesen Sie den Abschnitt Vorbereitung in dieser Anleitung, bevor Sie dieses Beispiel ausprobieren.

Sie können Gemini API mit multimodalen Prompts aufrufen, die sowohl Text als auch ein einzelnes Video enthalten (wie in diesem Beispiel gezeigt). Für diese Aufrufe müssen Sie ein Modell verwenden, das multimodale Prompts unterstützt (z. B. Gemini 1.5 Pro).

Lesen Sie sich die Anforderungen und Empfehlungen für Eingabedateien durch.

Wählen Sie aus, ob Sie die Antwort streamen (generateContentStream) oder bis zur vollständigen Generierung des Ergebnisses warten möchten (generateContent).

Streaming

Sie können schnellere Interaktionen erzielen, wenn Sie nicht auf das vollständige Ergebnis der Modellgenerierung warten, sondern stattdessen Streaming zum Verarbeiten von Teilergebnissen verwenden.

Ohne Streaming

Alternativ können Sie auf das vollständige Ergebnis warten, anstatt es zu streamen. Das Ergebnis wird erst zurückgegeben, wenn das Modell den gesamten Generierungsprozess abgeschlossen hat.

Hier erfahren Sie, wie Sie ein Gemini-Modell und optional einen Standort auswählen, der für Ihren Anwendungsfall und Ihre App geeignet ist.

Anforderungen und Empfehlungen für Eingabedateien

Informationen zu unterstützten Dateitypen, zum Angeben des MIME-Typs und dazu, wie Sie dafür sorgen, dass Ihre Dateien und multimodalen Anfragen die Anforderungen erfüllen und den Best Practices entsprechen, finden Sie unter Unterstützte Eingabedateien und Anforderungen für die Vertex AI Gemini API.

Was können Sie sonst noch tun?

Informationen zum Zählen von Tokens, bevor lange Prompts an das Modell gesendet werden
Richten Sie Cloud Storage for Firebase so ein, dass Sie große Dateien mithilfe von Cloud Storage-URLs in Ihre multimodalen Anfragen aufnehmen können. Dateien können Bilder, PDFs, Videos und Audiodateien enthalten.
Denken Sie an die Vorbereitung auf die Produktion, einschließlich der Einrichtung von Firebase App Check, um die Gemini API vor Missbrauch durch nicht autorisierte Clients zu schützen.

Weitere Funktionen des Gemini API ausprobieren

Unterhaltungen in mehreren Runden (Chat) erstellen
Text aus nur-Text-Prompts generieren
Sie können sowohl aus Text- als auch aus multimodalen Prompts strukturierte Ausgabe (z. B. JSON) generieren.
Verwenden Sie Funktionsaufrufe, um generative Modelle mit externen Systemen und Informationen zu verbinden.

Inhaltserstellung steuern

Informationen zum Prompt-Design, einschließlich Best Practices, Strategien und Beispiel-Prompts.
Konfigurieren Sie Modellparameter wie Temperatur und maximale Ausgabetokens.
Mit den Sicherheitseinstellungen können Sie die Wahrscheinlichkeit anpassen, dass Sie Antworten erhalten, die als schädlich eingestuft werden könnten.

Mit Vertex AI Studio können Sie auch mit Prompts und Modellkonfigurationen experimentieren.

Weitere Informationen zu den Gemini-Modellen

Hier finden Sie Informationen zu den Modellen, die für verschiedene Anwendungsfälle verfügbar sind, sowie zu ihren Kontingenten und Preisen.

Feedback zu Vertex AI in Firebase geben