Watch demos on how to build & run AI-powered apps with Firebase at Demo Day '24. Watch now.

Ta strona została przetłumaczona przez Cloud Translation API.

Generowanie tekstu z promptów multimodalnych za pomocą interfejsu Gemini API

Gdy wywołujesz funkcję Gemini API z aplikacji za pomocą pakietu SDK Vertex AI in Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (czyli typów danych wejściowych), takich jak tekst, obrazy, pliki PDF, filmy i dźwięk.

Do testowania i ulepszania promptów multimodalnych zalecamy używanie Vertex AI Studio.

Inne opcje dotyczące Gemini API

Opcjonalnie możesz wypróbować alternatywną wersję „Google AI” usługi Gemini API
. Możesz uzyskać bezpłatny dostęp (w ograniczonym zakresie i w miejscach, w których jest dostępny) za pomocą pakietów SDK klienta Google AI Studio i Google AI. Pakiety SDK powinny być używane tylko do tworzenia prototypów w aplikacjach mobilnych i internetowych.

Gdy już poznasz działanie interfejsu Gemini API, przenieś się na nasze pakiety SDK Vertex AI in Firebase (ta dokumentacja), które zawierają wiele dodatkowych funkcji ważnych dla aplikacji mobilnych i internetowych, takich jak ochrona interfejsu API przed nadużyciami za pomocą Firebase App Check oraz obsługa dużych plików multimedialnych w żądaniach.

Opcjonalnie wywołaj Vertex AI Gemini API po stronie serwera (np. w przypadku Pythona, Node.js lub Go)
Użyj pakietu Vertex AISDK po stronie serwera Firebase Genkit lub Firebase Extensions dla Gemini API.

Zanim zaczniesz

Jeśli jeszcze tego nie zrobiłeś/nie zrobiłaś, zapoznaj się z przewodnikiem korzystania z pakietów SDK Vertex AI in Firebase. Najpierw wykonaj te czynności:

Skonfiguruj nowy lub istniejący projekt Firebase, w tym użyj abonamentu Blaze i włącz wymagane interfejsy API.
Połącz aplikację z Firebase, w tym zarejestruj ją i dodaj do niej konfigurację Firebase.
Dodaj pakiet SDK i zainicjuj usługę Vertex AI oraz model generatywny w swojej aplikacji.

Po połączeniu aplikacji z Firebase, dodaniu pakietu SDK i inicjalizacji usługi Vertex AI oraz modelu generatywnego możesz wywołać funkcję Gemini API.

Generowanie tekstu na podstawie tekstu i jednego obrazu
Generowanie tekstu na podstawie tekstu i wielu obrazów
Generowanie tekstu na podstawie tekstu i filmu

Generowanie tekstu na podstawie tekstu i jednego obrazu

Zanim spróbujesz użyć tego przykładu, zapoznaj się z sekcją Zanim zaczniesz tego przewodnika.

Możesz wywołać Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i pojedynczy plik (np. obraz, jak w tym przykładzie). W takich przypadkach musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).

Obsługiwane pliki to m.in. obrazy, pliki PDF, filmy i pliki audio. Zapoznaj się z wymaganiami i zaleceniami dotyczącymi plików wejściowych.

Wybierz, czy chcesz wyświetlić odpowiedź w czasie (generateContentStream), czy poczekać na odpowiedź, aż zostanie wygenerowany cały wynik (generateContent).

Streaming

Możesz uzyskać szybsze interakcje, nie czekając na pełny wynik wygenerowany przez model, a zamiast tego używać strumieniowego przesyłania wyników częściowych.

Bez przesyłania strumieniowego

Możesz też poczekać na cały wynik zamiast strumieniowego przesyłania. Wynik zostanie zwrócony dopiero po zakończeniu całego procesu generowania.

Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednią do Twojego przypadku użycia i aplikacji.

Generowanie tekstu na podstawie tekstu i wielu obrazów

Zanim spróbujesz użyć tego przykładu, zapoznaj się z sekcją Zanim zaczniesz tego przewodnika.

Możesz wywołać Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i wiele plików (np. obrazów, jak w tym przykładzie). W takich przypadkach musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).

Obsługiwane pliki to m.in. obrazy, pliki PDF, filmy i pliki audio. Zapoznaj się z wymaganiami i zaleceniami dotyczącymi plików wejściowych.

Wybierz, czy chcesz wyświetlić odpowiedź w czasie (generateContentStream), czy poczekać na odpowiedź, aż zostanie wygenerowany cały wynik (generateContent).

Streaming

Możesz uzyskać szybsze interakcje, nie czekając na pełny wynik wygenerowany przez model, a zamiast tego używać strumieniowego przesyłania wyników częściowych.

Bez przesyłania strumieniowego

Możesz też poczekać na cały wynik zamiast na przesyłanie strumieniowe. Wynik zostanie zwrócony dopiero po zakończeniu całego procesu generowania.

Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednią do Twojego przypadku użycia i aplikacji.

Generowanie tekstu na podstawie tekstu i filmu

Zanim spróbujesz użyć tego przykładu, zapoznaj się z sekcją Zanim zaczniesz tego przewodnika.

Możesz wywołać Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i jeden film (jak w tym przykładzie). W takich przypadkach musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).

Zapoznaj się z wymaganiami i zaleceniami dotyczącymi plików wejściowych.

Wybierz, czy chcesz wyświetlić odpowiedź w czasie (generateContentStream), czy poczekać na odpowiedź, aż zostanie wygenerowany cały wynik (generateContent).

Streaming

Możesz uzyskać szybsze interakcje, nie czekając na pełny wynik wygenerowany przez model, a zamiast tego używać strumieniowego przesyłania wyników częściowych.

Bez przesyłania strumieniowego

Możesz też poczekać na cały wynik zamiast strumieniowego przesyłania. Wynik zostanie zwrócony dopiero po zakończeniu całego procesu generowania.

Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednią do Twojego przypadku użycia i aplikacji.

Wymagania i zalecenia dotyczące plików wejściowych

Aby dowiedzieć się więcej o obsługiwanych plikach wejściowych i wymaganiach dotyczących Vertex AI Gemini API, zapoznaj się z tymi informacjami:

Różne opcje przesyłania pliku w żądaniu
Obsługiwane typy plików
Obsługiwane typy MIME i sposób ich określania
Wymagania i sprawdzone metody dotyczące plików i zapytań multimodalnych

Co jeszcze możesz zrobić?

Dowiedz się, jak policzyć tokeny przed wysłaniem długich promptów do modelu.
Skonfiguruj Cloud Storage for Firebase, aby móc dołączać duże pliki do żądań multimodalnych i mieć lepiej zarządzane rozwiązanie do dostarczania plików w promptach. Mogą to być obrazy, pliki PDF, filmy i pliki audio.
Zacznij myśleć o przygotowaniu usługi do wdrożenia, w tym o skonfigurowaniu Firebase App Check, aby chronić usługę Gemini API przed nadużyciami przez nieautoryzowanych klientów.

Wypróbuj inne funkcje usługi Gemini API

tworzyć rozmowy wieloetapowe (czat);
generować tekst na podstawie promptów tekstowych.
generować dane wyjściowe w uporządkowanym formacie (np. JSON) na podstawie zarówno tekstowych, jak i wielomodalnych promptów;
Użyj funkcji wywoływania, aby połączyć modele generatywne z zewnętrznymi systemami i informacjami.

Dowiedz się, jak kontrolować generowanie treści

Zrozumieć projektowanie promptów, w tym sprawdzone metody, strategie i przykładowe prompty.
Skonfiguruj parametry modelu, takie jak temperatura i maksymalna liczba tokenów wyjściowych.
Używaj ustawień bezpieczeństwa, aby dostosować prawdopodobieństwo otrzymywania odpowiedzi, które mogą być uważane za szkodliwe.

Możesz też eksperymentować z promptami i konfiguracjami modeli za pomocą Vertex AI Studio.

Więcej informacji o modelach Gemini

Dowiedz się więcej o modelach dostępnych w różnych przypadkach użycia oraz ich limitach i cenach.

Prześlij opinię o swoich wrażeniach z korzystania z usługi Vertex AI in Firebase