Generowanie tekstu z promptów multimodalnych za pomocą interfejsu Gemini API


Gdy wywołujesz funkcję Gemini API z aplikacji za pomocą pakietu SDK Vertex AI in Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub rodzajów danych wejściowych), np. tekst, obrazy, pliki PDF, filmy i dźwięk.

Do testowania i ulepszania promptów multimodalnych zalecamy używanie Vertex AI Studio.

Zanim zaczniesz

W razie potrzeby wypełnij wprowadzenie do pakietów SDK Vertex AI in Firebase Upewnij się, że masz wykonane wszystkie te czynności:

  1. Skonfiguruj nowy lub istniejący projekt Firebase, w tym użyj abonamentu Blaze i włącz wymagane interfejsy API.

  2. połączyć aplikację z Firebase, w tym zarejestrować ją i dodać do konfigurację Firebase w aplikacji.

  3. Dodaj pakiet SDK i zainicjuj usługę Vertex AI oraz model generatywny w aplikacji.

Po połączeniu aplikacji z Firebase, dodaniu pakietu SDK i zainicjowaniu pakietu usługę Vertex AI i model generatywny, możesz zadzwonić pod numer Gemini API.

Generowanie tekstu na podstawie tekstu i jednego obrazu

Upewnij się, że wykonanie czynności opisanych w sekcji Zanim zaczniesz w tym przewodniku.

Możesz wywołać Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i pojedynczy plik (np. obraz, jak w tym przykładzie). Zastosowanie musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).

Obsługiwane są m.in. pliki graficzne, PDF, wideo i audio. Zapoznaj się z wymaganiami i zaleceniami dotyczącymi plików wejściowych.

Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream) czy zaczekać dla odpowiedzi aż do wygenerowania całego wyniku (generateContent).

Streaming

Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.

Bez przesyłania strumieniowego

Możesz też poczekać na cały wynik zamiast strumieniowego przesyłania. Wynik zostanie zwrócony dopiero po zakończeniu całego procesu generowania.

Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.

Generowanie tekstu na podstawie tekstu i wielu obrazów

Upewnij się, że wykonanie czynności opisanych w sekcji Zanim zaczniesz w tym przewodniku.

Możesz wywołać Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i wiele plików (np. obrazów, jak w tym przykładzie). W takich przypadkach musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).

Obsługiwane są m.in. pliki graficzne, PDF, wideo i audio. Zapoznaj się z wymagań i zaleceń dotyczących plików wejściowych.

Wybierz, czy chcesz odtwarzać odpowiedź strumieniowo (generateContentStream), czy czekać na odpowiedź, aż zostanie wygenerowany cały wynik (generateContent).

Streaming

Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.

Bez strumieniowania

Możesz też poczekać na cały wynik zamiast na strumieniowe przesyłanie. Wynik zostanie zwrócony dopiero po zakończeniu całego procesu generowania.

Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.

Generowanie tekstu na podstawie tekstu i filmu

Wykonaj czynności podane w sekcji Zanim zaczniesz w tym przewodniku.

Możesz wywołać Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i jeden film (jak w tym przykładzie). W takich przypadkach musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).

Zapoznaj się z wymaganiami i zaleceniami dotyczącymi plików wejściowych.

Wybierz, czy chcesz odtwarzać odpowiedź strumieniowo (generateContentStream), czy czekać na odpowiedź, aż zostanie wygenerowany cały wynik (generateContent).

Streaming

Możesz uzyskać szybsze interakcje, nie czekając na pełny wynik wygenerowany przez model, a zamiast tego używać strumieniowego przesyłania danych, aby przetwarzać częściowe wyniki.

Bez strumieniowania

Możesz też poczekać na cały wynik zamiast strumieniowego przesyłania. Wynik zostanie zwrócony dopiero po zakończeniu całego procesu generowania.

Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizacjęodpowiednią do Twojego przypadku użycia i aplikacji.

Wymagania i zalecenia dotyczące plików wejściowych

Więcej informacji o obsługiwanych typach plików, sposobie określania typu MIME oraz sprawdzania, czy pliki i zapytania multimodalne spełniają wymagania i czy są zgodne ze wskazówkami znajdziesz w artykule Obsługiwane pliki wejściowe i wymagania dotyczące usługi Vertex AI Gemini API.

Co jeszcze potrafisz?

  • Dowiedz się, jak policzyć tokeny przed wysłaniem długich promptów do modelu.
  • Skonfiguruj Cloud Storage for Firebase, aby móc dołączać duże pliki do żądań multimodalnych za pomocą adresów URL Cloud Storage. Pliki mogą zawierać obrazy, pliki PDF, filmy i dźwięk.
  • Zacznij myśleć o przygotowaniu usługi do wdrożenia, w tym o skonfigurowaniu Firebase App Check, aby chronić usługę Gemini API przed nadużyciami przez nieautoryzowanych klientów.

Wypróbuj inne funkcje urządzenia Gemini API

Dowiedz się, jak kontrolować generowanie treści

Możesz też eksperymentować z promptami i konfiguracjami modeli za pomocą Vertex AI Studio

Więcej informacji o modelach Gemini

Dowiedz się więcej o modelach dostępnych w różnych przypadkach użycia oraz ich limitach i cenach.


Prześlij opinię o tym, jak korzystasz z Vertex AI in Firebase