Generowanie tekstu z promptów multimodalnych za pomocą interfejsu Gemini API


Gdy wywołujesz interfejs Gemini API z aplikacji za pomocą pakietu SDK Vertex AI dla Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub rodzajów danych wejściowych), np. tekst, obrazy, pliki PDF, filmy i dźwięk.

Do testowania i powtarzania promptów multimodalnych zalecamy korzystanie z Vertex AI Studio

Zanim zaczniesz

W razie potrzeby przejrzyj wprowadzenie do pakietów SDK Vertex AI dla Firebase Upewnij się, że masz wykonane wszystkie te czynności:

  • Skonfiguruj nowy lub istniejący projekt Firebase, w tym Abonament Blaze i włączanie wymaganych interfejsów API.

  • połączyć aplikację z Firebase, w tym zarejestrować ją i dodać do konfigurację Firebase w aplikacji.

  • Dodaj pakiet SDK i zainicjuj usługę Vertex AI oraz model generatywny w aplikacji.

Gdy połączysz aplikację z Firebase, dodasz pakiet SDK i zainicjujesz usługę Vertex AI i model generatywny, możesz już wywołać interfejs Gemini API.

.

Generuj tekst na podstawie tekstu i pojedynczego obrazu

Wykonaj czynności podane w sekcji Zanim zaczniesz w tym przewodniku.

Interfejs Gemini API możesz wywoływać za pomocą promptów multimodalnych zawierających: zarówno tekstu, jak i pojedynczego pliku (np. obrazu, jak w tym przykładzie). Zastosowanie musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).

Obsługiwane są m.in. pliki graficzne, PDF, wideo i audio. Zapoznaj się z wymagań i zaleceń dotyczących plików wejściowych.

Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream) czy zaczekać dla odpowiedzi aż do wygenerowania całego wyniku (generateContent).

Streaming

Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.

Ten przykład pokazuje, jak za pomocą kanału generateContentStream() przesłać wygenerowane strumieniowo tekst z multimodalnego żądania promptu, który zawiera tekst i pojedynczy obraz:

Bez strumieniowania

Możesz też zaczekać na cały wynik, zamiast przesyłać go strumieniowo. wynik jest zwracany dopiero po zakończeniu generowania przez model proces tworzenia konta.

Ten przykład pokazuje, jak za pomocą pola generateContent() wygenerować tekst na podstawie multimodalne żądanie promptu, które zawiera tekst i pojedynczy obraz:

Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.

Generuj tekst na podstawie tekstu i wielu obrazów

Wykonaj czynności podane w sekcji Zanim zaczniesz w tym przewodniku.

Interfejs Gemini API możesz wywoływać za pomocą promptów multimodalnych zawierających: zarówno tekst, jak i wiele plików (np. obrazy, jak w tym przykładzie). Zastosowanie musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).

Obsługiwane są m.in. pliki graficzne, PDF, wideo i audio. Zapoznaj się z wymagań i zaleceń dotyczących plików wejściowych.

Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream) czy zaczekać dla odpowiedzi aż do wygenerowania całego wyniku (generateContent).

Streaming

Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.

Ten przykład pokazuje, jak za pomocą kanału generateContentStream() przesłać wygenerowane strumieniowo tekst z multimodalnego żądania promptu, który zawiera tekst i wiele obrazów:

Bez strumieniowania

Możesz też poczekać na uzyskanie pełnego wyniku strumieniowanie; wynik jest zwracany dopiero po zakończeniu przez model procesu ich generowania.

Ten przykład pokazuje, jak za pomocą pola generateContent() wygenerować tekst na podstawie multimodalne żądanie promptu, które zawiera tekst i wiele obrazów:

Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.

Wygeneruj tekst na podstawie tekstu i filmu

Wykonaj czynności podane w sekcji Zanim zaczniesz w tym przewodniku.

Interfejs Gemini API możesz wywoływać za pomocą promptów multimodalnych zawierających: zarówno tekst, jak i 1 film (jak widać w tym przykładzie). Zastosowanie musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).

Zapoznaj się z wymagań i zaleceń dotyczących plików wejściowych.

Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream) czy zaczekać dla odpowiedzi aż do wygenerowania całego wyniku (generateContent).

Streaming

Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.

Ten przykład pokazuje, jak za pomocą kanału generateContentStream() przesłać wygenerowane strumieniowo tekst z multimodalnego żądania promptu, który zawiera tekst i pojedynczy film:

Bez strumieniowania

Możesz też zaczekać na cały wynik, zamiast przesyłać go strumieniowo. wynik jest zwracany dopiero po zakończeniu generowania przez model proces tworzenia konta.

Ten przykład pokazuje, jak za pomocą pola generateContent() wygenerować tekst na podstawie multimodalne żądanie promptu, które zawiera tekst i jeden film:

Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.

Wymagania i zalecenia dotyczące plików wejściowych

Więcej informacji o obsługiwanych typach plików, sposobie określania typu MIME i tworzeniu upewnij się, że Twoje pliki i żądania multimodalne spełniają wymagania sprawdzone metody, zobacz Obsługiwane pliki wejściowe i wymagania interfejsu Vertex AI Gemini API.

Co jeszcze możesz zrobić?

Wypróbuj inne możliwości interfejsu Gemini API

Dowiedz się, jak kontrolować generowanie treści

. Możesz też eksperymentować z promptami i konfiguracjami modeli za pomocą Vertex AI Studio

Więcej informacji o modelach Gemini

Dowiedz się więcej o dostępne modele do różnych zastosowań oraz ich poniższych limitów i cen.


Przesyłanie opinii o swoich doświadczeniach z Vertex AI dla Firebase,