Generowanie tekstu z promptów multimodalnych za pomocą interfejsu Gemini API


Gdy wywołujesz Gemini API z aplikacji za pomocą pakietu SDK Vertex AI in Firebase: możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub rodzajów danych wejściowych), np. tekst wraz z obrazami, plikami PDF, filmami i dźwiękiem.

Do testowania i powtarzania promptów multimodalnych zalecamy korzystanie z Vertex AI Studio

Zanim zaczniesz

W razie potrzeby wypełnij wprowadzenie do pakietów SDK Vertex AI in Firebase Upewnij się, że masz wykonane wszystkie te czynności:

  1. Skonfiguruj nowy lub istniejący projekt Firebase, w tym Abonament Blaze i włączanie wymaganych interfejsów API.

  2. połączyć aplikację z Firebase, w tym zarejestrować ją i dodać do konfigurację Firebase w aplikacji.

  3. Dodaj pakiet SDK i zainicjuj usługę Vertex AI oraz model generatywny w aplikacji.

Gdy połączysz aplikację z Firebase, dodasz pakiet SDK i zainicjujesz usługę Vertex AI i model generatywny, możesz zadzwonić pod numer Gemini API.

.

Generuj tekst na podstawie tekstu i pojedynczego obrazu

Wykonaj czynności podane w sekcji Zanim zaczniesz w tym przewodniku.

Możesz wywołać Gemini API za pomocą promptów multimodalnych, które obejmują: zarówno tekstu, jak i pojedynczego pliku (np. obrazu, jak w tym przykładzie). Zastosowanie musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).

Obsługiwane są m.in. pliki graficzne, PDF, wideo i audio. Zapoznaj się z wymagań i zaleceń dotyczących plików wejściowych.

Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream) czy zaczekać dla odpowiedzi aż do wygenerowania całego wyniku (generateContent).

Streaming

Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.

Bez strumieniowania

Możesz też zaczekać na cały wynik, zamiast przesyłać go strumieniowo. wynik jest zwracany dopiero po zakończeniu generowania przez model proces tworzenia konta.

Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.

Generuj tekst na podstawie tekstu i wielu obrazów

Wykonaj czynności podane w sekcji Zanim zaczniesz w tym przewodniku.

Możesz wywołać Gemini API za pomocą promptów multimodalnych, które obejmują: zarówno tekst, jak i wiele plików (np. obrazy, jak w tym przykładzie). Zastosowanie musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).

Obsługiwane są m.in. pliki graficzne, PDF, wideo i audio. Zapoznaj się z wymagań i zaleceń dotyczących plików wejściowych.

Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream) czy zaczekać dla odpowiedzi aż do wygenerowania całego wyniku (generateContent).

Streaming

Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.

Bez strumieniowania

Możesz też poczekać na uzyskanie pełnego wyniku strumieniowanie; wynik jest zwracany dopiero po zakończeniu przez model procesu ich generowania.

Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.

Wygeneruj tekst na podstawie tekstu i filmu

Wykonaj czynności podane w sekcji Zanim zaczniesz w tym przewodniku.

Możesz wywołać Gemini API za pomocą promptów multimodalnych, które obejmują: zarówno tekst, jak i 1 film (jak widać w tym przykładzie). Zastosowanie musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).

Zapoznaj się z wymagań i zaleceń dotyczących plików wejściowych.

Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream) czy zaczekać dla odpowiedzi aż do wygenerowania całego wyniku (generateContent).

Streaming

Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.

Bez strumieniowania

Możesz też zaczekać na cały wynik, zamiast przesyłać go strumieniowo. wynik jest zwracany dopiero po zakończeniu generowania przez model proces tworzenia konta.

Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.

Wymagania i zalecenia dotyczące plików wejściowych

Więcej informacji o obsługiwanych typach plików, sposobie określania typu MIME i tworzeniu upewnij się, że Twoje pliki i żądania multimodalne spełniają wymagania sprawdzone metody, zobacz Obsługiwane pliki wejściowe i wymagania dotyczące standardu Vertex AI Gemini API.

Co jeszcze możesz zrobić?

Wypróbuj inne funkcje urządzenia Gemini API

Dowiedz się, jak kontrolować generowanie treści

. Możesz też eksperymentować z promptami i konfiguracjami modeli za pomocą Vertex AI Studio

Więcej informacji o modelach Gemini

Dowiedz się więcej o dostępne modele do różnych zastosowań oraz ich poniższych limitów i cen.


Przesyłanie opinii o Twoich wrażeniach z korzystania z Vertex AI in Firebase