Gdy wywołujesz interfejs Gemini API z aplikacji za pomocą pakietu SDK Vertex AI dla Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub rodzajów danych wejściowych), np. tekst wraz z obrazami, plikami PDF, wideo i dźwiękowymi.
Do testowania i iteracji promptów multimodalnych zalecamy korzystanie z Vertex AI Studio.
Zanim zaczniesz
Jeśli jeszcze nie masz tego za sobą, zapoznaj się z przewodnikiem dla początkujących dotyczącym pakietów SDK Vertex AI dla Firebase. Upewnij się, że masz wykonane wszystkie te czynności:
Skonfiguruj nowy lub istniejący projekt Firebase, w tym używając abonamentu Blaze i włącz wymagane interfejsy API.
Połączenie aplikacji z Firebase, w tym jej zarejestrowanie i dodanie do niej konfiguracji Firebase.
Dodaj pakiet SDK i zainicjuj usługę Vertex AI oraz model generatywny w swojej aplikacji.
Gdy połączysz aplikację z Firebase, dodasz pakiet SDK oraz zainicjujesz usługę Vertex AI i model generatywny, możesz wywołać interfejs Gemini API.
- Generowanie tekstu na podstawie tekstu i pojedynczego obrazu
- Generowanie tekstu na podstawie tekstu i wielu obrazów
- Generowanie tekstu na podstawie tekstu i filmu
Generuj tekst na podstawie tekstu i pojedynczego obrazu
Przed wypróbowaniem tego fragmentu wykonaj czynności opisane w sekcji Zanim zaczniesz.
Możesz wywoływać interfejs Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i pojedynczy plik (np. obraz, jak w tym przykładzie). W przypadku takich połączeń musisz używać modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).
Obsługiwane są m.in. pliki graficzne, PDF, wideo i audio. Zapoznaj się z wymaganiami i zaleceniami dotyczącymi plików wejściowych.
Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream
), czy zaczekać na wygenerowanie całego wyniku (generateContent
).
Strumieniowanie
Możesz przyspieszyć interakcje, nie czekając na cały wynik generowania modelu, i zamiast tego użyj strumieniowego przesyłania do obsługi wyników częściowych.
Ten przykład pokazuje, jak za pomocą generateContentStream()
przesyłać strumieniowo tekst wygenerowany z multimodalnego żądania promptu, który zawiera tekst i pojedynczy obraz:
Bez strumieniowania
Możesz też poczekać na cały wynik zamiast przesyłać strumieniowo dane, ponieważ wynik jest zwracany dopiero po zakończeniu całego procesu generowania przez model.
Ten przykład pokazuje, jak za pomocą pola generateContent()
wygenerować tekst na podstawie multimodalnego żądania promptu, które zawiera tekst i pojedynczy obraz:
Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednią do Twojego przypadku użycia i aplikacji.
Generuj tekst na podstawie tekstu i wielu obrazów
Przed wypróbowaniem tego fragmentu wykonaj czynności opisane w sekcji Zanim zaczniesz.
Interfejs Gemini API możesz wywoływać za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i wiele plików (np. obrazów). W przypadku takich połączeń musisz używać modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).
Obsługiwane są m.in. pliki graficzne, PDF, wideo i audio. Zapoznaj się z wymaganiami i zaleceniami dotyczącymi plików wejściowych.
Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream
), czy zaczekać na wygenerowanie całego wyniku (generateContent
).
Strumieniowanie
Możesz przyspieszyć interakcje, nie czekając na cały wynik generowania modelu, i zamiast tego użyj strumieniowego przesyłania do obsługi wyników częściowych.
Ten przykład pokazuje, jak za pomocą generateContentStream()
przesyłać strumieniowo tekst wygenerowany z multimodalnego żądania promptu, który zawiera tekst i wiele obrazów:
Bez strumieniowania
Możesz też poczekać na cały wynik zamiast przesyłać go strumieniowo. Wynik jest zwracany dopiero po zakończeniu całego procesu generowania przez model.
Ten przykład pokazuje, jak za pomocą pola generateContent()
wygenerować tekst na podstawie multimodalnego żądania promptu, które zawiera tekst i wiele obrazów:
Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednią do Twojego przypadku użycia i aplikacji.
Wygeneruj tekst na podstawie tekstu i filmu
Przed wypróbowaniem tego fragmentu wykonaj czynności opisane w sekcji Zanim zaczniesz.
Interfejs Gemini API możesz wywoływać za pomocą multimodalnych promptów, które zawierają zarówno tekst, jak i pojedynczy film (jak pokazano w tym przykładzie). W przypadku takich połączeń musisz używać modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).
Zapoznaj się z wymaganiami i zaleceniami dotyczącymi plików wejściowych.
Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream
), czy zaczekać na wygenerowanie całego wyniku (generateContent
).
Strumieniowanie
Możesz przyspieszyć interakcje, nie czekając na cały wynik generowania modelu, i zamiast tego użyj strumieniowego przesyłania do obsługi wyników częściowych.
Ten przykład pokazuje, jak za pomocą generateContentStream()
przesyłać strumieniowo tekst wygenerowany z multimodalnego żądania promptu, który zawiera tekst i 1 film:
Bez strumieniowania
Możesz też poczekać na cały wynik zamiast przesyłać strumieniowo dane, ponieważ wynik jest zwracany dopiero po zakończeniu całego procesu generowania przez model.
Ten przykład pokazuje, jak za pomocą pola generateContent()
wygenerować tekst na podstawie multimodalnego żądania promptu, które zawiera tekst i pojedynczy film:
Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednią do Twojego przypadku użycia i aplikacji.
Wymagania i zalecenia dotyczące plików wejściowych
Więcej informacji o obsługiwanych typach plików, a także o tym, jak określić typ MIME i sprawdzić, czy pliki i żądania multimodalne spełniają wymagania oraz czy są zgodne ze sprawdzonymi metodami, znajdziesz w artykule Obsługiwane pliki wejściowe i wymagania interfejsu Vertex AI Gemini API.
Co jeszcze możesz zrobić?
- Dowiedz się, jak liczyć tokeny przed wysłaniem długich promptów do modelu.
- Skonfiguruj Cloud Storage dla Firebase, aby uwzględniać duże pliki w żądaniach multimodalnych przy użyciu adresów URL w Cloud Storage. Pliki mogą zawierać obrazy, pliki PDF, filmy i dźwięki.
- Zacznij się przygotowywać do wersji produkcyjnej, między innymi skonfigurować Sprawdzanie aplikacji Firebase w celu ochrony interfejsu Gemini API przed nadużyciami ze strony nieautoryzowanych klientów.
Wypróbuj inne możliwości interfejsu Gemini API
- tworzyć rozmowy wieloetapowe (czat),
- Generuj tekst na podstawie promptów tekstowych.
- Używaj wywołania funkcji, aby łączyć modele generatywne z zewnętrznymi systemami i informacjami.
Dowiedz się, jak kontrolować generowanie treści
- Dowiedz się, jak projektować prompty, w tym sprawdzone metody, strategie i przykładowe prompty.
- Skonfiguruj parametry modelu, takie jak temperatura i maksymalna liczba tokenów wyjściowych.
- Użyj ustawień bezpieczeństwa, aby dostosować prawdopodobieństwo otrzymywania odpowiedzi, które mogą być uznane za szkodliwe.
Więcej informacji o modelach Gemini
Dowiedz się więcej o modelach dostępnych w różnych przypadkach użycia oraz ich limitach i cenach.Prześlij opinię na temat korzystania z Vertex AI dla Firebase