Gdy wywołujesz funkcję Gemini API z aplikacji za pomocą pakietu SDK Vertex AI in Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub rodzajów danych wejściowych), np. tekst, obrazy, pliki PDF, filmy i dźwięk.
Do testowania i ulepszania promptów multimodalnych zalecamy używanie Vertex AI Studio.
Zanim zaczniesz
W razie potrzeby wypełnij wprowadzenie do pakietów SDK Vertex AI in Firebase Upewnij się, że masz wykonane wszystkie te czynności:
Skonfiguruj nowy lub istniejący projekt Firebase, w tym użyj abonamentu Blaze i włącz wymagane interfejsy API.
połączyć aplikację z Firebase, w tym zarejestrować ją i dodać do konfigurację Firebase w aplikacji.
Dodaj pakiet SDK i zainicjuj usługę Vertex AI oraz model generatywny w aplikacji.
Po połączeniu aplikacji z Firebase, dodaniu pakietu SDK i zainicjowaniu pakietu usługę Vertex AI i model generatywny, możesz zadzwonić pod numer Gemini API.
- Generowanie tekstu na podstawie tekstu i jednego obrazu
- Generowanie tekstu na podstawie tekstu i wielu obrazów
- Generowanie tekstu na podstawie tekstu i filmu
Generowanie tekstu na podstawie tekstu i jednego obrazu
Upewnij się, że wykonanie czynności opisanych w sekcji Zanim zaczniesz w tym przewodniku.
Możesz wywołać Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i pojedynczy plik (np. obraz, jak w tym przykładzie). Zastosowanie musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).
Obsługiwane są m.in. pliki graficzne, PDF, wideo i audio. Zapoznaj się z wymaganiami i zaleceniami dotyczącymi plików wejściowych.
Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream
) czy zaczekać
dla odpowiedzi aż do wygenerowania całego wyniku (generateContent
).
Streaming
Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.
Bez przesyłania strumieniowego
Możesz też poczekać na cały wynik zamiast strumieniowego przesyłania. Wynik zostanie zwrócony dopiero po zakończeniu całego procesu generowania.
Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.
Generowanie tekstu na podstawie tekstu i wielu obrazów
Upewnij się, że wykonanie czynności opisanych w sekcji Zanim zaczniesz w tym przewodniku.
Możesz wywołać Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i wiele plików (np. obrazów, jak w tym przykładzie). W takich przypadkach musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).
Obsługiwane są m.in. pliki graficzne, PDF, wideo i audio. Zapoznaj się z wymagań i zaleceń dotyczących plików wejściowych.
Wybierz, czy chcesz odtwarzać odpowiedź strumieniowo (generateContentStream
), czy czekać na odpowiedź, aż zostanie wygenerowany cały wynik (generateContent
).
Streaming
Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.
Bez strumieniowania
Możesz też poczekać na cały wynik zamiast na strumieniowe przesyłanie. Wynik zostanie zwrócony dopiero po zakończeniu całego procesu generowania.
Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.
Generowanie tekstu na podstawie tekstu i filmu
Wykonaj czynności podane w sekcji Zanim zaczniesz w tym przewodniku.
Możesz wywołać Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i jeden film (jak w tym przykładzie). W takich przypadkach musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).
Zapoznaj się z wymaganiami i zaleceniami dotyczącymi plików wejściowych.
Wybierz, czy chcesz odtwarzać odpowiedź strumieniowo (generateContentStream
), czy czekać na odpowiedź, aż zostanie wygenerowany cały wynik (generateContent
).
Streaming
Możesz uzyskać szybsze interakcje, nie czekając na pełny wynik wygenerowany przez model, a zamiast tego używać strumieniowego przesyłania danych, aby przetwarzać częściowe wyniki.
Bez strumieniowania
Możesz też poczekać na cały wynik zamiast strumieniowego przesyłania. Wynik zostanie zwrócony dopiero po zakończeniu całego procesu generowania.
Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizacjęodpowiednią do Twojego przypadku użycia i aplikacji.
Wymagania i zalecenia dotyczące plików wejściowych
Więcej informacji o obsługiwanych typach plików, sposobie określania typu MIME oraz sprawdzania, czy pliki i zapytania multimodalne spełniają wymagania i czy są zgodne ze wskazówkami znajdziesz w artykule Obsługiwane pliki wejściowe i wymagania dotyczące usługi Vertex AI Gemini API.
Co jeszcze potrafisz?
- Dowiedz się, jak policzyć tokeny przed wysłaniem długich promptów do modelu.
- Skonfiguruj Cloud Storage for Firebase, aby móc dołączać duże pliki do żądań multimodalnych za pomocą adresów URL Cloud Storage. Pliki mogą zawierać obrazy, pliki PDF, filmy i dźwięk.
- Zacznij myśleć o przygotowaniu usługi do wdrożenia, w tym o skonfigurowaniu Firebase App Check, aby chronić usługę Gemini API przed nadużyciami przez nieautoryzowanych klientów.
Wypróbuj inne funkcje urządzenia Gemini API
- tworzyć rozmowy wieloetapowe (czat);
- generować tekst na podstawie promptów tekstowych.
- Aby połączyć modele generatywne z zewnętrznymi systemami i informacjami, użyj wywołania funkcji.
Dowiedz się, jak kontrolować generowanie treści
- Omówienie projektowania promptów, w tym: sprawdzone metody, strategie i przykładowe prompty.
- Skonfiguruj parametry modelu, takie jak temperatura i maksymalna liczba tokenów wyjściowych.
- Użyj ustawień bezpieczeństwa, aby dostosować prawdopodobieństwo otrzymywania odpowiedzi, które mogą być uważane za szkodliwe.
Więcej informacji o modelach Gemini
Dowiedz się więcej o modelach dostępnych w różnych przypadkach użycia oraz ich limitach i cenach.Prześlij opinię o tym, jak korzystasz z Vertex AI in Firebase