Gdy wywołujesz Gemini API z aplikacji za pomocą pakietu SDK Vertex AI in Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (czyli typów danych wejściowych), takich jak tekst, obrazy, pliki PDF, filmy i dźwięk.
Do testowania i ulepszania promptów multimodalnych zalecamy używanie Vertex AI Studio.
Zanim zaczniesz
Jeśli jeszcze tego nie zrobisz, zapoznaj się z przewodnikiem po pakietach SDK Vertex AI in Firebase. Upewnij się, że wykonałeś/wykonałaś te czynności:
Skonfiguruj nowy lub istniejący projekt Firebase, w tym używając abonamentu Blaze i włącz wymagane interfejsy API.
Połączenie aplikacji z Firebase, w tym jej zarejestrowanie i dodanie do niej konfiguracji Firebase.
Dodaj pakiet SDK i zainicjuj usługę Vertex AI oraz model generatywny w swojej aplikacji.
Po połączeniu aplikacji z Firebase, dodaniu pakietu SDK i inicjalizacji usługi Vertex AI oraz modelu generatywnego możesz wywołać funkcję Gemini API.
- Generowanie tekstu na podstawie tekstu i pojedynczego obrazu
- Generowanie tekstu na podstawie tekstu i wielu obrazów
- Generowanie tekstu na podstawie tekstu i filmu
Generuj tekst na podstawie tekstu i pojedynczego obrazu
Zanim spróbujesz użyć tego przykładu, zapoznaj się z sekcją Zanim zaczniesz tego przewodnika.
Możesz wywołać Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i pojedynczy plik (np. obraz, jak w tym przykładzie). W przypadku takich połączeń musisz używać modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).
Obsługiwane pliki to m.in. obrazy, pliki PDF, filmy i pliki audio. Zapoznaj się z wymaganiami i zaleceniami dotyczącymi plików wejściowych.
Wybierz, czy chcesz wyświetlić odpowiedź w czasie (generateContentStream
), czy poczekać na odpowiedź, aż zostanie wygenerowany cały wynik (generateContent
).
Streaming
Aby uzyskać szybsze interakcje, nie czekaj na pełny wynik wygenerowany przez model, ale zamiast tego użyj strumieniowego przetwarzania wyników częściowych.
Bez strumieniowania
Możesz też poczekać na cały wynik zamiast strumieniowania – wynik jest zwracany dopiero po zakończeniu całego procesu generowania przez model.
Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizacjęodpowiednią do Twojego przypadku użycia i aplikacji.
Generowanie tekstu na podstawie tekstu i wielu obrazów
Zanim spróbujesz użyć tego przykładu, zapoznaj się z sekcją Zanim zaczniesz tego przewodnika.
Możesz wywołać funkcję Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i wiele plików (np. obrazów). W takich przypadkach musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).
Obsługiwane pliki to m.in. obrazy, pliki PDF, filmy i pliki audio. Zapoznaj się z wymaganiami i zaleceniami dotyczącymi plików wejściowych.
Wybierz, czy chcesz wyświetlić odpowiedź w czasie (generateContentStream
), czy poczekać na odpowiedź, aż zostanie wygenerowany cały wynik (generateContent
).
Streaming
Aby uzyskać szybsze interakcje, nie czekaj na pełny wynik wygenerowany przez model, ale zamiast tego użyj strumieniowego przetwarzania wyników częściowych.
Bez przesyłania strumieniowego
Możesz też poczekać na cały wynik zamiast przesyłać go strumieniowo. Wynik jest zwracany dopiero po zakończeniu całego procesu generowania przez model.
Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizacjęodpowiednią do Twojego przypadku użycia i aplikacji.
Generowanie tekstu na podstawie tekstu i filmu
Przed wypróbowaniem tego przykładu zapoznaj się z sekcją Zanim zaczniesz w tym przewodniku.
Możesz wywołać Gemini API za pomocą promptów multimodalnych, które zawierają zarówno tekst, jak i jeden film (jak w tym przykładzie). W takich przypadkach musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).
Zapoznaj się z wymaganiami i zaleceniami dotyczącymi plików wejściowych.
Wybierz, czy chcesz wyświetlić odpowiedź w czasie (generateContentStream
), czy poczekać na odpowiedź, aż zostanie wygenerowany cały wynik (generateContent
).
Streaming
Możesz przyspieszyć interakcje, nie czekając na cały wynik generowania modelu, i zamiast tego użyj strumieniowego przesyłania do obsługi wyników częściowych.
Bez strumieniowania
Możesz też poczekać na cały wynik zamiast strumieniowego przesyłania. Wynik zostanie zwrócony dopiero po zakończeniu całego procesu generowania.
Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizacjęodpowiednią do Twojego przypadku użycia i aplikacji.
Wymagania i zalecenia dotyczące plików wejściowych
Aby dowiedzieć się więcej o obsługiwanych typach plików, określić typ MIME i sprawdzić, czy pliki i żądania multimodalne spełniają wymagania, a także zachować zgodność ze sprawdzonymi metodami, przeczytaj artykuł Obsługiwane pliki wejściowe i wymagania standardu Vertex AI Gemini API.
Co jeszcze możesz zrobić?
- Dowiedz się, jak policzyć tokeny przed wysłaniem długich promptów do modelu.
- Skonfiguruj Cloud Storage for Firebase, aby móc dołączać duże pliki do żądań multimodalnych za pomocą adresów URL Cloud Storage. Pliki mogą zawierać obrazy, pliki PDF, filmy i dźwięk.
- Zacznij myśleć o przygotowaniu usługi do wdrożenia, w tym o skonfigurowaniu Firebase App Check, aby chronić Gemini API przed nadużyciami przez nieautoryzowanych klientów.
Wypróbuj inne funkcje usługi Gemini API
- tworzyć rozmowy wieloetapowe (czat),
- generować tekst na podstawie promptów tekstowych.
- generować dane wyjściowe w uporządkowanym formacie (np. JSON) zarówno na podstawie tekstowych, jak i wielomodalnych promptów;
- Aby połączyć modele generatywne z zewnętrznymi systemami i informacjami, użyj wywołania funkcji.
Dowiedz się, jak kontrolować generowanie treści
- Dowiedz się, jak projektować prompty, w tym sprawdzone metody, strategie i przykładowe prompty.
- Skonfiguruj parametry modelu, takie jak temperatura i maksymalna liczba tokenów wyjściowych.
- Użyj ustawień bezpieczeństwa, aby dostosować prawdopodobieństwo otrzymywania odpowiedzi, które mogą być uznane za szkodliwe.
Więcej informacji o modelach Gemini
Dowiedz się więcej o modelach dostępnych w różnych przypadkach użycia oraz ich limitach i cenach.Prześlij opinię o tym, jak oceniasz korzystanie z usługi Vertex AI in Firebase