Gdy wywołujesz Gemini API z aplikacji za pomocą pakietu SDK Vertex AI in Firebase: możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub rodzajów danych wejściowych), np. tekst wraz z obrazami, plikami PDF, filmami i dźwiękiem.
Do testowania i powtarzania promptów multimodalnych zalecamy korzystanie z Vertex AI Studio
Zanim zaczniesz
W razie potrzeby wypełnij wprowadzenie do pakietów SDK Vertex AI in Firebase Upewnij się, że masz wykonane wszystkie te czynności:
Skonfiguruj nowy lub istniejący projekt Firebase, w tym Abonament Blaze i włączanie wymaganych interfejsów API.
połączyć aplikację z Firebase, w tym zarejestrować ją i dodać do konfigurację Firebase w aplikacji.
Dodaj pakiet SDK i zainicjuj usługę Vertex AI oraz model generatywny w aplikacji.
Gdy połączysz aplikację z Firebase, dodasz pakiet SDK i zainicjujesz usługę Vertex AI i model generatywny, możesz zadzwonić pod numer Gemini API.
- Generowanie tekstu na podstawie tekstu i pojedynczego obrazu
- Generowanie tekstu na podstawie tekstu i wielu obrazów
- Generowanie tekstu na podstawie tekstu i filmu
Generuj tekst na podstawie tekstu i pojedynczego obrazu
Wykonaj czynności podane w sekcji Zanim zaczniesz w tym przewodniku.
Możesz wywołać Gemini API za pomocą promptów multimodalnych, które obejmują: zarówno tekstu, jak i pojedynczego pliku (np. obrazu, jak w tym przykładzie). Zastosowanie musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).
Obsługiwane są m.in. pliki graficzne, PDF, wideo i audio. Zapoznaj się z wymagań i zaleceń dotyczących plików wejściowych.
Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream
) czy zaczekać
dla odpowiedzi aż do wygenerowania całego wyniku (generateContent
).
Streaming
Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.
Bez strumieniowania
Możesz też zaczekać na cały wynik, zamiast przesyłać go strumieniowo. wynik jest zwracany dopiero po zakończeniu generowania przez model proces tworzenia konta.
Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.
Generuj tekst na podstawie tekstu i wielu obrazów
Wykonaj czynności podane w sekcji Zanim zaczniesz w tym przewodniku.
Możesz wywołać Gemini API za pomocą promptów multimodalnych, które obejmują: zarówno tekst, jak i wiele plików (np. obrazy, jak w tym przykładzie). Zastosowanie musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).
Obsługiwane są m.in. pliki graficzne, PDF, wideo i audio. Zapoznaj się z wymagań i zaleceń dotyczących plików wejściowych.
Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream
) czy zaczekać
dla odpowiedzi aż do wygenerowania całego wyniku (generateContent
).
Streaming
Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.
Bez strumieniowania
Możesz też poczekać na uzyskanie pełnego wyniku strumieniowanie; wynik jest zwracany dopiero po zakończeniu przez model procesu ich generowania.
Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.
Wygeneruj tekst na podstawie tekstu i filmu
Wykonaj czynności podane w sekcji Zanim zaczniesz w tym przewodniku.
Możesz wywołać Gemini API za pomocą promptów multimodalnych, które obejmują: zarówno tekst, jak i 1 film (jak widać w tym przykładzie). Zastosowanie musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).
Zapoznaj się z wymagań i zaleceń dotyczących plików wejściowych.
Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream
) czy zaczekać
dla odpowiedzi aż do wygenerowania całego wyniku (generateContent
).
Streaming
Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.
Bez strumieniowania
Możesz też zaczekać na cały wynik, zamiast przesyłać go strumieniowo. wynik jest zwracany dopiero po zakończeniu generowania przez model proces tworzenia konta.
Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.
Wymagania i zalecenia dotyczące plików wejściowych
Więcej informacji o obsługiwanych typach plików, sposobie określania typu MIME i tworzeniu upewnij się, że Twoje pliki i żądania multimodalne spełniają wymagania sprawdzone metody, zobacz Obsługiwane pliki wejściowe i wymagania dotyczące standardu Vertex AI Gemini API.
Co jeszcze możesz zrobić?
- Dowiedz się, jak zliczać tokeny. przed wysłaniem do modelu długich promptów.
- Skonfiguruj Cloud Storage for Firebase do uwzględniania dużych plików w żądaniach multimodalnych za pomocą funkcji Cloud Storage adresów URL. Pliki mogą zawierać obrazy, pliki PDF, filmy i dźwięk.
- Zacznij myśleć o przygotowaniu do produkcji, w tym: konfigurowanie aplikacji Firebase App Check w celu ochrony Gemini API przed nadużyciami ze strony nieautoryzowanych klientów.
Wypróbuj inne funkcje urządzenia Gemini API
- tworzyć rozmowy wieloetapowe (czat),
- Generuj tekst z prompty tekstowe.
- nawiązać połączenie, korzystając z wywołania funkcji; modeli generatywnych w zewnętrznych systemach i informacjach.
Dowiedz się, jak kontrolować generowanie treści
- Omówienie projektowania promptów, w tym: sprawdzone metody, strategie i przykładowe prompty.
- Skonfiguruj parametry modelu, takie jak oraz maksymalną liczbę tokenów wyjściowych.
- Użyj ustawień bezpieczeństwa, by dostosować prawdopodobieństwo uzyskania odpowiedzi, które mogą zostać uznane za szkodliwe.
Więcej informacji o modelach Gemini
Dowiedz się więcej o dostępne modele do różnych zastosowań oraz ich poniższych limitów i cen.Przesyłanie opinii o Twoich wrażeniach z korzystania z Vertex AI in Firebase