Gdy wywołujesz interfejs Gemini API z aplikacji za pomocą pakietu SDK Vertex AI dla Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub rodzajów danych wejściowych), np. tekst, obrazy, pliki PDF, filmy i dźwięk.
Do testowania i powtarzania promptów multimodalnych zalecamy korzystanie z Vertex AI Studio
Zanim zaczniesz
W razie potrzeby przejrzyj wprowadzenie do pakietów SDK Vertex AI dla Firebase Upewnij się, że masz wykonane wszystkie te czynności:
Skonfiguruj nowy lub istniejący projekt Firebase, w tym Abonament Blaze i włączanie wymaganych interfejsów API.
połączyć aplikację z Firebase, w tym zarejestrować ją i dodać do konfigurację Firebase w aplikacji.
Dodaj pakiet SDK i zainicjuj usługę Vertex AI oraz model generatywny w aplikacji.
Gdy połączysz aplikację z Firebase, dodasz pakiet SDK i zainicjujesz usługę Vertex AI i model generatywny, możesz już wywołać interfejs Gemini API.
- Generowanie tekstu na podstawie tekstu i pojedynczego obrazu
- Generowanie tekstu na podstawie tekstu i wielu obrazów
- Generowanie tekstu na podstawie tekstu i filmu
Generuj tekst na podstawie tekstu i pojedynczego obrazu
Wykonaj czynności podane w sekcji Zanim zaczniesz w tym przewodniku.
Interfejs Gemini API możesz wywoływać za pomocą promptów multimodalnych zawierających: zarówno tekstu, jak i pojedynczego pliku (np. obrazu, jak w tym przykładzie). Zastosowanie musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).
Obsługiwane są m.in. pliki graficzne, PDF, wideo i audio. Zapoznaj się z wymagań i zaleceń dotyczących plików wejściowych.
Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream
) czy zaczekać
dla odpowiedzi aż do wygenerowania całego wyniku (generateContent
).
Streaming
Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.
Ten przykład pokazuje, jak za pomocą kanału generateContentStream()
przesłać wygenerowane strumieniowo
tekst z multimodalnego żądania promptu, który zawiera tekst i pojedynczy obraz:
Bez strumieniowania
Możesz też zaczekać na cały wynik, zamiast przesyłać go strumieniowo. wynik jest zwracany dopiero po zakończeniu generowania przez model proces tworzenia konta.
Ten przykład pokazuje, jak za pomocą pola generateContent()
wygenerować tekst na podstawie
multimodalne żądanie promptu, które zawiera tekst i pojedynczy obraz:
Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.
Generuj tekst na podstawie tekstu i wielu obrazów
Wykonaj czynności podane w sekcji Zanim zaczniesz w tym przewodniku.
Interfejs Gemini API możesz wywoływać za pomocą promptów multimodalnych zawierających: zarówno tekst, jak i wiele plików (np. obrazy, jak w tym przykładzie). Zastosowanie musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).
Obsługiwane są m.in. pliki graficzne, PDF, wideo i audio. Zapoznaj się z wymagań i zaleceń dotyczących plików wejściowych.
Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream
) czy zaczekać
dla odpowiedzi aż do wygenerowania całego wyniku (generateContent
).
Streaming
Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.
Ten przykład pokazuje, jak za pomocą kanału generateContentStream()
przesłać wygenerowane strumieniowo
tekst z multimodalnego żądania promptu, który zawiera tekst i wiele obrazów:
Bez strumieniowania
Możesz też poczekać na uzyskanie pełnego wyniku strumieniowanie; wynik jest zwracany dopiero po zakończeniu przez model procesu ich generowania.
Ten przykład pokazuje, jak za pomocą pola generateContent()
wygenerować tekst na podstawie
multimodalne żądanie promptu, które zawiera tekst i wiele obrazów:
Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.
Wygeneruj tekst na podstawie tekstu i filmu
Wykonaj czynności podane w sekcji Zanim zaczniesz w tym przewodniku.
Interfejs Gemini API możesz wywoływać za pomocą promptów multimodalnych zawierających: zarówno tekst, jak i 1 film (jak widać w tym przykładzie). Zastosowanie musisz użyć modelu, który obsługuje prompty multimodalne (np. Gemini 1.5 Pro).
Zapoznaj się z wymagań i zaleceń dotyczących plików wejściowych.
Wybierz, czy chcesz przesyłać odpowiedź strumieniowo (generateContentStream
) czy zaczekać
dla odpowiedzi aż do wygenerowania całego wyniku (generateContent
).
Streaming
Możesz przyspieszyć interakcje, nie czekając na cały wynik do generowania modelu i używać strumieniowania do obsługi wyników częściowych.
Ten przykład pokazuje, jak za pomocą kanału generateContentStream()
przesłać wygenerowane strumieniowo
tekst z multimodalnego żądania promptu, który zawiera tekst i pojedynczy film:
Bez strumieniowania
Możesz też zaczekać na cały wynik, zamiast przesyłać go strumieniowo. wynik jest zwracany dopiero po zakończeniu generowania przez model proces tworzenia konta.
Ten przykład pokazuje, jak za pomocą pola generateContent()
wygenerować tekst na podstawie
multimodalne żądanie promptu, które zawiera tekst i jeden film:
Dowiedz się, jak wybrać model Gemini i opcjonalnie lokalizację odpowiednio do konkretnego przypadku użycia i aplikacji.
Wymagania i zalecenia dotyczące plików wejściowych
Więcej informacji o obsługiwanych typach plików, sposobie określania typu MIME i tworzeniu upewnij się, że Twoje pliki i żądania multimodalne spełniają wymagania sprawdzone metody, zobacz Obsługiwane pliki wejściowe i wymagania interfejsu Vertex AI Gemini API.
Co jeszcze możesz zrobić?
- Dowiedz się, jak zliczać tokeny. przed wysłaniem do modelu długich promptów.
- Konfigurowanie Cloud Storage dla Firebase do uwzględniania dużych plików w żądaniach multimodalnych za pomocą funkcji Adresy URL w Cloud Storage. Pliki mogą zawierać obrazy, pliki PDF, filmy i dźwięk.
- Zacznij myśleć o przygotowaniu do produkcji, w tym: skonfigurowanie Sprawdzania aplikacji Firebase w celu ochrony Gemini API przed nadużyciami ze strony nieautoryzowanych klientów.
Wypróbuj inne możliwości interfejsu Gemini API
- tworzyć rozmowy wieloetapowe (czat),
- Generuj tekst z prompty tekstowe.
- nawiązać połączenie, korzystając z wywołania funkcji; modeli generatywnych w zewnętrznych systemach i informacjach.
Dowiedz się, jak kontrolować generowanie treści
- Omówienie projektowania promptów, w tym: sprawdzone metody, strategie i przykładowe prompty.
- Skonfiguruj parametry modelu, takie jak oraz maksymalną liczbę tokenów wyjściowych.
- Użyj ustawień bezpieczeństwa, by dostosować prawdopodobieństwo uzyskania odpowiedzi, które mogą zostać uznane za szkodliwe.
Więcej informacji o modelach Gemini
Dowiedz się więcej o dostępne modele do różnych zastosowań oraz ich poniższych limitów i cen.Przesyłanie opinii o swoich doświadczeniach z Vertex AI dla Firebase,