Gdy wywołujesz interfejs Vertex AI Gemini API z poziomu aplikacji za pomocą pakietu SDK Vertex AI dla Firebase, możesz poprosić model Gemini o wygenerowanie tekstu. na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub typy danych wejściowych), np. tekst wraz z obrazami, plikami PDF, filmami lub dźwiękami.
W przypadku części danych nietekstowych (np. plików multimedialnych) musisz użyć obsługiwane typy plików, określ obsługiwany typ MIME i upewnij się, spełniają wymagania i są zgodne ze sprawdzonymi metodami.
Obsługiwane pliki wejściowe różnią się w zależności od modelu i mogą obejmować obrazy, pliki PDF, filmy audio.
- Pamiętaj, że obsługiwane wejście wideo różni się w zależności od modelu i może uwzględniać tylko ramki lub klatki z dźwiękiem.
Wymagania i sprawdzone metody dotyczące plików wejściowych i żądań multimodalnych:
W Dowiedz się więcej o modelach Gemini. znajdziesz krótkie podsumowanie wymagań dotyczących obsługiwanych plików na podstawie w modelu (na przykład maksymalna liczba plików i maksymalny rozmiar plików).
Szczegółowe informacje znajdziesz w dokumentacji Google Cloud. o wymagania oraz sprawdzone metody na potrzeby plików wejściowych i żądań multimodalnych (np. obsługiwanych typów MIME) i kiedy należy dostarczyć plik wejściowy do żądania).
Wymagania dotyczące pakietów SDK Vertex AI dla Firebase
W przypadku pakietów SDK Vertex AI dla Firebase maksymalny rozmiar żądania to 20 MB. Jeśli żądanie jest zbyt duże, pojawia się błąd HTTP 413.
Jeśli rozmiar pliku spowoduje, że łączny rozmiar żądania przekroczy 20 MB, użyj adresu URL Cloud Storage dla Firebase, aby uwzględnić ten plik w żądaniu multimodalnym.
Jeśli plik jest mały, często można go przekazać bezpośrednio jako dane wbudowane. Pamiętaj jednak, że plik udostępniony jako dane wbudowane jest zakodowany w formacie base64 do przesyłania danych, co zwiększa rozmiar żądania. Oto przykłady pokazujące, jak dołącz pliki jako dane wbudowane, zobacz Generowanie tekstu z promptów multimodalnych za pomocą interfejsu Gemini API