Obsługiwane pliki wejściowe i wymagania interfejsu Vertex AI Gemini API

Gdy wywołujesz interfejs Vertex AI Gemini API z aplikacji za pomocą pakietu SDK Vertex AI dla Firebase, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych. Prompty multimodalne mogą zawierać wiele modalności (lub rodzajów danych wejściowych), np. tekst wraz z obrazami, plikami PDF, wideo i dźwiękowymi.

W przypadku nietekstowych części danych wejściowych (np. plików multimedialnych) musisz użyć obsługiwanych typów plików, wskazać obsługiwany typ MIME i sprawdzić, czy pliki i żądania multimodalne spełniają wymagania i są zgodne ze sprawdzonymi metodami.

  • Obsługiwane pliki wejściowe różnią się w zależności od modelu i mogą obejmować obrazy, pliki PDF, filmy i dźwięk.

    • Pamiętaj, że obsługiwane wejście wideo różni się również w zależności od modelu i może uwzględniać same klatki lub klatki z dźwiękiem.
  • Wymagania i sprawdzone metody dotyczące plików wejściowych i żądań multimodalnych:

    • W sekcji Więcej informacji o modelach Gemini znajdziesz krótkie podsumowanie wymagań dotyczących obsługiwanych plików na podstawie modelu (np. maksymalna liczba plików i maksymalny rozmiar pliku).

    • Dokumentacja Google Cloud zawiera szczegółowe informacje o wymaganiach i sprawdzonych metodach dotyczących plików wejściowych i żądań multimodalnych (np. o obsługiwanych typach MIME oraz o tym, kiedy należy podać w żądaniu plik wejściowy).

Wymagania dotyczące pakietów SDK Vertex AI dla Firebase

Maksymalny rozmiar żądania w przypadku pakietów SDK Vertex AI dla Firebase to 20 MB. Jeśli żądanie jest zbyt duże, pojawia się błąd HTTP 413.