Limity i specyfikacje interfejsu Live API


Na tej stronie opisujemy różne limity i specyfikacje dotyczące korzystania z Live API i jego modeli.

Limity związane z sesjami

W przypadku Live API sesja to trwałe połączenie, w którym dane wejściowe i wyjściowe są przesyłane strumieniowo w sposób ciągły w ramach tego samego połączenia.

Jeśli sesja przekroczy którykolwiek z tych limitów, połączenie zostanie zakończone.

  • Długość połączenia jest ograniczona do około 10 minut.

  • Długość sesji zależy od metod wprowadzania danych:

    • Sesje wejściowe tylko z dźwiękiem są ograniczone do 15 minut.
    • Wejście wideo i audio jest ograniczone do 2 minut.
  • Okno kontekstu sesji jest ograniczone do 128 tys. tokenów.

Ograniczenia liczby żądań

Live API ma limity szybkości zarówno w przypadku sesji równoczesnych na projekt Firebase, jak i tokenów na minutę (TPM).

  • Gemini Developer API:

    • Limity różnią się w zależności od Gemini Developer API„poziomu wykorzystania” projektu (więcej informacji znajdziesz w dokumentacji limitów szybkości).
  • Vertex AI Gemini API:

    • 1000 sesji równoczesnych na projekt Firebase
    • 4 mln tokenów na minutę

Formaty audio

Live API obsługuje te formaty audio:

  • Format dźwięku wejściowego: surowy 16-bitowy dźwięk PCM o częstotliwości 16 kHz w formacie little-endian
  • Format wyjściowy dźwięku: surowy 16-bitowy dźwięk PCM o częstotliwości 24 kHz w formacie little-endian

  • Obsługiwane typy MIME: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Aby przekazać częstotliwość próbkowania wejściowego dźwięku, ustaw typ MIME każdego obiektu Blob zawierającego dźwięk na wartość taką jak audio/pcm;rate=16000.

Formaty wideo

Live API oczekuje sekwencji oddzielnych klatek obrazu i obsługuje klatki wideo z szybkością 1 klatki na sekundę.

  • Zalecane dane wejściowe: natywna rozdzielczość 768 x 768 pikseli przy 1 klatce na sekundę.

  • Obsługiwane typy MIME: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Pamiętaj, że ta specyfikacja sprawia, że Live API nie nadaje się do zastosowań, które wymagają analizowania szybko zmieniającego się obrazu, np. w przypadku relacji sportowych z dużą liczbą powtórek.

Głosy odpowiedzi

Live API obsługuje te opcje głosu odpowiedzi. Przykłady brzmienia poszczególnych głosów znajdziesz w artykule Chirp 3: głosy HD.

Jeśli nie określisz głosu odpowiedzi, domyślnie używany jest głos Puck.

Dowiedz się, jak określić głos odpowiedzi.

Zephyr -- Bright
Kore -- Firm
Orus -- Firm
Autonoe -- Bright
Umbriel -- Easy-going
Erinome -- Clear
Laomedeia -- Upbeat
Schedar -- Even
Achird -- Friendly
Sadachbia -- Lively
Puck -- Upbeat
Fenrir -- Excitable
Aoede -- Breezy
Enceladus -- Breathy
Algieba -- Smooth
Algenib -- Gravelly
Achernar -- Soft
Gacrux -- Mature
Zubenelgenubi -- Casual
Sadaltager -- Knowledgeable
Charon -- Informacyjny
Leda -- Młodzieńczy
Callirrhoe -- Spokojny
Iapetus -- Wyraźny
Despina -- Płynny
Rasalgethi -- Informacyjny
Alnilam -- Stanowczy
Pulcherrima -- Bezpośredni
Vindemiatrix -- Delikatny
Sulafat -- Ciepły

Języki

Live API obsługuje te języki. Dowiedz się, jak wpływać na język odpowiedzi.

Język Kod BCP-47 Język Kod BCP-47
arabski (egipski), ar-EG niemiecki (Niemcy) de-DE
angielski (USA) en-US hiszpański (USA) es-US
francuski (Francja) fr-FR hindi (Indie) hi-IN
indonezyjski (Indonezja) id-ID włoski (Włochy) it-IT
japoński (Japonia) ja-JP koreański (Korea) ko-KR
portugalski (Brazylia) pt-BR rosyjski (Rosja) ru-RU
niderlandzki (Holandia) nl-NL polski (Polska) pl-PL
tajski (Tajlandia) th-TH turecki (Turcja) tr-TR
wietnamski (Wietnam) vi-VN rumuński (Rumunia) ro-RO
ukraiński (Ukraina) uk-UA bengalski (Bangladesz) bn-BD
angielski (Indie) Pakiet en-IN i hi-IN marathi (Indie) mr-IN
tamilski (Indie) ta-IN telugu (Indie) te-IN