Na tej stronie opisujemy różne limity i specyfikacje dotyczące korzystania z Live API i jego modeli.
Limity związane z sesjami
W przypadku Live API sesja to trwałe połączenie, w którym dane wejściowe i wyjściowe są przesyłane strumieniowo w sposób ciągły w ramach tego samego połączenia.
Jeśli sesja przekroczy którykolwiek z tych limitów, połączenie zostanie zakończone.
Długość połączenia jest ograniczona do około 10 minut.
Długość sesji zależy od metod wprowadzania danych:
- Sesje wejściowe tylko z dźwiękiem są ograniczone do 15 minut.
- Wejście wideo i audio jest ograniczone do 2 minut.
Okno kontekstu sesji jest ograniczone do 128 tys. tokenów.
Ograniczenia liczby żądań
Live API ma limity szybkości zarówno w przypadku sesji równoczesnych na projekt Firebase, jak i tokenów na minutę (TPM).
Gemini Developer API:
- Limity różnią się w zależności od Gemini Developer API„poziomu wykorzystania” projektu (więcej informacji znajdziesz w dokumentacji limitów szybkości).
Vertex AI Gemini API:
- 1000 sesji równoczesnych na projekt Firebase
- 4 mln tokenów na minutę
Formaty audio
Live API obsługuje te formaty audio:
- Format dźwięku wejściowego: surowy 16-bitowy dźwięk PCM o częstotliwości 16 kHz w formacie little-endian
Format wyjściowy dźwięku: surowy 16-bitowy dźwięk PCM o częstotliwości 24 kHz w formacie little-endian
Obsługiwane typy MIME:
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
Aby przekazać częstotliwość próbkowania wejściowego dźwięku, ustaw typ MIME każdego obiektu Blob zawierającego dźwięk na wartość taką jak audio/pcm;rate=16000.
Formaty wideo
Live API oczekuje sekwencji oddzielnych klatek obrazu i obsługuje klatki wideo z szybkością 1 klatki na sekundę.
Zalecane dane wejściowe: natywna rozdzielczość 768 x 768 pikseli przy 1 klatce na sekundę.
Obsługiwane typy MIME:
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
Pamiętaj, że ta specyfikacja sprawia, że Live API nie nadaje się do zastosowań, które wymagają analizowania szybko zmieniającego się obrazu, np. w przypadku relacji sportowych z dużą liczbą powtórek.
Głosy odpowiedzi
Live API obsługuje te opcje głosu odpowiedzi. Przykłady brzmienia poszczególnych głosów znajdziesz w artykule Chirp 3: głosy HD.
Jeśli nie określisz głosu odpowiedzi, domyślnie używany jest głos Puck.
Dowiedz się, jak określić głos odpowiedzi.
Zephyr -- BrightKore -- FirmOrus -- FirmAutonoe -- BrightUmbriel -- Easy-goingErinome -- ClearLaomedeia -- UpbeatSchedar -- EvenAchird -- FriendlySadachbia -- Lively
|
Puck -- UpbeatFenrir -- ExcitableAoede -- BreezyEnceladus -- BreathyAlgieba -- SmoothAlgenib -- GravellyAchernar -- SoftGacrux -- MatureZubenelgenubi -- CasualSadaltager -- Knowledgeable
|
Charon -- InformacyjnyLeda -- MłodzieńczyCallirrhoe -- SpokojnyIapetus -- WyraźnyDespina -- PłynnyRasalgethi -- InformacyjnyAlnilam -- StanowczyPulcherrima -- BezpośredniVindemiatrix -- DelikatnySulafat -- Ciepły
|
Języki
Live API obsługuje te języki. Dowiedz się, jak wpływać na język odpowiedzi.
| Język | Kod BCP-47 | Język | Kod BCP-47 |
|---|---|---|---|
| arabski (egipski), | ar-EG | niemiecki (Niemcy) | de-DE |
| angielski (USA) | en-US | hiszpański (USA) | es-US |
| francuski (Francja) | fr-FR | hindi (Indie) | hi-IN |
| indonezyjski (Indonezja) | id-ID | włoski (Włochy) | it-IT |
| japoński (Japonia) | ja-JP | koreański (Korea) | ko-KR |
| portugalski (Brazylia) | pt-BR | rosyjski (Rosja) | ru-RU |
| niderlandzki (Holandia) | nl-NL | polski (Polska) | pl-PL |
| tajski (Tajlandia) | th-TH | turecki (Turcja) | tr-TR |
| wietnamski (Wietnam) | vi-VN | rumuński (Rumunia) | ro-RO |
| ukraiński (Ukraina) | uk-UA | bengalski (Bangladesz) | bn-BD |
| angielski (Indie) | Pakiet en-IN i hi-IN | marathi (Indie) | mr-IN |
| tamilski (Indie) | ta-IN | telugu (Indie) | te-IN |