Esta página descreve vários limites e especificações para usar o Live API e os modelos dele.
Limites relacionados à sessão
Para o Live API, uma sessão se refere a uma conexão persistente em que a entrada e a saída são transmitidas continuamente pela mesma conexão.
Se a sessão exceder qualquer um dos seguintes limites, a conexão será encerrada.
A duração da conexão é limitada a cerca de 10 minutos.
A duração da sessão depende das modalidades de entrada:
- As sessões de entrada somente de áudio são limitadas a 15 minutos.
- A entrada de vídeo e áudio é limitada a 2 minutos.
A janela de contexto da sessão é limitada a 128 mil tokens.
Limites de taxas
O Live API tem limites de taxa para sessões simultâneas por projeto do Firebase e para tokens por minuto (TPM).
Gemini Developer API:
- Os limites variam de acordo com o Gemini Developer API "nível de uso" do projeto. Consulte a documentação de limites de taxa.
Vertex AI Gemini API:
- 1.000 sessões simultâneas por projeto do Firebase
- 4 milhões de tokens por minuto
Formatos de áudio
O Live API é compatível com os seguintes formatos de áudio:
- Formato de áudio de entrada:áudio PCM bruto de 16 bits a 16 kHz little-endian
Formato de áudio de saída:áudio PCM bruto de 16 bits a 24 kHz little-endian
Tipos MIME aceitos:
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
Para transmitir a taxa de amostragem do áudio de entrada, defina o tipo MIME de cada
Blob que contém áudio como um valor como audio/pcm;rate=16000.
Formatos de vídeo
O Live API espera uma sequência de frames de imagem discretos e aceita entrada de frames de vídeo a 1 frame por segundo (FPS).
Entrada recomendada: resolução nativa de 768 x 768 a 1 FPS.
Tipos MIME aceitos:
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
Essa especificação torna o Live API inadequado para casos de uso que exigem a análise de vídeos que mudam rapidamente, como jogadas em esportes de alta velocidade.
Vozes de resposta
O Live API é compatível com as seguintes opções de voz de resposta. Para demonstrações de como cada voz soa, consulte Chirp 3: vozes em alta definição.
Se você não especificar uma voz de resposta, o padrão será Puck.
Saiba como especificar a voz da resposta.
Zephyr -- BrilhanteKore -- FirmeOrus -- FirmeAutonoe -- BrilhanteUmbriel -- TranquiloErinome -- ClaroLaomedeia -- AnimadoSchedar -- EquilibradoAchird -- AmigávelSadachbia -- Animado
|
Puck -- AnimadaFenrir -- EntusiasmadaAoede -- LeveEnceladus -- SuaveAlgieba -- CalmaAlgenib -- GraveAchernar -- DelicadaGacrux -- MaduraZubenelgenubi -- InformalSadaltager -- Conhecedora
|
Charon -- InformativaLeda -- JovemCallirrhoe -- TranquilaIapetus -- ClaraDespina -- SuaveRasalgethi -- InformativaAlnilam -- FirmePulcherrima -- DiretaVindemiatrix -- DelicadaSulafat -- Calorosa
|
Idiomas
O Live API está disponível nos seguintes idiomas. Saiba como influenciar o idioma da resposta.
| Idioma | Código BCP-47 | Idioma | Código BCP-47 |
|---|---|---|---|
| Árabe (egípcio) | ar-EG | Alemão (Alemanha) | de-DE |
| Inglês (EUA) | en-US | Espanhol (EUA) | es-US |
| Francês (França) | fr-FR | Híndi (Índia) | hi-IN |
| Indonésio (Indonésia) | id-ID | Italiano (Itália) | it-IT |
| Japonês (Japão) | ja-JP | Coreano (Coreia) | ko-KR |
| Português (Brasil) | pt-BR | Russo (Rússia) | ru-RU |
| Holandês (Holanda) | nl-NL | Polonês (Polônia) | pl-PL |
| Tailandês (Tailândia) | th-TH | Turco (Turquia) | tr-TR |
| Vietnamita (Vietnã) | vi-VN | Romeno (Romênia) | ro-RO |
| Ucraniano (Ucrânia) | uk-UA | Bengali (Bangladesh) | bn-BD |
| Inglês (Índia) | Pacote en-IN e hi-IN | Marati (Índia) | mr-IN |
| Tâmil (Índia) | ta-IN | Telugu (Índia) | te-IN |