Limites e especificações da API Live 


Esta página descreve vários limites e especificações para usar o Live API e os modelos dele.

Limites relacionados à sessão

Para o Live API, uma sessão se refere a uma conexão persistente em que a entrada e a saída são transmitidas continuamente pela mesma conexão.

Se a sessão exceder qualquer um dos seguintes limites, a conexão será encerrada.

  • A duração da conexão é limitada a cerca de 10 minutos.

  • A duração da sessão depende das modalidades de entrada:

    • As sessões de entrada somente de áudio são limitadas a 15 minutos.
    • A entrada de vídeo e áudio é limitada a 2 minutos.
  • A janela de contexto da sessão é limitada a 128 mil tokens.

Limites de taxas

O Live API tem limites de taxa para sessões simultâneas por projeto do Firebase e para tokens por minuto (TPM).

  • Gemini Developer API:

  • Vertex AI Gemini API:

    • 1.000 sessões simultâneas por projeto do Firebase
    • 4 milhões de tokens por minuto

Formatos de áudio

O Live API é compatível com os seguintes formatos de áudio:

  • Formato de áudio de entrada:áudio PCM bruto de 16 bits a 16 kHz little-endian
  • Formato de áudio de saída:áudio PCM bruto de 16 bits a 24 kHz little-endian

  • Tipos MIME aceitos: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Para transmitir a taxa de amostragem do áudio de entrada, defina o tipo MIME de cada Blob que contém áudio como um valor como audio/pcm;rate=16000.

Formatos de vídeo

O Live API espera uma sequência de frames de imagem discretos e aceita entrada de frames de vídeo a 1 frame por segundo (FPS).

  • Entrada recomendada: resolução nativa de 768 x 768 a 1 FPS.

  • Tipos MIME aceitos: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Essa especificação torna o Live API inadequado para casos de uso que exigem a análise de vídeos que mudam rapidamente, como jogadas em esportes de alta velocidade.

Vozes de resposta

O Live API é compatível com as seguintes opções de voz de resposta. Para demonstrações de como cada voz soa, consulte Chirp 3: vozes em alta definição.

Se você não especificar uma voz de resposta, o padrão será Puck.

Saiba como especificar a voz da resposta.

Zephyr -- Brilhante
Kore -- Firme
Orus -- Firme
Autonoe -- Brilhante
Umbriel -- Tranquilo
Erinome -- Claro
Laomedeia -- Animado
Schedar -- Equilibrado
Achird -- Amigável
Sadachbia -- Animado
Puck -- Animada
Fenrir -- Entusiasmada
Aoede -- Leve
Enceladus -- Suave
Algieba -- Calma
Algenib -- Grave
Achernar -- Delicada
Gacrux -- Madura
Zubenelgenubi -- Informal
Sadaltager -- Conhecedora
Charon -- Informativa
Leda -- Jovem
Callirrhoe -- Tranquila
Iapetus -- Clara
Despina -- Suave
Rasalgethi -- Informativa
Alnilam -- Firme
Pulcherrima -- Direta
Vindemiatrix -- Delicada
Sulafat -- Calorosa

Idiomas

O Live API está disponível nos seguintes idiomas. Saiba como influenciar o idioma da resposta.

Idioma Código BCP-47 Idioma Código BCP-47
Árabe (egípcio) ar-EG Alemão (Alemanha) de-DE
Inglês (EUA) en-US Espanhol (EUA) es-US
Francês (França) fr-FR Híndi (Índia) hi-IN
Indonésio (Indonésia) id-ID Italiano (Itália) it-IT
Japonês (Japão) ja-JP Coreano (Coreia) ko-KR
Português (Brasil) pt-BR Russo (Rússia) ru-RU
Holandês (Holanda) nl-NL Polonês (Polônia) pl-PL
Tailandês (Tailândia) th-TH Turco (Turquia) tr-TR
Vietnamita (Vietnã) vi-VN Romeno (Romênia) ro-RO
Ucraniano (Ucrânia) uk-UA Bengali (Bangladesh) bn-BD
Inglês (Índia)‎ Pacote en-IN e hi-IN Marati (Índia) mr-IN
Tâmil (Índia) ta-IN Telugu (Índia) te-IN