En esta página, se describen varios límites y especificaciones para usar Live API y sus modelos.
Límites relacionados con la sesión
En el caso de Live API, una sesión hace referencia a una conexión persistente en la que la entrada y la salida se transmiten de forma continua a través de la misma conexión.
Si la sesión supera cualquiera de los siguientes límites, se finalizará la conexión.
La duración de la conexión se limita a unos 10 minutos.
La duración de la sesión depende de las modalidades de entrada:
- Las sesiones de entrada solo de audio tienen un límite de 15 minutos.
- La entrada de audio y video se limita a 2 minutos.
La ventana de contexto de la sesión está limitada a 128,000 tokens.
Límites de frecuencia
Live API tiene límites de frecuencia tanto para las sesiones simultáneas por proyecto de Firebase como para los tokens por minuto (TPM).
Gemini Developer API
- Los límites varían según el "nivel de uso" Gemini Developer API de tu proyecto (consulta la documentación sobre límites de frecuencia).
Vertex AI Gemini API
- 1,000 sesiones simultáneas por proyecto de Firebase
- 4 millones de tokens por minuto
Formatos de audio
La herramienta Live API admite los siguientes formatos de audio:
- Formato de audio de entrada: Audio PCM sin procesar de 16 bits a 16 kHz, little-endian
Formato de audio de salida: Audio PCM sin procesar de 16 bits a 24 kHz en formato little-endian
Tipos de MIME admitidos:
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
Para transmitir la tasa de muestreo del audio de entrada, establece el tipo MIME de cada Blob que contenga audio en un valor como audio/pcm;rate=16000.
Formatos de video
El Live API espera una secuencia de fotogramas de imágenes discretos y admite la entrada de fotogramas de video a 1 fotograma por segundo (FPS).
Entrada recomendada: Resolución nativa de 768 x 768 a 1 FPS.
Tipos de MIME admitidos:
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
Ten en cuenta que esta especificación hace que Live API no sea adecuado para los casos de uso que requieren analizar videos de cambios rápidos, como el desarrollo jugada por jugada en deportes de alta velocidad.
Voces de respuesta
Live API admite las siguientes opciones de voz de respuesta. Para ver demostraciones de cómo suena cada voz, consulta Chirp 3: Voces en HD.
Si no especificas una voz de respuesta, la predeterminada es Puck.
Obtén más información para especificar la voz de la respuesta.
Zephyr: BrillanteKore: FirmeOrus: FirmeAutonoe: BrillanteUmbriel: RelajadaErinome: ClaraLaomedeia: AnimadaSchedar: UniformeAchird: AmistosaSadachbia: Animada
|
Puck: OptimistaFenrir: EntusiastaAoede: LigeraEnceladus: SusurranteAlgieba: SuaveAlgenib: GraveAchernar: SuaveGacrux: MaduraZubenelgenubi: InformalSadaltager: Informativa
|
Charon -- InformativoLeda -- JuvenilCallirrhoe -- RelajadoIapetus -- ClaroDespina -- SuaveRasalgethi -- InformativoAlnilam -- FirmePulcherrima -- DirectoVindemiatrix -- DelicadoSulafat -- Cálido
|
Idiomas
Live API admite los siguientes idiomas. Obtén más información para influir en el idioma de la respuesta.
| Idioma | Código BCP-47 | Idioma | Código BCP-47 |
|---|---|---|---|
| Árabe (Egipto) | ar-EG | Alemán (Alemania) | de-DE |
| Inglés (EE.UU.) | en-US | Español (EE.UU.) | es-US |
| Francés (Francia) | fr-FR | Hindi (India) | hi-IN |
| Indonesio (Indonesia) | id-ID | Italiano (Italia) | it-IT |
| Japonés (Japón) | ja-JP | Coreano (Corea) | ko-KR |
| Portugués (Brasil) | pt-BR | Ruso (Rusia) | ru-RU |
| Holandés (Países Bajos) | nl-NL | Polaco (Polonia) | pl-PL |
| Tailandés (Tailandia) | th-TH | Turco (Türkiye) | tr-TR |
| Vietnamita (Vietnam) | vi-VN | Rumano (Rumania) | ro-RO |
| Ucraniano (Ucrania) | uk-UA | Bengalí (Bangladés) | bn-BD |
| Inglés (India) | Paquete de en-IN y hi-IN | Maratí (India) | mr-IN |
| Tamil (India) | ta-IN | Telugu (India) | te-IN |