Limiti e specifiche dell'API Live 


Questa pagina descrive vari limiti e specifiche per l'utilizzo di Live API e dei relativi modelli.

Limiti relativi alle sessioni

Per Live API, una sessione si riferisce a una connessione persistente in cui l'input e l'output vengono trasmessi in streaming continuamente sulla stessa connessione.

Se la sessione supera uno dei seguenti limiti, la connessione viene terminata.

  • La durata della connessione è limitata a circa 10 minuti.

  • La durata della sessione dipende dalle modalità di input:

    • Le sessioni di input solo audio sono limitate a 15 minuti.
    • L'input video e audio è limitato a 2 minuti.
  • La finestra contestuale della sessione è limitata a 128.000 token.

Limiti di frequenza

Live API ha limiti di frequenza sia per le sessioni simultanee per progetto Firebase sia per i token al minuto (TPM).

  • Gemini Developer API

  • Vertex AI Gemini API

    • 1000 sessioni simultanee per progetto Firebase
    • 4 milioni di token al minuto

Formati audio

Live API supporta i seguenti formati audio:

  • Formato audio di input:audio PCM a 16 bit non elaborato a 16 kHz little-endian
  • Formato audio di output:audio PCM raw a 16 bit a 24 kHz little-endian

  • Tipi MIME supportati: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Per comunicare la frequenza di campionamento dell'audio di input, imposta il tipo MIME di ogni blob contenente audio su un valore come audio/pcm;rate=16000.

Formati video

Live API si aspetta una sequenza di frame immagine discreti e supporta l'input di frame video a 1 frame al secondo (FPS).

  • Input consigliato: risoluzione nativa 768x768 a 1 FPS.

  • Tipi MIME supportati: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Tieni presente che questa specifica rende Live API inadatto ai casi d'uso che richiedono l'analisi di video in rapida evoluzione, come le azioni di gioco ad alta velocità negli sport.

Voci di risposta

Live API supporta le seguenti opzioni di voce di risposta. Per le demo di come suona ogni voce, consulta Chirp 3: voci in HD.

Se non specifichi una voce di risposta, il valore predefinito è Puck.

Scopri come specificare la voce di risposta.

Zephyr -- Vivace
Kore -- Fermo
Orus -- Fermo
Autonoe -- Vivace
Umbriel -- Tranquillo
Erinome -- Chiaro
Laomedeia -- Allegro
Schedar -- Uniforme
Achird -- Amichevole
Sadachbia -- Vivace
Puck -- Vivace
Fenrir -- Entusiasta
Aoede -- Spensierato
Enceladus -- Sussurrato
Algieba -- Dolce
Algenib -- Ruvido
Achernar -- Delicato
Gacrux -- Maturo
Zubenelgenubi -- Informale
Sadaltager -- Competente
Charon -- Informativo
Leda -- Giovanile
Callirrhoe -- Tranquillo
Iapetus -- Chiaro
Despina -- Fluido
Rasalgethi -- Informativo
Alnilam -- Fermo
Pulcherrima -- Diretto
Vindemiatrix -- Delicato
Sulafat -- Caldo

Lingue

Live API supporta le seguenti lingue. Scopri come influenzare la lingua della risposta.

Lingua Codice BCP-47 Lingua Codice BCP-47
Arabo (egiziano) ar-EG Tedesco (Germania) de-DE
Inglese (USA) en-US Spagnolo (USA) es-US
Francese (Francia) fr-FR Hindi (India) hi-IN
Indonesiano (Indonesia) id-ID Italiano (Italia) it-IT
Giapponese (Giappone) ja-JP Coreano (Corea) ko-KR
Portoghese (Brasile) pt-BR Russo (Russia) ru-RU
Olandese (Paesi Bassi) nl-NL Polacco (Polonia) pl-PL
Thailandese (Thailandia) th-TH Turco (Turchia) tr-TR
Vietnamita (Vietnam) vi-VN Rumeno (Romania) ro-RO
Ucraino (Ucraina) uk_UA Bengalese (Bangladesh) bn-BD
Inglese (India) Bundle en-IN e hi-IN Marathi (India) mr-IN
Tamil (India) ta-IN Telugu (India) te-IN