Batasan dan spesifikasi Live API


Halaman ini menjelaskan berbagai batas dan spesifikasi untuk menggunakan Live API dan modelnya.

Batas terkait sesi

Untuk Live API, sesi mengacu pada koneksi persisten tempat input dan output di-streaming secara berkelanjutan melalui koneksi yang sama.

Jika sesi melebihi salah satu batas berikut, koneksi akan dihentikan.

  • Durasi koneksi dibatasi hingga sekitar 10 menit.

  • Durasi sesi bergantung pada modalitas input:

    • Sesi input audio saja dibatasi hingga 15 menit.
    • Input video + audio dibatasi hingga 2 menit.
  • Jendela konteks sesi dibatasi hingga 128k token.

Batas kapasitas

Live API memiliki batas kecepatan untuk sesi serentak per project Firebase dan token per menit (TPM).

  • Gemini Developer API:

  • Vertex AI Gemini API:

    • 1.000 sesi serentak per project Firebase
    • 4 juta token per menit

Format audio

Live API mendukung format audio berikut:

  • Format audio input: Audio PCM 16 bit mentah pada 16 kHz little-endian
  • Format audio output: Audio PCM 16 bit mentah pada 24 kHz little-endian

  • Jenis MIME yang didukung: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

Untuk menyampaikan sample rate audio input, tetapkan jenis MIME setiap Blob yang berisi audio ke nilai seperti audio/pcm;rate=16000.

Format video

Live API mengharapkan urutan frame gambar diskrit dan mendukung input frame video pada 1 frame per detik (FPS).

  • Input yang direkomendasikan: resolusi 768x768 native pada 1 FPS.

  • Jenis MIME yang didukung: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

Perhatikan bahwa spesifikasi ini membuat Live API tidak cocok untuk kasus penggunaan yang memerlukan analisis video yang berubah dengan cepat, seperti play-by-play dalam olahraga berkecepatan tinggi.

Suara respons

Live API mendukung opsi suara respons berikut. Untuk melihat demo suara masing-masing, lihat Chirp 3: Suara HD.

Jika Anda tidak menentukan suara respons, defaultnya adalah Puck.

Pelajari cara menentukan suara respons.

Zephyr -- Cerah (Bright)
Kore -- Tegas (Firm)
Orus -- Tegas (Firm)
Autonoe -- Cerah (Bright)
Umbriel -- Santai (Easy-going)
Erinome -- Jelas (Clear)
Laomedeia -- Ceria (Upbeat)
Schedar -- Seimbang (Even)
Achird -- Ramah (Friendly)
Sadachbia -- Lincah (Lively)
Puck -- Ceria
Fenrir -- Bersemangat
Aoede -- Santai
Enceladus -- Berbisik
Algieba -- Lembut
Algenib -- Serak
Achernar -- Lembut
Gacrux -- Dewasa
Zubenelgenubi -- Santai
Sadaltager -- Berpengetahuan
Charon -- Informatif
Leda -- Muda
Callirrhoe -- Santai
Iapetus -- Jelas
Despina -- Lancar
Rasalgethi -- Informatif
Alnilam -- Tegas
Pulcherrima -- Maju
Vindemiatrix -- Lembut
Sulafat -- Hangat

Languages

Live API mendukung bahasa berikut. Pelajari cara memengaruhi bahasa respons.

Bahasa Kode BCP-47 Bahasa Kode BCP-47
Arab (Mesir) ar-EG Jerman (Jerman) de-DE
Inggris (AS) en-US Spanyol (AS) es-US
Prancis (Prancis) fr-FR Hindi (India) hi-IN
Indonesia (Indonesia) id-ID Italia (Italia) it-IT
Jepang (Jepang) ja-JP Korea (Korea) ko-KR
Portugis (Brasil) pt-BR Rusia (Rusia) ru-RU
Belanda (Belanda) nl-NL Polandia (Polandia) pl-PL
Thai (Thailand) th-TH Turkiye (Turkiye) tr-TR
Vietnam (Vietnam) vi-VN Rumania (Rumania) ro-RO
Ukraina (Ukraina) uk-UA Bengali (Bangladesh) bn-BD
Inggris (India) Paket en-IN & hi-IN Marathi (India) mr-IN
Tamil (India) ta-IN Telugu (India) te-IN