Live API की सीमाएं और खास बातें


इस पेज पर, Live API और इसके मॉडल इस्तेमाल करने से जुड़ी अलग-अलग सीमाओं और खास बातों के बारे में बताया गया है.

सेशन से जुड़ी सीमाएं

Live API के लिए, सेशन का मतलब है एक ऐसा कनेक्शन जो लगातार बना रहता है. इसमें इनपुट और आउटपुट, एक ही कनेक्शन पर लगातार स्ट्रीम किए जाते हैं.

अगर सेशन में, यहां दी गई सीमाओं में से किसी का भी उल्लंघन होता है, तो कनेक्शन बंद कर दिया जाता है.

  • कनेक्शन की अवधि करीब 10 मिनट तक सीमित होती है.

  • सेशन की अवधि, इनपुट के तरीकों पर निर्भर करती है:

    • सिर्फ़ ऑडियो वाले इनपुट सेशन, 15 मिनट तक ही किए जा सकते हैं.
    • वीडियो और ऑडियो इनपुट की अवधि दो मिनट से ज़्यादा नहीं होनी चाहिए.
  • सेशन कॉन्टेक्स्ट विंडो में ज़्यादा से ज़्यादा 1,28,000 टोकन हो सकते हैं.

तय सीमाएं

Live API में, हर Firebase प्रोजेक्ट के लिए एक साथ चल रहे सेशन और हर मिनट के टोकन (टीपीएम) की दर की सीमाएं होती हैं.

  • Gemini Developer API:

  • Vertex AI Gemini API:

    • हर Firebase प्रोजेक्ट के लिए, एक साथ 1,000 सेशन
    • हर मिनट 40 लाख टोकन

ऑडियो फ़ॉर्मैट

Live API फ़ंक्शन इन ऑडियो फ़ॉर्मैट के साथ काम करता है:

  • इनपुट ऑडियो फ़ॉर्मैट: रॉ 16 बिट पीसीएम ऑडियो, 16 किलोहर्ट्ज़ लिटिल-एंडियन पर
  • आउटपुट ऑडियो फ़ॉर्मैट: रॉ 16 बिट पीसीएम ऑडियो, 24 किलोहर्ट्ज़ लिटिल-एंडियन पर

  • इस्तेमाल किए जा सकने वाले MIME टाइप: audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm

इनपुट ऑडियो की सैंपल दर बताने के लिए, ऑडियो वाले हर Blob का MIME टाइप, audio/pcm;rate=16000 जैसी वैल्यू पर सेट करें.

वीडियो फ़ॉर्मैट

Live API को अलग-अलग इमेज फ़्रेम के क्रम की ज़रूरत होती है. साथ ही, यह एक फ़्रेम प्रति सेकंड (एफ़पीएस) पर वीडियो फ़्रेम के इनपुट को सपोर्ट करता है.

  • सुझाया गया इनपुट: नेटिव 768x768 रिज़ॉल्यूशन पर 1 एफ़पीएस.

  • इस्तेमाल किए जा सकने वाले MIME टाइप: video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp

ध्यान दें कि इस स्पेसिफ़िकेशन की वजह से, Live API उन इस्तेमाल के उदाहरणों के लिए सही नहीं है जिनमें तेज़ी से बदलते वीडियो का विश्लेषण करना होता है. जैसे, हाई-स्पीड स्पोर्ट्स में प्ले-बाय-प्ले.

जवाब देने के लिए आवाज़ें

Live API में, जवाब देने के लिए आवाज़ के ये विकल्प उपलब्ध हैं. हर आवाज़ कैसी लगती है, इसके डेमो देखने के लिए Chirp 3: एचडी क्वालिटी वाली आवाज़ें पर जाएं.

अगर आपने जवाब देने के लिए कोई आवाज़ नहीं चुनी है, तो डिफ़ॉल्ट रूप से Puck का इस्तेमाल किया जाएगा.

जवाब देने के लिए आवाज़ तय करने का तरीका जानें.

Zephyr -- ब्राइट
Kore -- फ़र्म
Orus -- फ़र्म
Autonoe -- ब्राइट
Umbriel -- ईज़ी-गोइंग
Erinome -- क्लियर
Laomedeia -- अपबीट
Schedar -- इवन
Achird -- फ़्रेंडली
Sadachbia -- लाइवली
Puck -- खुशमिज़ाज
Fenrir -- उत्साही
Aoede -- हल्की-फुल्की
Enceladus -- धीमी
Algieba -- शांत
Algenib -- भारी
Achernar -- नरम
Gacrux -- समझदार
Zubenelgenubi -- अनौपचारिक
Sadaltager -- जानकार
Charon -- जानकारी देने वाली
Leda -- युवाओं के लिए
Callirrhoe -- आसान
Iapetus -- साफ़ तौर पर
Despina -- स्मूद
Rasalgethi -- जानकारी देने वाली
Alnilam -- सटीक
Pulcherrima -- आगे बढ़ने के लिए
Vindemiatrix -- सहानुभूति दिखाने वाली
Sulafat -- दोस्ताना

भाषाएं

Live API में इन भाषाओं का इस्तेमाल किया जा सकता है. जवाब की भाषा को अपनी पसंद के मुताबिक सेट करने का तरीका जानें.

भाषा BCP-47 कोड भाषा BCP-47 कोड
ऐरेबिक (मिस्र) ar-EG जर्मन (जर्मनी) de-DE
अंग्रेज़ी (यूएस) en-US स्पेनिश (यूएस) es-US
फ़्रांसीसी (फ़्रांस) fr-FR हिन्दी (भारत) hi-IN
इंडोनेशियन (इंडोनेशिया) id-ID इतालवी (इटली) it-IT
जैपनीज़ (जापान) ja-JP कोरियन (कोरिया) ko-KR
पॉर्चुगीज़ (ब्राज़ील) pt-BR रूसी (रूस) ru-RU
डच (नीदरलैंड्स) nl-NL पोलिश (पोलैंड) pl-PL
थाई (थाईलैंड) th-TH टर्किश (तुर्की) tr-TR
वियतनामीज़ (वियतनाम) vi-VN रोमेनियन (रोमानिया) ro-RO
यूक्रेनियन (यूक्रेन) uk-UA बांग्ला (बांग्लादेश) bn-BD
अंग्रेज़ी (भारत) en-IN और hi-IN बंडल मराठी (भारत) mr-IN
तमिल (भारत) ta-IN तेलुगु (भारत) te-IN