इस पेज पर, Live API और इसके मॉडल इस्तेमाल करने से जुड़ी अलग-अलग सीमाओं और खास बातों के बारे में बताया गया है.
सेशन से जुड़ी सीमाएं
Live API के लिए, सेशन का मतलब है एक ऐसा कनेक्शन जो लगातार बना रहता है. इसमें इनपुट और आउटपुट, एक ही कनेक्शन पर लगातार स्ट्रीम किए जाते हैं.
अगर सेशन में, यहां दी गई सीमाओं में से किसी का भी उल्लंघन होता है, तो कनेक्शन बंद कर दिया जाता है.
कनेक्शन की अवधि करीब 10 मिनट तक सीमित होती है.
सेशन की अवधि, इनपुट के तरीकों पर निर्भर करती है:
- सिर्फ़ ऑडियो वाले इनपुट सेशन, 15 मिनट तक ही किए जा सकते हैं.
- वीडियो और ऑडियो इनपुट की अवधि दो मिनट से ज़्यादा नहीं होनी चाहिए.
सेशन कॉन्टेक्स्ट विंडो में ज़्यादा से ज़्यादा 1,28,000 टोकन हो सकते हैं.
तय सीमाएं
Live API में, हर Firebase प्रोजेक्ट के लिए एक साथ चल रहे सेशन और हर मिनट के टोकन (टीपीएम) की दर की सीमाएं होती हैं.
Gemini Developer API:
- सीमाएं, आपके प्रोजेक्ट के Gemini Developer API"इस्तेमाल के टियर" के आधार पर अलग-अलग होती हैं. इसके बारे में जानने के लिए, दर की सीमाओं से जुड़ा दस्तावेज़ देखें
Vertex AI Gemini API:
- हर Firebase प्रोजेक्ट के लिए, एक साथ 1,000 सेशन
- हर मिनट 40 लाख टोकन
ऑडियो फ़ॉर्मैट
Live API फ़ंक्शन इन ऑडियो फ़ॉर्मैट के साथ काम करता है:
- इनपुट ऑडियो फ़ॉर्मैट: रॉ 16 बिट पीसीएम ऑडियो, 16 किलोहर्ट्ज़ लिटिल-एंडियन पर
आउटपुट ऑडियो फ़ॉर्मैट: रॉ 16 बिट पीसीएम ऑडियो, 24 किलोहर्ट्ज़ लिटिल-एंडियन पर
इस्तेमाल किए जा सकने वाले MIME टाइप:
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
इनपुट ऑडियो की सैंपल दर बताने के लिए, ऑडियो वाले हर Blob का MIME टाइप, audio/pcm;rate=16000 जैसी वैल्यू पर सेट करें.
वीडियो फ़ॉर्मैट
Live API को अलग-अलग इमेज फ़्रेम के क्रम की ज़रूरत होती है. साथ ही, यह एक फ़्रेम प्रति सेकंड (एफ़पीएस) पर वीडियो फ़्रेम के इनपुट को सपोर्ट करता है.
सुझाया गया इनपुट: नेटिव 768x768 रिज़ॉल्यूशन पर 1 एफ़पीएस.
इस्तेमाल किए जा सकने वाले MIME टाइप:
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
ध्यान दें कि इस स्पेसिफ़िकेशन की वजह से, Live API उन इस्तेमाल के उदाहरणों के लिए सही नहीं है जिनमें तेज़ी से बदलते वीडियो का विश्लेषण करना होता है. जैसे, हाई-स्पीड स्पोर्ट्स में प्ले-बाय-प्ले.
जवाब देने के लिए आवाज़ें
Live API में, जवाब देने के लिए आवाज़ के ये विकल्प उपलब्ध हैं. हर आवाज़ कैसी लगती है, इसके डेमो देखने के लिए Chirp 3: एचडी क्वालिटी वाली आवाज़ें पर जाएं.
अगर आपने जवाब देने के लिए कोई आवाज़ नहीं चुनी है, तो डिफ़ॉल्ट रूप से Puck का इस्तेमाल किया जाएगा.
जवाब देने के लिए आवाज़ तय करने का तरीका जानें.
Zephyr -- ब्राइटKore -- फ़र्मOrus -- फ़र्मAutonoe -- ब्राइटUmbriel -- ईज़ी-गोइंगErinome -- क्लियरLaomedeia -- अपबीटSchedar -- इवनAchird -- फ़्रेंडलीSadachbia -- लाइवली
|
Puck -- खुशमिज़ाजFenrir -- उत्साहीAoede -- हल्की-फुल्कीEnceladus -- धीमीAlgieba -- शांतAlgenib -- भारीAchernar -- नरमGacrux -- समझदारZubenelgenubi -- अनौपचारिकSadaltager -- जानकार
|
Charon -- जानकारी देने वालीLeda -- युवाओं के लिएCallirrhoe -- आसानIapetus -- साफ़ तौर परDespina -- स्मूदRasalgethi -- जानकारी देने वालीAlnilam -- सटीकPulcherrima -- आगे बढ़ने के लिएVindemiatrix -- सहानुभूति दिखाने वालीSulafat -- दोस्ताना
|
भाषाएं
Live API में इन भाषाओं का इस्तेमाल किया जा सकता है. जवाब की भाषा को अपनी पसंद के मुताबिक सेट करने का तरीका जानें.
| भाषा | BCP-47 कोड | भाषा | BCP-47 कोड |
|---|---|---|---|
| ऐरेबिक (मिस्र) | ar-EG | जर्मन (जर्मनी) | de-DE |
| अंग्रेज़ी (यूएस) | en-US | स्पेनिश (यूएस) | es-US |
| फ़्रांसीसी (फ़्रांस) | fr-FR | हिन्दी (भारत) | hi-IN |
| इंडोनेशियन (इंडोनेशिया) | id-ID | इतालवी (इटली) | it-IT |
| जैपनीज़ (जापान) | ja-JP | कोरियन (कोरिया) | ko-KR |
| पॉर्चुगीज़ (ब्राज़ील) | pt-BR | रूसी (रूस) | ru-RU |
| डच (नीदरलैंड्स) | nl-NL | पोलिश (पोलैंड) | pl-PL |
| थाई (थाईलैंड) | th-TH | टर्किश (तुर्की) | tr-TR |
| वियतनामीज़ (वियतनाम) | vi-VN | रोमेनियन (रोमानिया) | ro-RO |
| यूक्रेनियन (यूक्रेन) | uk-UA | बांग्ला (बांग्लादेश) | bn-BD |
| अंग्रेज़ी (भारत) | en-IN और hi-IN बंडल | मराठी (भारत) | mr-IN |
| तमिल (भारत) | ta-IN | तेलुगु (भारत) | te-IN |