इसका इस्तेमाल करके अपने ऐप्लिकेशन से Vertex AI Gemini API को कॉल करते समय Vertex AI in Firebase SDK टूल, Gemini मॉडल को टेक्स्ट जनरेट करने के लिए कहा जा सकता है जो मल्टीमोडल इनपुट के हिसाब से हो. मल्टीमोडल प्रॉम्प्ट में कई विकल्प हो सकते हैं (या इनपुट के टाइप). जैसे, इमेज के साथ-साथ टेक्स्ट, PDF, वीडियो, और ऑडियो.
इनपुट के बिना टेक्स्ट वाले हिस्सों (जैसे, मीडिया फ़ाइलें) के लिए, आपको समर्थित फ़ाइल प्रकार, एक समर्थित MIME प्रकार निर्दिष्ट करें, और सुनिश्चित करें कि फ़ाइलें और मल्टीमोडल अनुरोध ज़रूरी शर्तों को पूरा करते हों और सबसे सही तरीकों का पालन करते हों.
इस पेज पर, इनके लिए इस्तेमाल किए जा सकने वाले MIME टाइप, सबसे सही तरीके, और सीमाओं के बारे में बताया गया है:
Vertex AI in Firebase SDK टूल के लिए ज़रूरी शर्तें
Vertex AI in Firebase SDK टूल के लिए, अनुरोध का कुल साइज़ ज़्यादा से ज़्यादा 20 एमबी हो सकता है. अगर कोई अनुरोध बहुत बड़ा होता है, तो आपको HTTP 413 गड़बड़ी मिलती है.
अगर किसी फ़ाइल का साइज़, अनुरोध की कुल संख्या 20 एमबी से ज़्यादा हो जाएगा, तो मल्टीमॉडल अनुरोध में फ़ाइल को शामिल करने के लिए, Cloud Storage for Firebase के यूआरएल का इस्तेमाल करें.
अगर कोई फ़ाइल छोटी है, तो उसे सीधे इनलाइन डेटा के तौर पर भेजा जा सकता है. हालांकि, इनलाइन डेटा के तौर पर दी गई फ़ाइल को base64 में एन्कोड किया जाता है ट्रांज़िट, जो अनुरोध के साइज़ को बढ़ा देती है. फ़ाइलों को इनलाइन डेटा के तौर पर शामिल करने का तरीका जानने के लिए, Gemini API का इस्तेमाल करके, अलग-अलग तरह के प्रॉम्प्ट से टेक्स्ट जनरेट करना लेख पढ़ें.
इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
इमेज: ज़रूरी शर्तें
इस सेक्शन में, हर अनुरोध के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें इमेज.
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini के मल्टीमोडल मॉडल, इमेज के इन एमआईएमई टाइप के साथ काम करते हैं:
इमेज का MIME टाइप | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro विज़न |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
|||
WebP - image/webp |
हर अनुरोध के लिए सीमाएं
किसी इमेज में कितने पिक्सल हो सकते हैं, इसकी कोई तय सीमा नहीं है. हालांकि, बड़ी इमेज को छोटा किया जाता है और 3072 x के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट करने के लिए पैड किया जाता है 3072 और उसके ओरिजनल आसपेक्ट रेशियो (लंबाई-चौड़ाई का अनुपात) में ही बदलाव होगा.
प्रॉम्प्ट अनुरोध में, ज़्यादा से ज़्यादा इतनी इमेज फ़ाइलें जोड़ी जा सकती हैं:
- Gemini 1.0 Pro Vision: 16 इमेज
- Gemini 1.5 Flash और Gemini 1.5 Pro: 3,000 इमेज
इमेज: टोकनाइज़ेशन
इमेज के लिए टोकन का हिसाब लगाने का तरीका यहां बताया गया है:
- Gemini 1.0 Pro Vision: हर इमेज के बारे में जानकारी 258 टोकन के लिए.
- Gemini 1.5 Flash और
Gemini 1.5 Pro:
- अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल या उससे कम हैं, तब 258 टोकन इस्तेमाल किए जाते हैं.
- अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में काट दिया गया है. हर टाइल का डिफ़ॉल्ट साइज़ सबसे छोटा होता है डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलने वाली संख्या. अगर ज़रूरी हो, तो हर टाइल अडजस्ट किया गया है, ताकि यह 256 पिक्सल से छोटा न हो और इससे ज़्यादा न हो 768 पिक्सल. इसके बाद, हर टाइल का साइज़ बदलकर 768x768 किया जाता है. इसमें 258 टोकन इस्तेमाल किए जाते हैं.
इमेज: सबसे सही तरीके
इमेज का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:
- अगर आपको किसी इमेज में टेक्स्ट का पता लगाना है, तो एक इमेज वाले प्रॉम्प्ट का इस्तेमाल करें. इससे, कई इमेज वाले प्रॉम्प्ट के मुकाबले बेहतर नतीजे मिलेंगे.
- अगर आपके प्रॉम्प्ट में एक ही इमेज है, तो इमेज को टेक्स्ट से पहले रखें प्रॉम्प्ट शामिल करें.
- अगर आपके प्रॉम्प्ट में कई इमेज हैं और आपको उनके बारे में जानना है, तो
या फिर मॉडल से मॉडल को मिले जवाब में उन्हें रेफ़र करने के लिए कहें,
इससे हर इमेज को इमेज से पहले एक इंडेक्स देने में मदद मिल सकती है. अपने इंडेक्स के लिए,
याa
b
c
का इस्तेमाल करें. यहां, प्रॉम्प्ट में इंडेक्स की गई इमेज इस्तेमाल करने का उदाहरण दिया गया है:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - हाई रिज़ॉल्यूशन वाली इमेज का इस्तेमाल करें. इससे बेहतर नतीजे मिलते हैं.
- प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
- इमेज को इमेज के सही ओरिएंटेशन में जोड़ने से पहले, इमेज को सही दिशा में घुमाएं प्रॉम्प्ट.
- धुंधली इमेज अपलोड न करें.
इमेज: सीमाएं
Gemini के मल्टीमोडल मॉडल कई तरह से मल्टीमॉडल इस्तेमाल करने में कारगर होते हैं इसलिए, मॉडल की सीमाओं को समझना ज़रूरी है:
- कॉन्टेंट मॉडरेशन: मॉडल, जवाब देने से मना करते हैं उन इमेज के लिए जो हमारी सुरक्षा नीतियों का उल्लंघन करती हैं.
- स्पेशल रीज़निंग: मॉडल, जगह की सटीक जानकारी का पता नहीं लगा पाते इमेज में मौजूद टेक्स्ट या चीज़ें. हो सकता है कि ये सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
- इलाज में इस्तेमाल: मॉडल, जानकारी देने के लिए सही नहीं हैं चिकित्सा से जुड़ी इमेज (उदाहरण के लिए, एक्स-रे और सीटी स्कैन) या इलाज से जुड़ी जानकारी देना सलाह.
- लोगों की पहचान करना: मॉडल का इस्तेमाल इन कामों के लिए नहीं किया जाना चाहिए उन लोगों की पहचान करें जो इमेज में मौजूद मशहूर हस्ती नहीं हैं.
- सटीक काम करना: मॉडल, आपको सही जानकारी दे सकते हैं या उनसे ग़लतियाँ हो सकती हैं का इस्तेमाल करते हैं. इमेज वाले दस्तावेज़ों में, हाथ से लिखे गए टेक्स्ट का अनुवाद करते समय भी मॉडल गलत नतीजे दे सकते हैं.
वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
वीडियो: ज़रूरी शर्तें
इस सेक्शन में, हर अनुरोध के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें वीडियो.
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini के मल्टीमोडल मॉडल, वीडियो के इन MIME टाइप के साथ काम करते हैं:
वीडियो MIME टाइप | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
एमपीईजी - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
एमपीजी - video/mpg |
|||
MP4 - video/mp4 |
|||
WebM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
हर अनुरोध के लिए सीमाएं
एक बार में ज़्यादा से ज़्यादा इतनी वीडियो फ़ाइलें अपलोड की जा सकती हैं:
- Gemini 1.0 Pro Vision: एक वीडियो फ़ाइल
- Gemini 1.5 Flash और Gemini 1.5 Pro: 10 वीडियो फ़ाइलें
वीडियो: टोकनाइज़ेशन
वीडियो के लिए टोकन की गिनती करने का तरीका यहां बताया गया है:
- Gemini के सभी मल्टीमॉडल मॉडल: वीडियो को
एक फ़्रेम प्रति सेकंड (fps) पर सैंपल किया जाता है. हर वीडियो फ़्रेम की वैल्यू 258 होती है टोकन. - Gemini 1.5 Flash और
Gemini 1.5 Pro: ऑडियो ट्रैक को कोड में बदला गया है
वीडियो फ़्रेम सेट अप करें. ऑडियो ट्रैक को भी
1-सेकंड वाले ट्रंक जो हर 32 टोकन के लिए हैं. वीडियो फ़्रेम और ऑडियो टोकन को उनके टाइमस्टैंप के साथ इंटरलीव किया जाता है. कॉन्टेंट बनाने टाइमस्टैंप, सात टोकन के तौर पर दिखाए जाते हैं.
वीडियो: सबसे सही तरीके
वीडियो का इस्तेमाल करते समय, सबसे सही तरीकों और जानकारी का इस्तेमाल करके सबसे बेहतर नतीजे पाएं:
- अगर प्रॉम्प्ट में एक वीडियो है, तो वीडियो को टेक्स्ट से पहले रखें प्रॉम्प्ट.
- अगर आपको ऑडियो वाले वीडियो में टाइमस्टैंप का स्थानीय भाषा में अनुवाद चाहिए, तो मॉडल को
MM:SS
फ़ॉर्मैट में टाइमस्टैंप जनरेट करने के लिए कहें. इस फ़ॉर्मैट में, पहले दो अंक मिनट और आखिरी दो अंक सेकंड दिखाते हैं. टाइमस्टैंप के बारे में पूछने वाले सवालों के लिए, उसी फ़ॉर्मैट का इस्तेमाल करें. Gemini 1.0 Pro Vision का इस्तेमाल करने पर, इन बातों का ध्यान रखें:
- एक प्रॉम्प्ट में एक से ज़्यादा वीडियो का इस्तेमाल न करें.
- मॉडल, वीडियो के सिर्फ़ पहले दो मिनट में मौजूद जानकारी को प्रोसेस करता है.
- यह मॉडल, वीडियो को प्रोसेस करने के लिए, वीडियो. इसमें ऑडियो शामिल नहीं होता. अगर आपको लगता है कि मॉडल में कुछ वीडियो के कॉन्टेंट को छोटा करें, ताकि मॉडल वीडियो कॉन्टेंट के बड़े हिस्से को कैप्चर करता हो.
- मॉडल, ऑडियो से जुड़ी किसी भी जानकारी या टाइमस्टैंप को प्रोसेस नहीं करता मेटाडेटा. इस वजह से, हो सकता है कि मॉडल उन इस्तेमाल के उदाहरणों में अच्छा परफ़ॉर्म न करे जिनमें ऑडियो इनपुट की ज़रूरत होती है. जैसे, ऑडियो को कैप्शन में बदलना या समय से जुड़ी जानकारी, जैसे कि स्पीड या लय.
वीडियो: सीमाएं
Gemini के मल्टीमोडल मॉडल कई तरह से मल्टीमॉडल इस्तेमाल करने में कारगर होते हैं इसलिए, मॉडल की सीमाओं को समझना ज़रूरी है:
- कॉन्टेंट मॉडरेशन: मॉडल, जवाब देने से मना करते हैं जो हमारी सुरक्षा नीतियों का उल्लंघन करते हैं.
- बोली न जाने वाली आवाज़ की पहचान करना: Assistant के साथ काम करने वाले मॉडल ऑडियो की वजह से, गैर-बोली की आवाज़ पहचानने में गलती हो सकती है.
- हाई-स्पीड मोशन: मॉडल की मदद से गलतियां हो सकती हैं
तय की गई वैल्यू की वजह से वीडियो में होने वाली हाई-स्पीड मोशन के बारे में समझना
1 फ़्रेम प्रति सेकंड (फ़्रेम प्रति सेकंड) सैंपलिंग रेट. - ट्रांसक्रिप्शन में विराम चिह्न: (अगर Gemini 1.5 Flash का इस्तेमाल किया जा रहा है) हो सकता है कि मॉडल, ऐसे ट्रांसक्रिप्शन दिखाएं जिनमें विराम चिह्न शामिल न हों.
ऑडियो: ज़रूरी शर्तें और सीमाएं
ऑडियो: ज़रूरी शर्तें
इस सेक्शन में, हर अनुरोध के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें ऑडियो.
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini के मल्टीमोडल मॉडल, ऑडियो के इन MIME टाइप के साथ काम करते हैं:
ऑडियो MIME टाइप | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
एएसी - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
एमपीए - audio/m4a |
||
एमपीईजी - audio/mpeg |
||
एमपीजीए - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
पीसीएम - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
हर अनुरोध के लिए सीमाएं
प्रॉम्प्ट के अनुरोध में, ज़्यादा से ज़्यादा
ऑडियो: सीमाएं
Gemini के मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- बोली न जाने वाली आवाज़ की पहचान करना: Assistant के साथ काम करने वाले मॉडल ऑडियो की वजह से, गैर-बोली की आवाज़ पहचानने में गलती हो सकती है.
- सिर्फ़ ऑडियो वाले टाइमस्टैंप: सिर्फ़ ऑडियो वाली फ़ाइलों के लिए सटीक टाइमस्टैंप जनरेट करने के लिए, आपको
generation_config
मेंaudio_timestamp
पैरामीटर कॉन्फ़िगर करना होगा. - ट्रांसक्रिप्शन में विराम चिह्न: (अगर Gemini 1.5 Flash का इस्तेमाल किया जा रहा है) हो सकता है कि मॉडल, ऐसे ट्रांसक्रिप्शन दिखाएं जिनमें विराम चिह्न शामिल न हों.
दस्तावेज़ (जैसे, PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
दस्तावेज़: ज़रूरी शर्तें
इस सेक्शन में, काम करने वाले MIME टाइप और दस्तावेज़ों (जैसे, PDF) के लिए हर अनुरोध की सीमाओं के बारे में जानें.
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini के मल्टीमोडल मॉडल, दस्तावेज़ के इन MIME टाइप के साथ काम करते हैं:
दस्तावेज़ का MIME टाइप | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro विज़न |
---|---|---|---|
PDF - application/pdf |
|||
टेक्स्ट - text/plain |
हर अनुरोध के लिए सीमाएं
PDF फ़ाइलों को इमेज के तौर पर माना जाता है. इसलिए, PDF के एक पेज को एक इमेज माना जाता है. प्रॉम्प्ट में पेजों की संख्या, उन इमेज की संख्या तक सीमित होती है जिनका इस्तेमाल मॉडल कर सकता है:
- Gemini 1.0 Pro Vision: 16 पेज
- Gemini 1.5 Pro और Gemini 1.5 Flash: 1,000 पेज
दस्तावेज़: टोकनाइज़ेशन
PDF टोकनाइज़ेशन
PDF को इमेज माना जाता है. इसलिए, PDF का हर पेज एक ही बनाएगी.
साथ ही, PDF की कीमत, Gemini की इमेज की कीमत के हिसाब से तय की जाती है. उदाहरण के लिए, Gemini API कॉल में दो पेज की PDF फ़ाइल शामिल करने पर दो इमेज को प्रोसेस करने के लिए, इनपुट शुल्क देना पड़ता है.
सामान्य टेक्स्ट को टोकन में बदलना
सादे टेक्स्ट वाले दस्तावेज़ों को टेक्स्ट के तौर पर टोकन किया जाता है. उदाहरण के लिए, अगर आपने 100 शब्दों का सादा टेक्स्ट शामिल किया है तो आपको 100 शब्दों की प्रोसेसिंग के लिए इनपुट शुल्क देना पड़ता है.
दस्तावेज़: सबसे सही तरीके
PDF का इस्तेमाल करते समय, सर्वोत्तम परिणाम:
- अगर आपके प्रॉम्प्ट में एक PDF है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले PDF को रखें.
- अगर आपके पास बड़ा दस्तावेज़ है, तो उसे कई PDF में बांट दें उसे प्रोसेस करने के लिए.
- जिन PDF फ़ाइलों में टेक्स्ट को रेंडर किया जाता है उन्हें स्कैन की गई इमेज. इस फ़ॉर्मैट से यह पक्का होता है कि टेक्स्ट को मशीन से पढ़ा जा सकता है, ताकि यह इससे मॉडल को स्कैन करने की तुलना में, उसमें बदलाव करना, उसे खोजना, और उसमें बदलाव करना ज़्यादा आसान लगता है चित्र PDF. कॉन्ट्रैक्ट जैसे ज़्यादा टेक्स्ट वाले दस्तावेज़ों पर काम करते समय, यह तरीका सबसे बेहतर नतीजे देता है.
दस्तावेज़: सीमाएं
Gemini के मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- स्पेशल रीज़निंग: ये मॉडल, पीडीएफ़ में टेक्स्ट या ऑब्जेक्ट की सटीक जगह का पता नहीं लगा पाते. हो सकता है कि ये सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
- सटीक जानकारी: PDF दस्तावेज़ों में, हाथ से लिखे गए टेक्स्ट को समझने के दौरान, मॉडल गलत जानकारी दे सकते हैं.