Vertex AI Gemini API के साथ काम करने वाली इनपुट फ़ाइलें और ज़रूरी शर्तें

इसका इस्तेमाल करके अपने ऐप्लिकेशन से Vertex AI Gemini API को कॉल करते समय Vertex AI in Firebase SDK टूल, Gemini मॉडल को टेक्स्ट जनरेट करने के लिए कहा जा सकता है जो मल्टीमोडल इनपुट के हिसाब से हो. मल्टीमोडल प्रॉम्प्ट में कई विकल्प हो सकते हैं (या इनपुट के टाइप). जैसे, इमेज के साथ-साथ टेक्स्ट, PDF, वीडियो, और ऑडियो.

इनपुट के बिना टेक्स्ट वाले हिस्सों (जैसे, मीडिया फ़ाइलें) के लिए, आपको समर्थित फ़ाइल प्रकार, एक समर्थित MIME प्रकार निर्दिष्ट करें, और सुनिश्चित करें कि फ़ाइलें और मल्टीमोडल अनुरोध ज़रूरी शर्तों को पूरा करते हों और सबसे सही तरीकों का पालन करते हों.

इस पेज पर, इनके लिए इस्तेमाल किए जा सकने वाले MIME टाइप, सबसे सही तरीके, और सीमाओं के बारे में बताया गया है:

Vertex AI in Firebase SDK टूल के लिए ज़रूरी शर्तें

Vertex AI in Firebase SDK टूल के लिए, अनुरोध का कुल साइज़ ज़्यादा से ज़्यादा 20 एमबी हो सकता है. अगर कोई अनुरोध बहुत बड़ा होता है, तो आपको HTTP 413 गड़बड़ी मिलती है.



इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

इमेज: ज़रूरी शर्तें

इस सेक्शन में, हर अनुरोध के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें इमेज.

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini के मल्टीमोडल मॉडल, इमेज के इन एमआईएमई टाइप के साथ काम करते हैं:

इमेज का MIME टाइप Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro विज़न
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

हर अनुरोध के लिए सीमाएं

किसी इमेज में कितने पिक्सल हो सकते हैं, इसकी कोई तय सीमा नहीं है. हालांकि, बड़ी इमेज को छोटा किया जाता है और 3072 x के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट करने के लिए पैड किया जाता है 3072 और उसके ओरिजनल आसपेक्ट रेशियो (लंबाई-चौड़ाई का अनुपात) में ही बदलाव होगा.

प्रॉम्प्ट अनुरोध में, ज़्यादा से ज़्यादा इतनी इमेज फ़ाइलें जोड़ी जा सकती हैं:

  • Gemini 1.0 Pro Vision: 16 इमेज
  • Gemini 1.5 Flash और Gemini 1.5 Pro: 3,000 इमेज

इमेज: टोकनाइज़ेशन

इमेज के लिए टोकन का हिसाब लगाने का तरीका यहां बताया गया है:

  • Gemini 1.0 Pro Vision: हर इमेज के बारे में जानकारी 258 टोकन के लिए.
  • Gemini 1.5 Flash और Gemini 1.5 Pro:
    • अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल या उससे कम हैं, तब 258 टोकन इस्तेमाल किए जाते हैं.
    • अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में काट दिया गया है. हर टाइल का डिफ़ॉल्ट साइज़ सबसे छोटा होता है डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलने वाली संख्या. अगर ज़रूरी हो, तो हर टाइल अडजस्ट किया गया है, ताकि यह 256 पिक्सल से छोटा न हो और इससे ज़्यादा न हो 768 पिक्सल. इसके बाद, हर टाइल का साइज़ बदलकर 768x768 किया जाता है. इसमें 258 टोकन इस्तेमाल किए जाते हैं.

इमेज: सबसे सही तरीके

इमेज का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

  • अगर आपको किसी इमेज में टेक्स्ट का पता लगाना है, तो एक इमेज वाले प्रॉम्प्ट का इस्तेमाल करें. इससे, कई इमेज वाले प्रॉम्प्ट के मुकाबले बेहतर नतीजे मिलेंगे.
  • अगर आपके प्रॉम्प्ट में एक ही इमेज है, तो इमेज को टेक्स्ट से पहले रखें प्रॉम्प्ट शामिल करें.
  • अगर आपके प्रॉम्प्ट में कई इमेज हैं और आपको उनके बारे में जानना है, तो या फिर मॉडल से मॉडल को मिले जवाब में उन्हें रेफ़र करने के लिए कहें, इससे हर इमेज को इमेज से पहले एक इंडेक्स देने में मदद मिल सकती है. अपने इंडेक्स के लिए, a b c या image 1 image 2 image 3 का इस्तेमाल करें. यहां, प्रॉम्प्ट में इंडेक्स की गई इमेज इस्तेमाल करने का उदाहरण दिया गया है:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • हाई रिज़ॉल्यूशन वाली इमेज का इस्तेमाल करें. इससे बेहतर नतीजे मिलते हैं.
  • प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
  • इमेज को इमेज के सही ओरिएंटेशन में जोड़ने से पहले, इमेज को सही दिशा में घुमाएं प्रॉम्प्ट.
  • धुंधली इमेज अपलोड न करें.

इमेज: सीमाएं

Gemini के मल्टीमोडल मॉडल कई तरह से मल्टीमॉडल इस्तेमाल करने में कारगर होते हैं इसलिए, मॉडल की सीमाओं को समझना ज़रूरी है:

  • कॉन्टेंट मॉडरेशन: मॉडल, जवाब देने से मना करते हैं उन इमेज के लिए जो हमारी सुरक्षा नीतियों का उल्लंघन करती हैं.
  • स्पेशल रीज़निंग: मॉडल, जगह की सटीक जानकारी का पता नहीं लगा पाते इमेज में मौजूद टेक्स्ट या चीज़ें. हो सकता है कि ये सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
  • इलाज में इस्तेमाल: मॉडल, जानकारी देने के लिए सही नहीं हैं चिकित्सा से जुड़ी इमेज (उदाहरण के लिए, एक्स-रे और सीटी स्कैन) या इलाज से जुड़ी जानकारी देना सलाह.
  • लोगों की पहचान करना: मॉडल का इस्तेमाल इन कामों के लिए नहीं किया जाना चाहिए उन लोगों की पहचान करें जो इमेज में मौजूद मशहूर हस्ती नहीं हैं.
  • सटीक काम करना: मॉडल, आपको सही जानकारी दे सकते हैं या उनसे ग़लतियाँ हो सकती हैं का इस्तेमाल करते हैं. इमेज वाले दस्तावेज़ों में, हाथ से लिखे गए टेक्स्ट का अनुवाद करते समय भी मॉडल गलत नतीजे दे सकते हैं.



वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

वीडियो: ज़रूरी शर्तें

इस सेक्शन में, हर अनुरोध के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें वीडियो.

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini के मल्टीमोडल मॉडल, वीडियो के इन MIME टाइप के साथ काम करते हैं:

वीडियो MIME टाइप Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
MOV - video/quicktime
एमपीईजी - video/mpeg
MPEGPS - video/mpegps
एमपीजी - video/mpg
MP4 - video/mp4
WebM - video/webm
WMV - video/wmv
3GPP - video/3gpp

हर अनुरोध के लिए सीमाएं

एक बार में ज़्यादा से ज़्यादा इतनी वीडियो फ़ाइलें अपलोड की जा सकती हैं:

  • Gemini 1.0 Pro Vision: एक वीडियो फ़ाइल
  • Gemini 1.5 Flash और Gemini 1.5 Pro: 10 वीडियो फ़ाइलें

वीडियो: टोकनाइज़ेशन

वीडियो के लिए टोकन की गिनती करने का तरीका यहां बताया गया है:

  • Gemini के सभी मल्टीमॉडल मॉडल: वीडियो को एक फ़्रेम प्रति सेकंड (fps) पर सैंपल किया जाता है. हर वीडियो फ़्रेम की वैल्यू 258 होती है टोकन.
  • Gemini 1.5 Flash और Gemini 1.5 Pro: ऑडियो ट्रैक को कोड में बदला गया है वीडियो फ़्रेम सेट अप करें. ऑडियो ट्रैक को भी 1-सेकंड वाले ट्रंक जो हर 32 टोकन के लिए हैं. वीडियो फ़्रेम और ऑडियो टोकन को उनके टाइमस्टैंप के साथ इंटरलीव किया जाता है. कॉन्टेंट बनाने टाइमस्टैंप, सात टोकन के तौर पर दिखाए जाते हैं.

वीडियो: सबसे सही तरीके

वीडियो का इस्तेमाल करते समय, सबसे सही तरीकों और जानकारी का इस्तेमाल करके सबसे बेहतर नतीजे पाएं:

  • अगर प्रॉम्प्ट में एक वीडियो है, तो वीडियो को टेक्स्ट से पहले रखें प्रॉम्प्ट.
  • अगर आपको ऑडियो वाले वीडियो में टाइमस्टैंप का स्थानीय भाषा में अनुवाद चाहिए, तो मॉडल को MM:SS फ़ॉर्मैट में टाइमस्टैंप जनरेट करने के लिए कहें. इस फ़ॉर्मैट में, पहले दो अंक मिनट और आखिरी दो अंक सेकंड दिखाते हैं. टाइमस्टैंप के बारे में पूछने वाले सवालों के लिए, उसी फ़ॉर्मैट का इस्तेमाल करें.
  • Gemini 1.0 Pro Vision का इस्तेमाल करने पर, इन बातों का ध्यान रखें:

    • एक प्रॉम्प्ट में एक से ज़्यादा वीडियो का इस्तेमाल न करें.
    • मॉडल, वीडियो के सिर्फ़ पहले दो मिनट में मौजूद जानकारी को प्रोसेस करता है.
    • यह मॉडल, वीडियो को प्रोसेस करने के लिए, वीडियो. इसमें ऑडियो शामिल नहीं होता. अगर आपको लगता है कि मॉडल में कुछ वीडियो के कॉन्टेंट को छोटा करें, ताकि मॉडल वीडियो कॉन्टेंट के बड़े हिस्से को कैप्चर करता हो.
    • मॉडल, ऑडियो से जुड़ी किसी भी जानकारी या टाइमस्टैंप को प्रोसेस नहीं करता मेटाडेटा. इस वजह से, हो सकता है कि मॉडल उन इस्तेमाल के उदाहरणों में अच्छा परफ़ॉर्म न करे जिनमें ऑडियो इनपुट की ज़रूरत होती है. जैसे, ऑडियो को कैप्शन में बदलना या समय से जुड़ी जानकारी, जैसे कि स्पीड या लय.

वीडियो: सीमाएं

Gemini के मल्टीमोडल मॉडल कई तरह से मल्टीमॉडल इस्तेमाल करने में कारगर होते हैं इसलिए, मॉडल की सीमाओं को समझना ज़रूरी है:

  • कॉन्टेंट मॉडरेशन: मॉडल, जवाब देने से मना करते हैं जो हमारी सुरक्षा नीतियों का उल्लंघन करते हैं.
  • बोली न जाने वाली आवाज़ की पहचान करना: Assistant के साथ काम करने वाले मॉडल ऑडियो की वजह से, गैर-बोली की आवाज़ पहचानने में गलती हो सकती है.
  • हाई-स्पीड मोशन: मॉडल की मदद से गलतियां हो सकती हैं तय की गई वैल्यू की वजह से वीडियो में होने वाली हाई-स्पीड मोशन के बारे में समझना 1 फ़्रेम प्रति सेकंड (फ़्रेम प्रति सेकंड) सैंपलिंग रेट.
  • ट्रांसक्रिप्शन में विराम चिह्न: (अगर Gemini 1.5 Flash का इस्तेमाल किया जा रहा है) हो सकता है कि मॉडल, ऐसे ट्रांसक्रिप्शन दिखाएं जिनमें विराम चिह्न शामिल न हों.



ऑडियो: ज़रूरी शर्तें और सीमाएं

ऑडियो: ज़रूरी शर्तें

इस सेक्शन में, हर अनुरोध के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें ऑडियो.

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini के मल्टीमोडल मॉडल, ऑडियो के इन MIME टाइप के साथ काम करते हैं:

ऑडियो MIME टाइप Gemini 1.5 Flash Gemini 1.5 Pro
एएसी - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
एमपीए - audio/m4a
एमपीईजी - audio/mpeg
एमपीजीए - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
पीसीएम - audio/pcm
WAV - audio/wav
WEBM - audio/webm

हर अनुरोध के लिए सीमाएं

प्रॉम्प्ट के अनुरोध में, ज़्यादा से ज़्यादा एक ऑडियो फ़ाइल शामिल की जा सकती है.

ऑडियो: सीमाएं

Gemini के मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • बोली न जाने वाली आवाज़ की पहचान करना: Assistant के साथ काम करने वाले मॉडल ऑडियो की वजह से, गैर-बोली की आवाज़ पहचानने में गलती हो सकती है.
  • सिर्फ़ ऑडियो वाले टाइमस्टैंप: सिर्फ़ ऑडियो वाली फ़ाइलों के लिए सटीक टाइमस्टैंप जनरेट करने के लिए, आपको generation_config में audio_timestamp पैरामीटर कॉन्फ़िगर करना होगा.
  • ट्रांसक्रिप्शन में विराम चिह्न: (अगर Gemini 1.5 Flash का इस्तेमाल किया जा रहा है) हो सकता है कि मॉडल, ऐसे ट्रांसक्रिप्शन दिखाएं जिनमें विराम चिह्न शामिल न हों.



दस्तावेज़ (जैसे, PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

दस्तावेज़: ज़रूरी शर्तें

इस सेक्शन में, काम करने वाले MIME टाइप और दस्तावेज़ों (जैसे, PDF) के लिए हर अनुरोध की सीमाओं के बारे में जानें.

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini के मल्टीमोडल मॉडल, दस्तावेज़ के इन MIME टाइप के साथ काम करते हैं:

दस्तावेज़ का MIME टाइप Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro विज़न
PDF - application/pdf
टेक्स्ट - text/plain

हर अनुरोध के लिए सीमाएं

PDF फ़ाइलों को इमेज के तौर पर माना जाता है. इसलिए, PDF के एक पेज को एक इमेज माना जाता है. प्रॉम्प्ट में पेजों की संख्या, उन इमेज की संख्या तक सीमित होती है जिनका इस्तेमाल मॉडल कर सकता है:

  • Gemini 1.0 Pro Vision: 16 पेज
  • Gemini 1.5 Pro और Gemini 1.5 Flash: 1,000 पेज

दस्तावेज़: टोकनाइज़ेशन

PDF टोकनाइज़ेशन

PDF को इमेज माना जाता है. इसलिए, PDF का हर पेज एक ही बनाएगी.

साथ ही, PDF की कीमत, Gemini की इमेज की कीमत के हिसाब से तय की जाती है. उदाहरण के लिए, Gemini API कॉल में दो पेज की PDF फ़ाइल शामिल करने पर दो इमेज को प्रोसेस करने के लिए, इनपुट शुल्क देना पड़ता है.

सामान्य टेक्स्ट को टोकन में बदलना

सादे टेक्स्ट वाले दस्तावेज़ों को टेक्स्ट के तौर पर टोकन किया जाता है. उदाहरण के लिए, अगर आपने 100 शब्दों का सादा टेक्स्ट शामिल किया है तो आपको 100 शब्दों की प्रोसेसिंग के लिए इनपुट शुल्क देना पड़ता है.

दस्तावेज़: सबसे सही तरीके

PDF का इस्तेमाल करते समय, सर्वोत्तम परिणाम:

  • अगर आपके प्रॉम्प्ट में एक PDF है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले PDF को रखें.
  • अगर आपके पास बड़ा दस्तावेज़ है, तो उसे कई PDF में बांट दें उसे प्रोसेस करने के लिए.
  • जिन PDF फ़ाइलों में टेक्स्ट को रेंडर किया जाता है उन्हें स्कैन की गई इमेज. इस फ़ॉर्मैट से यह पक्का होता है कि टेक्स्ट को मशीन से पढ़ा जा सकता है, ताकि यह इससे मॉडल को स्कैन करने की तुलना में, उसमें बदलाव करना, उसे खोजना, और उसमें बदलाव करना ज़्यादा आसान लगता है चित्र PDF. कॉन्ट्रैक्ट जैसे ज़्यादा टेक्स्ट वाले दस्तावेज़ों पर काम करते समय, यह तरीका सबसे बेहतर नतीजे देता है.

दस्तावेज़: सीमाएं

Gemini के मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • स्पेशल रीज़निंग: ये मॉडल, पीडीएफ़ में टेक्स्ट या ऑब्जेक्ट की सटीक जगह का पता नहीं लगा पाते. हो सकता है कि ये सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
  • सटीक जानकारी: PDF दस्तावेज़ों में, हाथ से लिखे गए टेक्स्ट को समझने के दौरान, मॉडल गलत जानकारी दे सकते हैं.