Vertex AI Gemini API के साथ काम करने वाली इनपुट फ़ाइलें और ज़रूरी शर्तें

इसका इस्तेमाल करके अपने ऐप्लिकेशन से Vertex AI Gemini API को कॉल करते समय Vertex AI in Firebase SDK टूल, Gemini मॉडल को टेक्स्ट जनरेट करने के लिए कहा जा सकता है जो मल्टीमोडल इनपुट के हिसाब से हो. मल्टीमोडल प्रॉम्प्ट में कई विकल्प हो सकते हैं (या इनपुट के टाइप). जैसे, इमेज के साथ-साथ टेक्स्ट, PDF, वीडियो, और ऑडियो.

इनपुट के बिना टेक्स्ट वाले हिस्सों (जैसे, मीडिया फ़ाइलें) के लिए, आपको समर्थित फ़ाइल प्रकार, एक समर्थित MIME प्रकार निर्दिष्ट करें, और सुनिश्चित करें कि फ़ाइलें और मल्टीमोडल अनुरोध ज़रूरी शर्तों को पूरा करते हों और सबसे सही तरीकों का पालन करते हों.

इस पेज पर, इस्तेमाल किए जा सकने वाले MIME टाइप, सबसे सही तरीकों, और सीमाओं के बारे में बताया गया है लागू होगा:

Vertex AI in Firebase SDK टूल से जुड़ी ज़रूरी शर्तें

Vertex AI in Firebase SDK टूल के लिए, ज़्यादा से ज़्यादा साइज़ इतना ही अनुरोध किया जा सकता है 20 एमबी हो. अगर कोई अनुरोध बहुत बड़ा होता है, तो आपको HTTP 413 गड़बड़ी मिलती है.



इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

इमेज: ज़रूरी शर्तें

इस सेक्शन में, हर अनुरोध के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें इमेज.

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini के मल्टीमोडल मॉडल, इन इमेज MIME टाइप के साथ काम करते हैं:

इमेज MIME टाइप Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro विज़न
PNG - image/png
JPEG - image/jpeg

हर अनुरोध के लिए सीमाएं

किसी इमेज में कितने पिक्सल हो सकते हैं, इसकी कोई तय सीमा नहीं है. हालांकि, बड़ी इमेज को छोटा किया जाता है और 3072 x के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट करने के लिए पैड किया जाता है 3072 और उसके ओरिजनल आसपेक्ट रेशियो (लंबाई-चौड़ाई का अनुपात) में ही बदलाव होगा.

प्रॉम्प्ट के अनुरोध में इमेज फ़ाइलों की ज़्यादा से ज़्यादा संख्या यहां दी गई है:

  • Gemini 1.0 Pro Vision: 16 इमेज
  • Gemini 1.5 Flash और Gemini 1.5 Pro: 3,000 इमेज

इमेज: टोकनाइज़ेशन

इमेज के लिए टोकन का हिसाब लगाने का तरीका यहां बताया गया है:

  • Gemini 1.0 Pro Vision: हर इमेज के बारे में जानकारी 258 टोकन के लिए.
  • Gemini 1.5 Flash और Gemini 1.5 Pro:
    • अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल या उससे कम हैं, तब 258 टोकन इस्तेमाल किए जाते हैं.
    • अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में काट दिया गया है. हर टाइल का डिफ़ॉल्ट साइज़ सबसे छोटा होता है डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलने वाली संख्या. अगर ज़रूरी हो, तो हर टाइल अडजस्ट किया गया है, ताकि यह 256 पिक्सल से छोटा न हो और इससे ज़्यादा न हो 768 पिक्सल. इसके बाद, हर टाइल का साइज़ बदलकर 768x768 किया जाता है और इसमें 258 टोकन इस्तेमाल किए जाते हैं.

इमेज: सबसे सही तरीके

इमेज का इस्तेमाल करते समय, नीचे दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें सर्वोत्तम परिणाम:

  • अगर आपको किसी इमेज में मौजूद टेक्स्ट की पहचान करनी है, तो एक इमेज के साथ प्रॉम्प्ट का इस्तेमाल करें, ताकि कई इमेज वाले प्रॉम्प्ट के मुकाबले, बेहतर नतीजे देते हैं.
  • अगर आपके प्रॉम्प्ट में एक ही इमेज है, तो इमेज को टेक्स्ट से पहले रखें प्रॉम्प्ट शामिल करें.
  • अगर आपके प्रॉम्प्ट में कई इमेज हैं और आपको उनके बारे में जानना है, तो या फिर मॉडल से मॉडल को मिले जवाब में उन्हें रेफ़र करने के लिए कहें, इससे हर इमेज को इमेज से पहले एक इंडेक्स देने में मदद मिल सकती है. इस्तेमाल की जाने वाली चीज़ें a b c या image 1 image 2 image 3 सबसे सही रहेगा. यहां इंडेक्स की गई इमेज का एक उदाहरण दिया गया है, जिसमें प्रॉम्प्ट:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • ज़्यादा रिज़ॉल्यूशन वाली इमेज का इस्तेमाल करें; तो वे बेहतर नतीजे देते हैं.
  • प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
  • इमेज को इमेज के सही ओरिएंटेशन में जोड़ने से पहले, इमेज को सही दिशा में घुमाएं प्रॉम्प्ट.
  • धुंधली इमेज अपलोड न करें.

इमेज: सीमाएं

Gemini के मल्टीमोडल मॉडल कई तरह से मल्टीमॉडल इस्तेमाल करने में कारगर होते हैं इसलिए, मॉडल की सीमाओं को समझना ज़रूरी है:

  • कॉन्टेंट मॉडरेशन: मॉडल, जवाब देने से मना करते हैं उन इमेज के लिए जो हमारी सुरक्षा नीतियों का उल्लंघन करती हैं.
  • स्पेशल रीज़निंग: मॉडल, जगह की सटीक जानकारी का पता नहीं लगा पाते इमेज में मौजूद टेक्स्ट या चीज़ें. हो सकता है कि वे सिर्फ़ ऑब्जेक्ट हैं.
  • इलाज में इस्तेमाल: मॉडल, जानकारी देने के लिए सही नहीं हैं मेडिकल इमेज (जैसे, एक्स-रे और सीटी स्कैन) या इलाज से जुड़ी जानकारी देना सलाह.
  • लोगों की पहचान करना: मॉडल का इस्तेमाल इन कामों के लिए नहीं किया जाना चाहिए उन लोगों की पहचान करने के लिए जो इमेज में मौजूद मशहूर हस्ती नहीं हैं.
  • सटीक काम करना: मॉडल, आपको सही जानकारी दे सकते हैं या उनसे ग़लतियाँ हो सकती हैं का इस्तेमाल करते हैं. मॉडल, हैंडराइटिंग टेक्स्ट को पढ़ते समय भी आपको गलत जानकारी दे सकता है इमेज दस्तावेज़.



वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

वीडियो: आवश्यकताएं

इस सेक्शन में, हर अनुरोध के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें वीडियो.

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini के मल्टीमोडल मॉडल इन वीडियो MIME टाइप के साथ काम करते हैं:

वीडियो MIME टाइप Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro विज़न
FLV - video/x-flv
एमओवी - video/mov
एमपीईजी - video/mpeg
एमपीईजीपीएस - video/mpegps
एमपीजी - video/mpg
MP4 - video/mp4
WebM - video/webm
WMV - video/wmv
3GPP - video/3gpp

हर अनुरोध के लिए सीमाएं

प्रॉम्प्ट के अनुरोध में, ज़्यादा से ज़्यादा कितनी वीडियो फ़ाइलें अपलोड की जा सकती हैं, इसकी जानकारी यहां दी गई है:

  • Gemini 1.0 Pro Vision: एक वीडियो फ़ाइल
  • Gemini 1.5 Flash और Gemini 1.5 Pro: 10 वीडियो फ़ाइलें

वीडियो: टोकनाइज़ेशन

वीडियो के लिए टोकन का हिसाब लगाने का तरीका यहां बताया गया है:

  • Gemini के सभी मल्टीमोडल मॉडल: वीडियो का सैंपल यहां दिया जाता है 1 फ़्रेम प्रति सेकंड (फ़्रेम प्रति सेकंड). हर वीडियो फ़्रेम की संख्या 258 होती है टोकन.
  • Gemini 1.5 Flash और Gemini 1.5 Pro: ऑडियो ट्रैक को कोड में बदला गया है वीडियो फ़्रेम सेट अप करें. ऑडियो ट्रैक को भी 1-सेकंड वाले ट्रंक जो हर 32 टोकन के लिए हैं. वीडियो फ़्रेम और ऑडियो टोकन, उनके टाइमस्टैंप के साथ शामिल किए जाते हैं. कॉन्टेंट बनाने टाइमस्टैंप, सात टोकन के तौर पर दिखाए जाते हैं.

वीडियो: सबसे सही तरीके

वीडियो का इस्तेमाल करते समय, नीचे दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें सर्वोत्तम परिणाम:

  • अगर प्रॉम्प्ट में एक वीडियो है, तो वीडियो को टेक्स्ट से पहले रखें प्रॉम्प्ट.
  • अगर आपको ऑडियो वाले वीडियो में टाइमस्टैंप को स्थानीय भाषा के अनुसार बनाना है, तो मॉडल से पूछें MM:SS फ़ॉर्मैट में टाइमस्टैंप जनरेट करने के लिए, जहां पहले दो फ़ॉर्मैट में अंक मिनट दिखाते हैं और आखिरी दो अंक सेकंड दिखाते हैं. इसका इस्तेमाल करें टाइमस्टैंप के बारे में पूछने वाले सवालों के लिए एक ही फ़ॉर्मैट.
  • अगर Gemini 1.0 Pro Vision का इस्तेमाल किया जा रहा है, तो इन बातों का ध्यान रखें:

    • एक प्रॉम्प्ट में एक से ज़्यादा वीडियो का इस्तेमाल न करें.
    • मॉडल, जानकारी को सिर्फ़ शुरुआती दो मिनट में प्रोसेस करता है वीडियो.
    • यह मॉडल, वीडियो को प्रोसेस करने के लिए, वीडियो. इसमें ऑडियो शामिल नहीं है. अगर आपको लगता है कि मॉडल में कुछ वीडियो के कॉन्टेंट को छोटा करें, ताकि मॉडल वीडियो कॉन्टेंट के बड़े हिस्से को कैप्चर करता हो.
    • मॉडल, ऑडियो से जुड़ी किसी भी जानकारी या टाइमस्टैंप को प्रोसेस नहीं करता मेटाडेटा. इस वजह से, हो सकता है कि यह मॉडल इस्तेमाल के मामलों में अच्छा परफ़ॉर्म न करे जिसके लिए ऑडियो इनपुट की ज़रूरत हो, जैसे कि ऑडियो कैप्शन या समय से संबंधित जैसी जानकारी, जैसे कि गति या लय-ताल.

वीडियो: सीमाएं

Gemini के मल्टीमोडल मॉडल कई तरह से मल्टीमॉडल इस्तेमाल करने में कारगर होते हैं इसलिए, मॉडल की सीमाओं को समझना ज़रूरी है:

  • कॉन्टेंट मॉडरेशन: मॉडल, जवाब देने से मना करते हैं जो हमारी सुरक्षा नीतियों का उल्लंघन करते हैं.
  • बोली न जाने वाली आवाज़ की पहचान करना: Assistant के साथ काम करने वाले मॉडल ऑडियो की वजह से, गैर-बोली की आवाज़ पहचानने में गलती हो सकती है.
  • हाई-स्पीड मोशन: मॉडल की मदद से गलतियां हो सकती हैं तय की गई वैल्यू की वजह से वीडियो में होने वाली हाई-स्पीड मोशन के बारे में समझना 1 फ़्रेम प्रति सेकंड (फ़्रेम प्रति सेकंड) सैंपलिंग रेट.
  • बोली को लेख में बदलने वाले विराम चिह्न: (Gemini 1.5 Flash का इस्तेमाल करने पर) मॉडल बिना विराम चिह्न वाले ट्रांसक्रिप्शन दिखाए.



ऑडियो: ज़रूरी शर्तें और सीमाएं

ऑडियो: ज़रूरी शर्तें

इस सेक्शन में, हर अनुरोध के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें ऑडियो.

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini के मल्टीमोडल मॉडल इस तरह के ऑडियो MIME टाइप के साथ काम करते हैं:

ऑडियो MIME टाइप Gemini 1.5 Flash Gemini 1.5 Pro
एएसी - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
एमपीए - audio/m4a
एमपीईजी - audio/mpeg
एमपीजीए - audio/mpga
MP4 - audio/mp4
ओपीयूएस - audio/opus
पीसीएम - audio/pcm
WAV - audio/wav
WebM - audio/webm

हर अनुरोध के लिए सीमाएं

प्रॉम्प्ट के अनुरोध में, ज़्यादा से ज़्यादा एक ऑडियो फ़ाइल शामिल की जा सकती है.

ऑडियो: सीमाएं

Gemini के मल्टीमोडल मॉडल कई तरह से मल्टीमॉडल इस्तेमाल करने में कारगर होते हैं इसलिए, मॉडल की सीमाओं को समझना ज़रूरी है:

  • बोली न जाने वाली आवाज़ की पहचान करना: Assistant के साथ काम करने वाले मॉडल ऑडियो की वजह से, गैर-बोली की आवाज़ पहचानने में गलती हो सकती है.
  • सिर्फ़ ऑडियो के टाइमस्टैंप: ऑडियो के साथ काम करने वाले मॉडल ऑडियो फ़ाइलों वाले अनुरोधों के लिए, सटीक टाइमस्टैंप जनरेट नहीं किया जा सकता. यह इसमें सेगमेंटेशन और समय के हिसाब से स्थानीय भाषा के मुताबिक बनाए गए टाइमस्टैंप शामिल होते हैं. टाइमस्टैंप उस इनपुट के लिए सही तरीके से जनरेट किया जाना चाहिए जिसमें ऑडियो वाला वीडियो शामिल हो.
  • बोली को लेख में बदलने वाले विराम चिह्न: (Gemini 1.5 Flash का इस्तेमाल करने पर) मॉडल बिना विराम चिह्न वाले ट्रांसक्रिप्शन दिखाए.



दस्तावेज़ (जैसे कि PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

दस्तावेज़: ज़रूरी शर्तें

इस सेक्शन में, हर अनुरोध के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें दस्तावेज़ (जैसे PDF).

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini के मल्टीमोडल मॉडल इन दस्तावेज़ों के MIME टाइप के साथ काम करते हैं:

दस्तावेज़ का MIME टाइप Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro विज़न
PDF - application/pdf

हर अनुरोध के लिए सीमाएं

PDF को इमेज माना जाता है. इसलिए, PDF के एक पेज को एक पेज माना जाता है इमेज. प्रॉम्प्ट में पेज की संख्या सिर्फ़ इस सीमा तक सीमित होती है ऐसी इमेज जिनका इस्तेमाल मॉडल कर सके:

  • Gemini 1.0 Pro Vision: 16 पेज
  • Gemini 1.5 Pro और Gemini 1.5 Flash: 1,000 पेज

दस्तावेज़: टोकनाइज़ेशन

PDF को इमेज माना जाता है. इसलिए, PDF का हर पेज एक ही बनाएगी.

साथ ही, PDF की लागत Gemini की इमेज की कीमत. उदाहरण के लिए, Gemini API कॉल में दो पेज की PDF फ़ाइल शामिल करने पर दो इमेज को प्रोसेस करने के लिए, इनपुट शुल्क देना पड़ता है.

दस्तावेज़: सबसे सही तरीके

PDF का इस्तेमाल करते समय, सर्वोत्तम परिणाम:

  • अगर आपके प्रॉम्प्ट में एक PDF फ़ाइल है, तो PDF को टेक्स्ट से पहले रखें प्रॉम्प्ट शामिल करें.
  • अगर आपके पास बड़ा दस्तावेज़ है, तो उसे कई PDF में बांट दें उसे प्रोसेस करने के लिए.
  • जिन PDF फ़ाइलों में टेक्स्ट को रेंडर किया जाता है उन्हें स्कैन की गई इमेज. इस फ़ॉर्मैट से यह पक्का होता है कि टेक्स्ट को मशीन से पढ़ा जा सकता है, ताकि यह इससे मॉडल को स्कैन करने की तुलना में, उसमें बदलाव करना, उसे खोजना, और उसमें बदलाव करना ज़्यादा आसान लगता है चित्र PDF. इस तरीके का इस्तेमाल करने से, आपको सबसे अच्छे नतीजे मिलते हैं. बहुत ज़्यादा टेक्स्ट वाले दस्तावेज़, जैसे कि कॉन्ट्रैक्ट.

दस्तावेज़: सीमाएं

Gemini के मल्टीमोडल मॉडल कई तरह से मल्टीमॉडल इस्तेमाल करने में कारगर होते हैं इसलिए, मॉडल की सीमाओं को समझना ज़रूरी है:

  • स्पेशल रीज़निंग: मॉडल, जगह की सटीक जानकारी का पता नहीं लगा पाते PDF में मौजूद टेक्स्ट या ऑब्जेक्ट. हो सकता है कि वे सिर्फ़ ऑब्जेक्ट हैं.
  • सटीक काम करना: यह मॉडल, जानकारी देते समय गलत जानकारी दे सकता है PDF दस्तावेज़ों में हाथ से लिखा हुआ टेक्स्ट होता है.