Vertex AI in Firebase ব্যবহার করে আপনার অ্যাপ থেকে Vertex AI Gemini API কল করার সময়, আপনি একটি মাল্টিমডাল ইনপুটের উপর ভিত্তি করে টেক্সট তৈরি করতে জেমিনি মডেলকে প্রম্পট করতে পারেন। মাল্টিমোডাল প্রম্পটে একাধিক পদ্ধতি (বা ইনপুটের প্রকার) অন্তর্ভুক্ত থাকতে পারে, যেমন চিত্র, পিডিএফ, ভিডিও এবং অডিও সহ পাঠ্য।
ইনপুটের নন-টেক্সট অংশগুলির জন্য (যেমন মিডিয়া ফাইল), আপনাকে সমর্থিত ফাইল প্রকারগুলি ব্যবহার করতে হবে, একটি সমর্থিত MIME প্রকার নির্দিষ্ট করতে হবে এবং নিশ্চিত করুন যে আপনার ফাইল এবং মাল্টিমোডাল অনুরোধগুলি প্রয়োজনীয়তাগুলি পূরণ করে এবং সর্বোত্তম অনুশীলনগুলি অনুসরণ করে৷
এই পৃষ্ঠাটি নিম্নলিখিত বর্ণনা করে:
নিম্নলিখিত ফাইল ইনপুটগুলির জন্য সমর্থিত MIME প্রকার, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা সম্পর্কে বিশদ:
ছবি | ভিডিও | অডিও | নথি (যেমন পিডিএফ) ।
মাল্টিমোডাল অনুরোধে ফাইল প্রদানের বিকল্প
প্রতিটি মাল্টিমোডাল অনুরোধে, আপনাকে সর্বদা নিম্নলিখিতগুলি প্রদান করতে হবে:
ফাইলের
mimeType
. এই পৃষ্ঠার প্রযোজ্য বিভাগে প্রতিটি ইনপুট ফাইলের সমর্থিত MIME প্রকারগুলি দেখুন৷ফাইল। আপনি হয় ফাইলটিকে এর URL/URI ব্যবহার করে প্রদান করতে পারেন অথবা ফাইলটিকে ইনলাইন ডেটা হিসেবে প্রদান করতে পারেন ।
অনুরোধে আপনি যে ফাইলগুলি প্রদান করতে পারেন তার আকার এবং সংখ্যা ইনপুট ফাইলের প্রকার, আপনি কীভাবে ফাইলটি প্রদান করেন এবং ব্যবহৃত মডেল দ্বারা নির্দেশিত হয় (বিশদ বিবরণের জন্য, এই পৃষ্ঠায় প্রতিটি ইনপুট ফাইল প্রকারের বিভাগ দেখুন)।
বিকল্প 1 : একটি URL বা URI ব্যবহার করে ফাইলটি প্রদান করুন৷
এখানে ইউআরএল বা ইউআরআই-এর গ্রহণযোগ্য ধরন রয়েছে:
Cloud Storage for Firebase : ফাইলের URL অবশ্যই সর্বজনীন হতে হবে বা সাইন ইন করা ব্যবহারকারী বা ক্লায়েন্টের ফাইলটিতে পর্যাপ্ত অ্যাক্সেস থাকতে হবে। Firebase সুবিধা , URL এর প্রয়োজনীয়তা এবং কোড নমুনার Cloud Storage for Firebase সম্পর্কে আরও জানুন।
Google Cloud Storage বাকেট URL : ফাইলের URL অবশ্যই সর্বজনীন হতে হবে।
ব্রাউজার/HTTP URL : ফাইল URL অবশ্যই সর্বজনীনভাবে পাঠযোগ্য হতে হবে। উদাহরণগুলির মধ্যে রয়েছে মিডিয়া-হোস্টিং সাইটের URL, সরাসরি মিডিয়া দেখায় এমন URL (মিডিয়া হোস্ট করে এমন কোনো ওয়েব পৃষ্ঠা নয়), অথবা প্রকাশিত Google Drive বা Google Workspace ফাইল।
YouTube ভিডিও URL : YouTube ভিডিওটি অবশ্যই সর্বজনীন বা তালিকাবিহীন হতে হবে।
Google Cloud ডকুমেন্টেশনে URL এবং URI-এর প্রয়োজনীয়তা সম্পর্কে আরও জানুন।
বিকল্প 2 : ফাইলটিকে ইনলাইন ডেটা হিসাবে প্রদান করুন
ইনলাইন ডেটা হিসাবে প্রদত্ত ফাইল সম্পর্কে নিম্নলিখিত নোট করুন:
শুধুমাত্র ছোট ফাইলগুলি ইনলাইন ডেটা হিসাবে পাঠানো যেতে পারে কারণ মোট অনুরোধের আকার সীমা 20 এমবি।
ফাইলটি ট্রানজিটে base64 এ এনকোড করা হয়েছে (যা ফাইলের আকার বাড়ায়)।
ইনলাইন ডেটা হিসাবে ফাইলগুলিকে কীভাবে অন্তর্ভুক্ত করতে হয় তা দেখানোর উদাহরণগুলির জন্য, Gemini API ব্যবহার করে মাল্টিমোডাল প্রম্পট থেকে পাঠ্য তৈরি করুন দেখুন।
ছবি : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা
ছবি: প্রয়োজনীয়তা
এই বিভাগে, সমর্থিত MIME প্রকারগুলি এবং চিত্রগুলির জন্য অনুরোধ প্রতি সীমা সম্পর্কে জানুন৷
সমর্থিত MIME প্রকার
Gemini মাল্টিমোডাল মডেলগুলি নিম্নলিখিত MIME প্রকারগুলিকে সমর্থন করে:
ছবি MIME প্রকার | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png | |||
JPEG - image/jpeg | |||
ওয়েবপি - image/webp |
অনুরোধ প্রতি সীমা
একটি ছবিতে পিক্সেল সংখ্যার একটি নির্দিষ্ট সীমা নেই। যাইহোক, বৃহত্তর চিত্রগুলিকে তাদের আসল আকৃতির অনুপাত সংরক্ষণ করার সময় সর্বাধিক 3072 x 3072 রেজোলিউশনে ফিট করার জন্য ছোট করে এবং প্যাড করা হয়।
এখানে একটি প্রম্পট অনুরোধে অনুমোদিত সর্বাধিক সংখ্যক চিত্র ফাইল রয়েছে:
- Gemini 1.0 Pro Vision : 16টি ছবি
- Gemini 1.5 Flash এবং Gemini 1.5 Pro : 3000টি ছবি৷
ছবি: টোকেনাইজেশন
চিত্রের জন্য টোকেনগুলি কীভাবে গণনা করা হয় তা এখানে:
- Gemini 1.0 Pro Vision : প্রতিটি ছবির জন্য 258 টোকেন রয়েছে৷
- Gemini 1.5 Flash এবং Gemini 1.5 Pro :
- যদি একটি চিত্রের উভয় মাত্রা 384 পিক্সেলের কম বা সমান হয়, তাহলে 258 টোকেন ব্যবহার করা হয়।
- যদি একটি চিত্রের একটি মাত্রা 384 পিক্সেলের বেশি হয়, তাহলে ছবিটি টাইলগুলিতে কাটা হয়। প্রতিটি টাইলের আকার 1.5 দ্বারা বিভক্ত ক্ষুদ্রতম মাত্রা (প্রস্থ বা উচ্চতা) ডিফল্ট। প্রয়োজনে, প্রতিটি টাইল সামঞ্জস্য করা হয় যাতে এটি 256 পিক্সেলের চেয়ে ছোট না হয় এবং 768 পিক্সেলের বেশি না হয়। প্রতিটি টাইলের আকার পরিবর্তন করে 768x768 করা হয় এবং 258 টোকেন ব্যবহার করা হয়।
ছবি: সেরা অনুশীলন
ছবি ব্যবহার করার সময়, সেরা ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্য ব্যবহার করুন:
- আপনি যদি একটি ছবিতে টেক্সট সনাক্ত করতে চান, তাহলে একাধিক ছবি সহ প্রম্পটের চেয়ে ভাল ফলাফল তৈরি করতে একটি একক চিত্র সহ প্রম্পট ব্যবহার করুন৷
- যদি আপনার প্রম্পটে একটি একক ছবি থাকে, তাহলে আপনার অনুরোধে টেক্সট প্রম্পটের আগে ছবিটি রাখুন।
- যদি আপনার প্রম্পটে একাধিক ছবি থাকে, এবং আপনি পরবর্তীতে আপনার প্রম্পটে সেগুলি উল্লেখ করতে চান বা মডেলটিকে মডেল প্রতিক্রিয়ায় সেগুলি উল্লেখ করতে চান, তাহলে এটি প্রতিটি চিত্রকে ছবির আগে একটি সূচক দিতে সাহায্য করতে পারে৷ ব্যবহার করুন
a
b
c
বাআপনার সূচকের জন্য image 1
image 2
image 3
। নিম্নলিখিত একটি প্রম্পটে সূচীকৃত ছবি ব্যবহার করার একটি উদাহরণ:image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - উচ্চ রেজোলিউশন সহ ছবি ব্যবহার করুন; তারা আরও ভাল ফলাফল দেয়।
- প্রম্পটে কয়েকটি উদাহরণ অন্তর্ভুক্ত করুন।
- ছবিগুলিকে প্রম্পটে যুক্ত করার আগে তাদের সঠিক অভিযোজনে ঘোরান৷
- ঝাপসা ছবি এড়িয়ে চলুন।
ছবি: সীমাবদ্ধতা
যদিও Gemini মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবে মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:
- বিষয়বস্তু নিয়ন্ত্রণ : মডেলগুলি আমাদের নিরাপত্তা নীতি লঙ্ঘন করে এমন চিত্রগুলির উত্তর দিতে অস্বীকার করে৷
- স্থানিক যুক্তি : মডেলগুলি চিত্রগুলিতে পাঠ্য বা বস্তুগুলি সনাক্ত করার ক্ষেত্রে সুনির্দিষ্ট নয়। তারা শুধুমাত্র বস্তুর আনুমানিক সংখ্যা ফেরত দিতে পারে।
- মেডিকেল ব্যবহার : মডেলগুলি মেডিকেল ইমেজ ব্যাখ্যা করার জন্য উপযুক্ত নয় (উদাহরণস্বরূপ, এক্স-রে এবং সিটি স্ক্যান) বা চিকিৎসা পরামর্শ প্রদানের জন্য।
- লোকের স্বীকৃতি : মডেলগুলি এমন নয় যে ব্যক্তিদের চিহ্নিত করতে ব্যবহার করা হবে যারা ছবিতে সেলিব্রিটি নন৷
- নির্ভুলতা : নিম্ন-মানের, ঘোরানো, বা অত্যন্ত নিম্ন-রেজোলিউশনের চিত্রগুলি ব্যাখ্যা করার সময় মডেলগুলি হ্যালুসিনেট বা ভুল করতে পারে। চিত্র নথিতে হাতে লেখা পাঠ্য ব্যাখ্যা করার সময় মডেলগুলিও হ্যালুসিনেট হতে পারে।
ভিডিও : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা
ভিডিও: প্রয়োজনীয়তা
এই বিভাগে, ভিডিওর জন্য সমর্থিত MIME প্রকার এবং প্রতি অনুরোধের সীমা সম্পর্কে জানুন।
সমর্থিত MIME প্রকার
Gemini মাল্টিমোডাল মডেলগুলি নিম্নলিখিত ভিডিও MIME প্রকারগুলিকে সমর্থন করে:
ভিডিও MIME প্রকার | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv | |||
MOV - video/quicktime | |||
MPEG - video/mpeg | |||
MPEGPS - video/mpegps | |||
MPG - video/mpg | |||
MP4 - video/mp4 | |||
WEBM - video/webm | |||
WMV - video/wmv | |||
3GPP - video/3gpp |
অনুরোধ প্রতি সীমা
এখানে একটি প্রম্পট অনুরোধে অনুমোদিত ভিডিও ফাইলের সর্বাধিক সংখ্যা রয়েছে:
- Gemini 1.0 Pro Vision : 1 ভিডিও ফাইল
- Gemini 1.5 Flash এবং Gemini 1.5 Pro : 10টি ভিডিও ফাইল
ভিডিও: টোকেনাইজেশন
ভিডিওর জন্য টোকেনগুলি কীভাবে গণনা করা হয় তা এখানে:
- সমস্ত জেমিনি মাল্টিমোডাল মডেল : ভিডিওগুলি
প্রতি সেকেন্ডে 1 ফ্রেমে (fps) নমুনা করা হয়৷ প্রতিটি ভিডিও ফ্রেম 258 টোকেনের জন্য অ্যাকাউন্ট। - Gemini 1.5 Flash এবং Gemini 1.5 Pro : অডিও ট্র্যাকটি ভিডিও ফ্রেমের সাথে এনকোড করা হয়েছে। অডিও ট্র্যাকটিকেও
1-সেকেন্ডের ট্রাঙ্কে বিভক্ত করা হয়েছে যার প্রতিটির জন্য 32টি টোকেন রয়েছে৷ ভিডিও ফ্রেম এবং অডিও টোকেনগুলি তাদের টাইমস্ট্যাম্পের সাথে একত্রে আন্তঃলিভ করা হয়। টাইমস্ট্যাম্প 7 টোকেন হিসাবে উপস্থাপিত হয়.
ভিডিও: সেরা অনুশীলন
ভিডিও ব্যবহার করার সময়, সর্বোত্তম ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্য ব্যবহার করুন:
- যদি আপনার প্রম্পটে একটি একক ভিডিও থাকে, তাহলে পাঠ্য প্রম্পটের আগে ভিডিওটি রাখুন।
- আপনার যদি অডিও সহ একটি ভিডিওতে টাইমস্ট্যাম্প স্থানীয়করণের প্রয়োজন হয়, মডেলটিকে
MM:SS
ফর্ম্যাটে টাইমস্ট্যাম্প তৈরি করতে বলুন যেখানে প্রথম দুটি সংখ্যা মিনিট এবং শেষ দুটি সংখ্যা সেকেন্ডের প্রতিনিধিত্ব করে৷ একটি টাইমস্ট্যাম্প সম্পর্কে জিজ্ঞাসা করা প্রশ্নগুলির জন্য একই বিন্যাস ব্যবহার করুন। আপনি যদি Gemini 1.0 Pro Vision ব্যবহার করেন তবে নিম্নলিখিতগুলি নোট করুন:
- প্রতি প্রম্পটে একটির বেশি ভিডিও ব্যবহার করবেন না।
- মডেলটি শুধুমাত্র ভিডিওর প্রথম দুই মিনিটে তথ্য প্রক্রিয়া করে।
- মডেলটি ভিডিও থেকে অ-সংলগ্ন চিত্র ফ্রেম হিসাবে ভিডিওগুলিকে প্রক্রিয়া করে। অডিও অন্তর্ভুক্ত করা হয় না. আপনি যদি লক্ষ্য করেন যে মডেলটিতে ভিডিও থেকে কিছু বিষয়বস্তু নেই, তাহলে ভিডিওটিকে ছোট করার চেষ্টা করুন যাতে মডেলটি ভিডিও সামগ্রীর একটি বড় অংশ ক্যাপচার করে।
- মডেলটি কোনো অডিও তথ্য বা টাইমস্ট্যাম্প মেটাডেটা প্রক্রিয়া করে না। এই কারণে, অডিও ইনপুট যেমন ক্যাপশনিং অডিও, বা সময়-সম্পর্কিত তথ্য, যেমন গতি বা ছন্দের প্রয়োজন হয় এমন ক্ষেত্রে মডেলটি ভালভাবে পারফর্ম নাও করতে পারে।
ভিডিও: সীমাবদ্ধতা
যদিও Gemini মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবে মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:
- বিষয়বস্তু নিয়ন্ত্রণ : মডেলগুলি আমাদের নিরাপত্তা নীতি লঙ্ঘন করে এমন ভিডিওগুলির উত্তর দিতে অস্বীকার করে৷
- নন-স্পিচ সাউন্ড রিকগনিশন : যে মডেলগুলি অডিও সমর্থন করে সেগুলি স্পিচ নয় এমন শব্দ চিনতে ভুল করতে পারে।
- হাই-স্পিড মোশন : মডেলগুলি ভিডিওতে হাই-স্পিড মোশন বুঝতে ভুল করতে পারে স্থির
1 ফ্রেম প্রতি সেকেন্ড (fps) নমুনা হারের কারণে। - ট্রান্সক্রিপশন বিরাম চিহ্ন : (যদি Gemini 1.5 Flash ব্যবহার করে) মডেলগুলি ট্রান্সক্রিপশনগুলি ফেরত দিতে পারে যাতে বিরাম চিহ্ন অন্তর্ভুক্ত নয়৷
অডিও : প্রয়োজনীয়তা এবং সীমাবদ্ধতা
অডিও: প্রয়োজনীয়তা
এই বিভাগে, সমর্থিত MIME প্রকার এবং অডিওর জন্য অনুরোধ প্রতি সীমা সম্পর্কে জানুন।
সমর্থিত MIME প্রকার
Gemini মাল্টিমোডাল মডেলগুলি নিম্নলিখিত অডিও MIME প্রকারগুলিকে সমর্থন করে:
অডিও MIME প্রকার | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac | ||
FLAC - audio/flac | ||
MP3 - audio/mp3 | ||
MPA - audio/m4a | ||
MPEG - audio/mpeg | ||
MPGA - audio/mpga | ||
MP4 - audio/mp4 | ||
OPUS - audio/opus | ||
পিসিএম - audio/pcm | ||
WAV - audio/wav | ||
WEBM - audio/webm |
অনুরোধ প্রতি সীমা
আপনি একটি প্রম্পট অনুরোধে সর্বাধিকঅডিও: সীমাবদ্ধতা
যদিও Gemini মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবে মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:
- নন-স্পিচ সাউন্ড রিকগনিশন : যে মডেলগুলি অডিও সমর্থন করে সেগুলি স্পিচ নয় এমন শব্দ চিনতে ভুল করতে পারে।
- শুধুমাত্র অডিও টাইমস্ট্যাম্প : শুধুমাত্র অডিও ফাইলের জন্য সঠিকভাবে টাইমস্ট্যাম্প তৈরি করতে, আপনাকে
generation_config
audio_timestamp
প্যারামিটার কনফিগার করতে হবে। - ট্রান্সক্রিপশন বিরাম চিহ্ন : (যদি Gemini 1.5 Flash ব্যবহার করে) মডেলগুলি ট্রান্সক্রিপশনগুলি ফেরত দিতে পারে যাতে বিরাম চিহ্ন অন্তর্ভুক্ত নয়৷
নথি (পিডিএফের মতো) : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা
নথি: প্রয়োজনীয়তা
এই বিভাগে, সমর্থিত MIME প্রকার এবং নথিগুলির জন্য অনুরোধের সীমা (যেমন PDF) সম্পর্কে জানুন।
সমর্থিত MIME প্রকার
Gemini মাল্টিমোডাল মডেলগুলি নিম্নলিখিত নথি MIME প্রকারগুলিকে সমর্থন করে:
নথি MIME প্রকার | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
পিডিএফ - application/pdf | |||
টেক্সট - text/plain |
অনুরোধ প্রতি সীমা
পিডিএফগুলিকে চিত্র হিসাবে বিবেচনা করা হয়, তাই একটি পিডিএফের একক পৃষ্ঠাকে একটি চিত্র হিসাবে বিবেচনা করা হয়। একটি প্রম্পটে অনুমোদিত পৃষ্ঠার সংখ্যা মডেলটি সমর্থন করতে পারে এমন চিত্রগুলির সংখ্যার মধ্যে সীমাবদ্ধ:
- Gemini 1.0 Pro Vision :
- অনুরোধ প্রতি সর্বোচ্চ ফাইল: 16
- ফাইল প্রতি সর্বোচ্চ পৃষ্ঠা: 16
- ফাইল প্রতি সর্বোচ্চ আকার: 50 MB
- Gemini 1.5 Pro এবং Gemini 1.5 Flash :
- অনুরোধ প্রতি সর্বোচ্চ ফাইল: 3,000
- ফাইল প্রতি সর্বোচ্চ পৃষ্ঠা: 1,000
- ফাইল প্রতি সর্বোচ্চ আকার: 50 MB
- 3,000 একক-পৃষ্ঠা পিডিএফ ফাইল
- দশটি 300-পৃষ্ঠা পিডিএফ ফাইল
- তিনটি 1,000-পৃষ্ঠা পিডিএফ ফাইল
নথি: টোকেনাইজেশন
পিডিএফ টোকেনাইজেশন
পিডিএফগুলিকে চিত্র হিসাবে বিবেচনা করা হয়, তাই একটি পিডিএফের প্রতিটি পৃষ্ঠাকে একটি চিত্রের মতোই টোকেনাইজ করা হয়।
এছাড়াও, পিডিএফ-এর জন্য খরচ Gemini ছবির মূল্য অনুসরণ করে। উদাহরণস্বরূপ, যদি আপনি একটি Gemini API কলে একটি দুই-পৃষ্ঠার PDF অন্তর্ভুক্ত করেন, তাহলে আপনাকে দুটি ছবি প্রসেস করার জন্য একটি ইনপুট ফি দিতে হবে।
প্লেইন টেক্সট টোকেনাইজেশন
প্লেইন টেক্সট ডকুমেন্ট টেক্সট হিসাবে টোকেনাইজ করা হয়। উদাহরণস্বরূপ, যদি আপনি একটি Gemini API কলে একটি 100-শব্দের প্লেইন টেক্সট নথি অন্তর্ভুক্ত করেন, তাহলে আপনাকে 100 শব্দ প্রক্রিয়াকরণের ইনপুট ফি দিতে হবে।
নথি: সর্বোত্তম অনুশীলন
পিডিএফ ব্যবহার করার সময়, সেরা ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্য ব্যবহার করুন:
- যদি আপনার প্রম্পটে একটি পিডিএফ থাকে, তাহলে আপনার অনুরোধে টেক্সট প্রম্পটের আগে PDF রাখুন।
- আপনার যদি একটি দীর্ঘ নথি থাকে তবে এটি প্রক্রিয়া করার জন্য এটিকে একাধিক PDF এ বিভক্ত করার কথা বিবেচনা করুন।
- স্ক্যান করা ছবিতে টেক্সট ব্যবহার না করে টেক্সট হিসেবে রেন্ডার করা টেক্সট দিয়ে তৈরি PDF ব্যবহার করুন। এই বিন্যাসটি নিশ্চিত করে যে পাঠ্যটি মেশিন-পঠনযোগ্য যাতে মডেলটির পক্ষে স্ক্যান করা চিত্র PDF এর তুলনায় সম্পাদনা, অনুসন্ধান এবং ম্যানিপুলেট করা সহজ হয়। চুক্তির মতো পাঠ্য-ভারী নথিগুলির সাথে কাজ করার সময় এই অনুশীলনটি সর্বোত্তম ফলাফল প্রদান করে।
নথি: সীমাবদ্ধতা
যদিও Gemini মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবে মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:
- স্থানিক যুক্তি : মডেলগুলি পিডিএফ-এ পাঠ্য বা বস্তুগুলি সনাক্ত করার ক্ষেত্রে সুনির্দিষ্ট নয়। তারা শুধুমাত্র বস্তুর আনুমানিক সংখ্যা ফেরত দিতে পারে।
- যথার্থতা : পিডিএফ নথিতে হাতে লেখা পাঠ্য ব্যাখ্যা করার সময় মডেলগুলি হ্যালুসিনেট হতে পারে।