Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

সমর্থিত ইনপুট ফাইল এবং প্রয়োজনীয়তা

Firebase AI Logic SDK ব্যবহার করে আপনার অ্যাপ থেকে Gemini API কল করার সময়, আপনি Gemini মডেলটিকে ছবি, ভিডিও এবং অডিও এবং ডকুমেন্ট (যেমন PDF) এর মতো মাল্টিমোডাল ইনপুটের উপর ভিত্তি করে টেক্সট তৈরি করতে প্রম্পট করতে পারেন।

আপনাকে সমর্থিত ফাইলের ধরণ ব্যবহার করতে হবে, একটি সমর্থিত MIME ধরণ নির্দিষ্ট করতে হবে এবং নিশ্চিত করতে হবে যে আপনার ফাইল এবং মাল্টিমোডাল অনুরোধগুলি প্রয়োজনীয়তা পূরণ করে এবং সর্বোত্তম অনুশীলনগুলি অনুসরণ করে।

এই পৃষ্ঠাটি একটি GenerativeModel ব্যবহারের জন্য নির্দিষ্ট এবং নিম্নলিখিতগুলি বর্ণনা করে:

আপনার অনুরোধে ফাইল সরবরাহের বিকল্প।
নিম্নলিখিত ফাইল ইনপুটগুলির জন্য সমর্থিত MIME প্রকার, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা সম্পর্কে বিশদ বিবরণ:
ছবি | ভিডিও | অডিও | ডকুমেন্টস (যেমন পিডিএফ) ।

মাল্টিমোডাল অনুরোধে ফাইল সরবরাহের বিকল্পগুলি

এই পৃষ্ঠায় প্রদানকারী-নির্দিষ্ট সামগ্রী দেখতে আপনার Gemini API প্রদানকারী নির্বাচন করুন।

প্রতিটি মাল্টিমোডাল অনুরোধে, আপনাকে সর্বদা নিম্নলিখিতগুলি প্রদান করতে হবে:

ফাইলটির mimeType । এই পৃষ্ঠার প্রযোজ্য বিভাগে প্রতিটি ইনপুট ফাইলের সমর্থিত MIME প্রকারগুলি দেখুন।
ফাইলটি। আপনি ফাইলটি ইনলাইন ডেটা হিসেবে প্রদান করতে পারেন অথবা এর URL ব্যবহার করে ফাইলটি প্রদান করতে পারেন ।

অনুরোধে আপনি কত আকার এবং ফাইল সরবরাহ করতে পারবেন তা ইনপুট ফাইলের ধরণ, আপনি কীভাবে ফাইলটি সরবরাহ করবেন এবং ব্যবহৃত মডেলের উপর নির্ভর করে (বিস্তারিত জানার জন্য, এই পৃষ্ঠায় প্রতিটি ইনপুট ফাইল ধরণের বিভাগটি দেখুন)।

বিকল্প ১ : ফাইলটি ইনলাইন ডেটা হিসেবে প্রদান করুন

ইনলাইন ডেটা হিসেবে প্রদত্ত ফাইলগুলি সম্পর্কে নিম্নলিখিত বিষয়গুলি লক্ষ্য করুন:

শুধুমাত্র ছোট ফাইলগুলিকে ইনলাইন ডেটা হিসেবে পাঠানো যেতে পারে কারণ মোট অনুরোধের আকার সীমা ২০ এমবি।
ফাইলটি ট্রানজিটে base64 এ এনকোড করা আছে (যা ফাইলের আকার বৃদ্ধি করে)।

ইনলাইন ডেটা হিসেবে একটি ফাইল কীভাবে অন্তর্ভুক্ত করবেন তার উদাহরণের জন্য, টেক্সট-এন্ড-ফাইল (মাল্টিমোডাল) ইনপুট থেকে টেক্সট জেনারেট করুন দেখুন। মনে রাখবেন যে অ্যান্ড্রয়েড এবং অ্যাপল প্ল্যাটফর্মের জন্য SDK গুলি MIME প্রকার নির্দিষ্ট করার প্রয়োজন ছাড়াই অনুরোধগুলিতে ইনলাইন ছবি পরিচালনা করতে পারে। আরও জানুন।

বিকল্প ২ : একটি URL ব্যবহার করে ফাইলটি প্রদান করুন

জেমিনি ডেভেলপার এপিআই ব্যবহার করার সময় গ্রহণযোগ্য ধরণের ইউআরএল এখানে দেওয়া হল:

ইউটিউব ভিডিও URL : ইউটিউব ভিডিওটি অবশ্যই সর্বজনীন অথবা তালিকাভুক্ত নয় ।
আপনি প্রতিটি অনুরোধের জন্য একটি YouTube ভিডিও URL নির্দিষ্ট করতে পারেন।

ছবি : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা

ছবি: প্রয়োজনীয়তা

এই বিভাগে, সমর্থিত MIME প্রকার এবং ছবির জন্য প্রতি অনুরোধের সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকারগুলি

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত চিত্র MIME প্রকারগুলিকে সমর্থন করে:

পিএনজি - image/png
JPEG - image/jpeg
ওয়েবপি - image/webp

প্রতি অনুরোধের সীমা

একটি ছবিতে পিক্সেলের সংখ্যার কোন নির্দিষ্ট সীমা নেই। তবে, বৃহত্তর ছবিগুলিকে ছোট করে প্যাড করা হয় যাতে সর্বোচ্চ 3072 x 3072 রেজোলিউশনে ফিট করা যায় এবং তাদের আসল আকৃতির অনুপাত বজায় রাখা হয়।

প্রতি অনুরোধে সর্বোচ্চ ফাইল: ৩,০০০টি ছবির ফাইল

ছবি: টোকেনাইজেশন

ছবির জন্য টোকেন কীভাবে গণনা করা হয় তা এখানে দেওয়া হল:

যদি একটি ছবির উভয় মাত্রা 384 পিক্সেলের কম বা সমান হয়, তাহলে 258টি টোকেন ব্যবহার করা হয়।
যদি কোনও ছবির একটি মাত্রা ৩৮৪ পিক্সেলের বেশি হয়, তাহলে ছবিটি টাইলস আকারে ক্রপ করা হয়। প্রতিটি টাইলের আকার ডিফল্টভাবে ক্ষুদ্রতম মাত্রা (প্রস্থ বা উচ্চতা) ১.৫ দিয়ে ভাগ করলে হবে। প্রয়োজনে, প্রতিটি টাইলের আকার এমনভাবে সমন্বয় করা হয় যাতে এটি ২৫৬ পিক্সেলের চেয়ে ছোট না হয় এবং ৭৬৮ পিক্সেলের চেয়ে বড় না হয়। এরপর প্রতিটি টাইলের আকার ৭৬৮x৭৬৮ করা হয় এবং ২৫৮টি টোকেন ব্যবহার করা হয়।

ছবি: সেরা অনুশীলন

ছবি ব্যবহার করার সময়, সেরা ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্য ব্যবহার করুন:

যদি আপনি একটি ছবিতে টেক্সট শনাক্ত করতে চান, তাহলে একাধিক ছবির প্রম্পটের চেয়ে ভালো ফলাফল পেতে একটি ছবির প্রম্পট ব্যবহার করুন।
যদি আপনার প্রম্পটে একটি মাত্র ছবি থাকে, তাহলে আপনার অনুরোধে টেক্সট প্রম্পটের আগে ছবিটি রাখুন।
যদি আপনার প্রম্পটে একাধিক ছবি থাকে এবং আপনি আপনার প্রম্পটে পরে সেগুলো উল্লেখ করতে চান অথবা মডেল প্রতিক্রিয়ায় মডেলকে সেগুলো উল্লেখ করতে চান, তাহলে প্রতিটি ছবির আগে একটি সূচী দেওয়া সাহায্য করতে পারে। ব্যবহার করুন a b c অথবা
আপনার ইনডেক্সের জন্য image 1 image 2 image 3 প্রম্পটে ইনডেক্স করা ছবি ব্যবহারের একটি উদাহরণ নিচে দেওয়া হল:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
উচ্চ রেজোলিউশনের ছবি ব্যবহার করুন; এগুলো আরও ভালো ফলাফল দেয়।
প্রম্পটে কয়েকটি উদাহরণ অন্তর্ভুক্ত করুন।
প্রম্পটে ছবি যোগ করার আগে সেগুলোকে সঠিক দিকে ঘোরান।
ঝাপসা ছবি এড়িয়ে চলুন।

ছবি: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবুও মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:

কন্টেন্ট মডারেশন : মডেলরা আমাদের নিরাপত্তা নীতি লঙ্ঘন করে এমন ছবির উত্তর দিতে অস্বীকৃতি জানায়।
স্থানিক যুক্তি : মডেলগুলি ছবিতে টেক্সট বা বস্তুর অবস্থান নির্ণয়ে সুনির্দিষ্ট নয়। তারা কেবল বস্তুর আনুমানিক সংখ্যাই ফেরত দিতে পারে।
চিকিৎসা ব্যবহার : মডেলগুলি চিকিৎসা চিত্রের (যেমন, এক্স-রে এবং সিটি স্ক্যান) ব্যাখ্যা বা চিকিৎসা পরামর্শ প্রদানের জন্য উপযুক্ত নয়।
মানুষ চেনা : মডেলগুলি ছবিতে সেলিব্রিটি নন এমন ব্যক্তিদের শনাক্ত করার জন্য ব্যবহার করা হয়নি।
নির্ভুলতা : নিম্নমানের, ঘূর্ণিত, অথবা অত্যন্ত নিম্ন-রেজোলিউশনের ছবি ব্যাখ্যা করার সময় মডেলগুলি হ্যালুসিনেট করতে পারে বা ভুল করতে পারে। চিত্র নথিতে হাতে লেখা লেখা ব্যাখ্যা করার সময়ও মডেলগুলি হ্যালুসিনেট করতে পারে।

ভিডিও : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা

ভিডিও: প্রয়োজনীয়তা

এই বিভাগে, ভিডিওর জন্য সমর্থিত MIME প্রকার এবং প্রতি অনুরোধের সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকারগুলি

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত ভিডিও MIME প্রকারগুলিকে সমর্থন করে:

FLV - video/x-flv
MOV - video/quicktime
এমপিইজি - video/mpeg
MPEGPS - video/mpegps
এমপিজি - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

প্রতি অনুরোধের সীমা

প্রতি অনুরোধে সর্বোচ্চ ফাইল: ১০টি ভিডিও ফাইল

ভিডিও: টোকেনাইজেশন

ভিডিওর জন্য টোকেন কীভাবে গণনা করা হয় তা এখানে দেওয়া হল:

অডিও ট্র্যাকটি ভিডিও ফ্রেমের সাথে এনকোড করা আছে। অডিও ট্র্যাকটি ১-সেকেন্ডের ট্রাঙ্কেও বিভক্ত, যার প্রতিটিতে ৩২টি টোকেন থাকে। ভিডিও ফ্রেম এবং অডিও টোকেনগুলি তাদের টাইমস্ট্যাম্পগুলির সাথে একসাথে সংযুক্ত থাকে। টাইমস্ট্যাম্পগুলিকে ৫টি টোকেন হিসাবে উপস্থাপন করা হয়।
যেসব ভিডিওর নমুনা ১ ফ্রেম প্রতি সেকেন্ড (fps) বা তার কম, সেগুলির জন্য ভিডিওর প্রথম ঘন্টার টাইমস্ট্যাম্পগুলি প্রতি ভিডিও ফ্রেমে ৫টি টোকেন হিসাবে উপস্থাপন করা হয়। বাকি টাইমস্ট্যাম্পগুলি প্রতি ভিডিও ফ্রেমে ৭টি টোকেন হিসাবে উপস্থাপন করা হয়।
যেসব ভিডিওর নমুনা প্রতি সেকেন্ডে ১ ফ্রেম (fps) এর বেশি, তাদের জন্য প্রথম ঘন্টার ভিডিওর টাইমস্ট্যাম্প প্রতি ভিডিও ফ্রেমে ৯টি টোকেন হিসেবে উপস্থাপন করা হয়। বাকি টাইমস্ট্যাম্পগুলি প্রতি ভিডিও ফ্রেমে ১১টি টোকেন হিসেবে উপস্থাপন করা হয়।

ভিডিও: সর্বোত্তম অনুশীলন

ভিডিও ব্যবহার করার সময়, সর্বোত্তম ফলাফলের জন্য নিম্নলিখিত সর্বোত্তম অনুশীলন এবং তথ্য ব্যবহার করুন:

যদি আপনার প্রম্পটে একটি ভিডিও থাকে, তাহলে টেক্সট প্রম্পটের আগে ভিডিওটি রাখুন।
যদি আপনার অডিও সহ কোনও ভিডিওতে টাইমস্ট্যাম্প স্থানীয়করণের প্রয়োজন হয়, তাহলে মডেলটিকে "টাইমস্ট্যাম্প ফর্ম্যাট"-এ বর্ণিত ফর্ম্যাট অনুসরণ করে টাইমস্ট্যাম্প তৈরি করতে বলুন।

ভিডিও: সীমাবদ্ধতা

কন্টেন্ট নিয়ন্ত্রণ : মডেলরা আমাদের নিরাপত্তা নীতি লঙ্ঘন করে এমন ভিডিওর উত্তর দিতে অস্বীকৃতি জানায়।
নন-স্পিচ সাউন্ড রিকগনিশন : যেসব মডেল অডিও সাপোর্ট করে তারা নন-স্পিচ সাউন্ড চিনতে ভুল করতে পারে।

অডিও : প্রয়োজনীয়তা এবং সীমাবদ্ধতা

অডিও: প্রয়োজনীয়তা

এই বিভাগে, সমর্থিত MIME প্রকার এবং অডিওর জন্য প্রতি অনুরোধের সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকারগুলি

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত অডিও MIME প্রকারগুলিকে সমর্থন করে:

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
এমপিএ - audio/m4a
এমপিইজি - audio/mpeg
এমপিজিএ - audio/mpga
MP4 - audio/mp4
ওপাস - audio/opus
পিসিএম - audio/pcm
WAV - audio/wav
WEBM - audio/webm

প্রতি অনুরোধের সীমা

প্রতি অনুরোধে সর্বোচ্চ ফাইল: ১টি অডিও ফাইল

অডিও: সীমাবদ্ধতা

নন-স্পিচ সাউন্ড রিকগনিশন : যেসব মডেল অডিও সাপোর্ট করে তারা নন-স্পিচ সাউন্ড চিনতে ভুল করতে পারে।
শুধুমাত্র অডিও টাইমস্ট্যাম্প : শুধুমাত্র অডিও ফাইলের জন্য সঠিকভাবে টাইমস্ট্যাম্প তৈরি করতে, আপনাকে generation_config এ audio_timestamp প্যারামিটারটি কনফিগার করতে হবে।

নথি (যেমন পিডিএফ) : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা

নথি: প্রয়োজনীয়তা

এই বিভাগে, সমর্থিত MIME প্রকার এবং নথির (যেমন PDF) প্রতি অনুরোধের সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকারগুলি

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত MIME ধরণের ডকুমেন্ট সমর্থন করে:

পিডিএফ - application/pdf
টেক্সট - text/plain

প্রতি অনুরোধের সীমা

পিডিএফ ফাইলগুলিকে ছবি হিসেবে বিবেচনা করা হয়, তাই একটি পিডিএফের একটি পৃষ্ঠাকে একটি ছবি হিসেবে বিবেচনা করা হয়। একটি প্রম্পটে অনুমোদিত পৃষ্ঠার সংখ্যা জেমিনি মাল্টিমোডাল মডেলগুলি কতগুলি ছবি সমর্থন করতে পারে তার মধ্যে সীমাবদ্ধ।

প্রতি অনুরোধে সর্বোচ্চ ফাইল: ৩,০০০ ফাইল
প্রতি ফাইলে সর্বোচ্চ পৃষ্ঠা: প্রতি ফাইলে ১,০০০ পৃষ্ঠা
প্রতিটি ফাইলের সর্বোচ্চ আকার: ৫০ এমবি

ডকুমেন্টস: টোকেনাইজেশন

পিডিএফ টোকেনাইজেশন

পিডিএফগুলিকে ছবি হিসেবে বিবেচনা করা হয়, তাই পিডিএফের প্রতিটি পৃষ্ঠাকে ছবির মতোই টোকেনাইজ করা হয়।

এছাড়াও, পিডিএফের খরচ জেমিনি ইমেজ প্রাইসিং এর পরে আসে। উদাহরণস্বরূপ, যদি আপনি একটি জেমিনি এপিআই কলে দুই পৃষ্ঠার পিডিএফ অন্তর্ভুক্ত করেন, তাহলে আপনাকে দুটি ছবি প্রক্রিয়াকরণের জন্য ইনপুট ফি দিতে হবে।

নথি: সর্বোত্তম অনুশীলন

PDF ব্যবহার করার সময়, সেরা ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্য ব্যবহার করুন:

যদি আপনার প্রম্পটে একটি মাত্র PDF থাকে, তাহলে আপনার অনুরোধে টেক্সট প্রম্পটের আগে PDF টি রাখুন।
যদি আপনার একটি দীর্ঘ নথি থাকে, তাহলে এটি প্রক্রিয়া করার জন্য এটিকে একাধিক PDF এ ভাগ করার কথা বিবেচনা করুন।
স্ক্যান করা ছবিতে টেক্সট ব্যবহার করার পরিবর্তে টেক্সট হিসেবে রেন্ডার করা টেক্সট দিয়ে তৈরি PDF ব্যবহার করুন। এই ফর্ম্যাটটি নিশ্চিত করে যে টেক্সটটি মেশিনে পঠনযোগ্য, যাতে স্ক্যান করা ইমেজ PDF এর তুলনায় মডেলের পক্ষে সম্পাদনা, অনুসন্ধান এবং ম্যানিপুলেট করা সহজ হয়। চুক্তির মতো টেক্সট-ভারী ডকুমেন্টের সাথে কাজ করার সময় এই পদ্ধতিটি সর্বোত্তম ফলাফল প্রদান করে।

নথি: সীমাবদ্ধতা

স্থানিক যুক্তি : মডেলগুলি PDF-এ টেক্সট বা বস্তুর অবস্থান নির্ণয়ে সুনির্দিষ্ট নয়। তারা কেবল বস্তুর আনুমানিক সংখ্যাই ফেরত দিতে পারে।
নির্ভুলতা : পিডিএফ ডকুমেন্টে হাতে লেখা লেখা ব্যাখ্যা করার সময় মডেলগুলি হ্যালুসিনেট করতে পারে।