মডেলের মিথুন পরিবারকে মাল্টিমোডাল হিসাবে বিবেচনা করা হয় কারণ তারা ছবি, ভিডিও এবং পাঠ্য সহ একাধিক পদ্ধতি থেকে তথ্য প্রক্রিয়াকরণ করতে সক্ষম। উদাহরণস্বরূপ, আপনি একটি মিথুন মডেলের কুকিজের একটি প্লেটের একটি ফটো পাঠাতে পারেন এবং সেই কুকিগুলির জন্য আপনাকে একটি রেসিপি দিতে বলতে পারেন৷
প্রম্পট | প্রতিক্রিয়া |
আমাকে এই কুকিজ জন্য একটি রেসিপি দিন. | **উপকরণ** - 1 গ. (2 লাঠি) লবণবিহীন মাখন, নরম - 3/4 গ. দানাদার চিনি - 3/4 গ. বাদামী চিনি, প্যাক করা - 1 চা চামচ। ভ্যানিলা নির্যাস - 2টি বড় ডিম - 2 1/4 গ. সর্ব-উদ্দেশ্য ময়দা - 1 চা চামচ। বেকিং সোডা - 1 চা চামচ। লবণ ... |
আপনি Google Cloud Vertex AI দ্বারা প্রদত্ত Gemini API ব্যবহার করে মডেলের জেমিনি পরিবারের সাথে যোগাযোগ করতে পারেন। মোবাইল এবং ওয়েব অ্যাপের জন্য, আপনি Gemini API কল করতে Vertex AI in Firebase ব্যবহার করতে পারেন এবং আপনার অ্যাপ থেকে সরাসরি জেমিনি মডেলের সাথে ইন্টারঅ্যাক্ট করতে পারেন।
এই পৃষ্ঠাটি মিথুন মডেল সম্পর্কে নিম্নলিখিত তথ্য সরবরাহ করে:
বিভিন্ন মিথুন মডেলের ব্যবহারের ক্ষেত্রে উচ্চ-স্তরের তুলনা, তাদের সমর্থিত ইনপুট প্রকারগুলি সহ।
প্রতিটি মডেলের বিবরণের তুলনা, উদাহরণস্বরূপ সর্বাধিক ইনপুট টোকেন বা ভিডিওর সর্বোচ্চ দৈর্ঘ্য।
মিথুন মডেলগুলি কীভাবে সংস্করণ করা হয় তার বিবরণ, বিশেষত তাদের স্থিতিশীল , স্বয়ংক্রিয় আপডেট হওয়া এবং পূর্বরূপ সংস্করণ।
আরম্ভ করার সময় আপনার কোডে অন্তর্ভুক্ত করার জন্য উপলব্ধ মডেল নামের তালিকা।
মিথুন মডেলের জন্য সমর্থিত ভাষার তালিকা।
উপলব্ধ মডেল
আপনি Vertex AI in Firebase সাথে নিম্নলিখিত যেকোনও জেমিনি মডেল ব্যবহার করতে পারেন:
মিথুন 1.5 ফ্ল্যাশ
মাল্টিমোডাল মডেল যা 1.5 প্রো হিসাবে একই ধরনের ইনপুট এবং আউটপুট সমর্থন করে, কিন্তু 1 মিলিয়ন টোকেনের দীর্ঘ-প্রসঙ্গ বোঝার সাথে। জেমিনি 1.5 ফ্ল্যাশ বিশেষভাবে উচ্চ-ভলিউম, খরচ-কার্যকর অ্যাপ্লিকেশনের জন্য ডিজাইন করা হয়েছে।মিথুন 1.5 প্রো
মাল্টিমোডাল মডেল যা পাঠ্য বা কোড প্রতিক্রিয়ার জন্য পাঠ্য বা চ্যাট প্রম্পটে চিত্র, অডিও, ভিডিও এবং পিডিএফ ফাইল যোগ করা সমর্থন করে। এছাড়াও, এটি 2 মিলিয়ন টোকেন সহ দীর্ঘ-প্রসঙ্গ বোঝার সমর্থন করে।জেমিনি 1.0 প্রো ভিশন
একটি টেক্সট বা কোড প্রতিক্রিয়ার জন্য টেক্সট প্লাস ইমেজ এবং ভিডিও পরিচালনা করার জন্য ডিজাইন করা মাল্টিমোডাল মডেল। চ্যাটের জন্য ব্যবহার করা যাবে না।জেমিনি 1.0 প্রো
ন্যাচারাল ল্যাঙ্গুয়েজ টাস্ক, টেক্সট এবং কোডের সাথে মাল্টিটার্ন চ্যাট এবং কোড জেনারেশনের জন্য ডিজাইন করা হয়েছে।
আপনার কোডে অন্তর্ভুক্ত করতে মডেলের নামগুলিতে যান
প্রতিটি মডেলের জন্য কেস এবং ক্ষমতা ব্যবহার করুন
প্রতিটি মিথুন মডেলের বিভিন্ন ব্যবহারের ক্ষেত্রে সমর্থন করার জন্য বিভিন্ন ক্ষমতা রয়েছে। আপনি প্রতিটি মিথুন মডেল সম্পর্কে Google Cloud ডকুমেন্টেশনে আরও জানতে পারেন।
প্রতিটি মডেলের জন্য সমর্থিত ইনপুট এবং আউটপুট
মিথুন 1.5 ফ্ল্যাশ | মিথুন 1.5 প্রো | জেমিনি 1.0 প্রো ভিশন | জেমিনি 1.0 প্রো | |
---|---|---|---|---|
ইনপুট প্রকার | ||||
পাঠ্য | ||||
কোড | ||||
ছবি | ||||
ভিডিও (শুধুমাত্র ফ্রেম) | ||||
ভিডিও (ফ্রেম এবং অডিও) | ||||
অডিও | ||||
আউটপুট প্রকার | ||||
পাঠ্য | ||||
কোড |
সমর্থিত ফাইলের ধরন সম্পর্কে জানতে, Vertex AI Gemini API জন্য সমর্থিত ইনপুট ফাইল এবং প্রয়োজনীয়তাগুলি দেখুন।
প্রতিটি মডেলের জন্য সমর্থিত ক্ষমতা এবং সাধারণ বৈশিষ্ট্য
মিথুন 1.5 ফ্ল্যাশ | মিথুন 1.5 প্রো | জেমিনি 1.0 প্রো ভিশন | জেমিনি 1.0 প্রো | ||
---|---|---|---|---|---|
শুধুমাত্র-টেক্সট প্রম্পট থেকে টেক্সট জেনারেশন | |||||
মাল্টিমডাল প্রম্পট থেকে টেক্সট জেনারেশন | |||||
JSON আউটপুট (সীমাবদ্ধ স্কিমা মোড) (শীঘ্রই Vertex AI in Firebase তে আসছে) | |||||
বহু পালা চ্যাট | |||||
ফাংশন কলিং | |||||
বেসিক ফাংশন কলিং | |||||
সমান্তরাল ফাংশন কলিং | |||||
ফাংশন কলিং মোড | |||||
টোকেন এবং বিলযোগ্য অক্ষর গণনা করুন | |||||
সিস্টেম নির্দেশাবলী |
প্রতিটি মডেল সম্পর্কে বিস্তারিত তথ্য
সম্পত্তি | মিথুন 1.5 ফ্ল্যাশ | মিথুন 1.5 প্রো | জেমিনি 1.0 প্রো ভিশন | জেমিনি 1.0 প্রো |
---|---|---|---|---|
মোট টোকেন সীমা (একত্রিত ইনপুট এবং আউটপুট) * | 1,048,576 টোকেন | 2,097,152 টোকেন | 16,384 টোকেন | 32,760 টোকেন |
আউটপুট টোকেন সীমা * | 8,192 টোকেন | 8,192 টোকেন | 2,048 টোকেন | 8,192 টোকেন |
অনুরোধ প্রতি ছবির সর্বোচ্চ সংখ্যা | 3,000 ছবি | 3,000 ছবি | 16টি ছবি | N/A |
সর্বাধিক বেস64 এনকোড করা চিত্রের আকার | 7 এমবি | 7 এমবি | 7 এমবি | N/A |
সর্বোচ্চ পিডিএফ আকার | 30 এমবি | 30 এমবি | 30 এমবি | N/A |
অনুরোধ প্রতি ভিডিও ফাইল সর্বোচ্চ সংখ্যা | 10টি ভিডিও ফাইল | 10টি ভিডিও ফাইল | 1টি ভিডিও ফাইল | N/A |
ভিডিওর সর্বোচ্চ দৈর্ঘ্য (শুধুমাত্র ফ্রেম) | ~60 মিনিটের ভিডিও | ~60 মিনিটের ভিডিও | 2 মিনিট | N/A |
সর্বাধিক ভিডিও দৈর্ঘ্য (ফ্রেম এবং অডিও) | ~45 মিনিটের ভিডিও | ~45 মিনিটের ভিডিও | N/A | N/A |
অনুরোধ প্রতি অডিও ফাইল সর্বোচ্চ সংখ্যা | 1টি অডিও ফাইল | 1টি অডিও ফাইল | N/A | N/A |
সর্বাধিক অডিও দৈর্ঘ্য | ~8.4 ঘন্টার অডিও | ~8.4 ঘন্টার অডিও | N/A | N/A |
* সমস্ত মিথুন মডেলের জন্য, একটি টোকেন প্রায় 4টি অক্ষরের সমতুল্য, তাই 100টি টোকেন প্রায় 60-80টি ইংরেজি শব্দ। আপনি countTokens
ব্যবহার করে আপনার অনুরোধে টোকেনের মোট গণনা নির্ধারণ করতে পারেন।
এখানে আপনি মডেল এবং ইনপুট ফাইল সম্পর্কে আরও বিস্তারিত তথ্য খুঁজে পেতে পারেন:
Google Cloud ডকুমেন্টেশনে মাল্টিমোডাল মডেলের মধ্যে পার্থক্য সম্পর্কে জানুন।
সমর্থিত ফাইলের ধরন সম্পর্কে জানুন, কীভাবে MIME প্রকার নির্দিষ্ট করবেন এবং কীভাবে নিশ্চিত করবেন যে আপনার ফাইল এবং মাল্টিমোডাল অনুরোধগুলি প্রয়োজনীয়তাগুলি পূরণ করে এবং সমর্থিত ইনপুট ফাইলগুলিতে সেরা অনুশীলনগুলি অনুসরণ করে এবং Vertex AI Gemini API এর জন্য প্রয়োজনীয়তাগুলি অনুসরণ করে৷
মডেলের সংস্করণ
জেমিনি মডেলগুলি স্থিতিশীল , স্বয়ংক্রিয় আপডেট করা এবং পূর্বরূপ সংস্করণে অফার করা হয়৷
স্থিতিশীল সংস্করণগুলি সাধারণত উপলব্ধ বলে মনে করা হয়।
- স্থিতিশীল সংস্করণগুলির মডেল নামগুলি একটি নির্দিষ্ট তিন সংখ্যার সংস্করণ নম্বরের সাথে যুক্ত থাকে, উদাহরণস্বরূপ
gemini-1.0-pro-001
।
- স্থিতিশীল সংস্করণগুলির মডেল নামগুলি একটি নির্দিষ্ট তিন সংখ্যার সংস্করণ নম্বরের সাথে যুক্ত থাকে, উদাহরণস্বরূপ
স্বয়ংক্রিয় আপডেট হওয়া সংস্করণগুলি সর্বদা সেই মডেলের সর্বশেষ স্থিতিশীল সংস্করণের দিকে নির্দেশ করে; যদি একটি নতুন স্থিতিশীল সংস্করণ প্রকাশিত হয়, স্বয়ংক্রিয়ভাবে আপডেট হওয়া সংস্করণটি স্বয়ংক্রিয়ভাবে সেই নতুন স্থিতিশীল সংস্করণের দিকে নির্দেশ করা শুরু করে।
- স্বতঃ-আপডেট হওয়া সংস্করণের মডেলের নাম আছে যার কোনো পরিশিষ্ট নেই, উদাহরণস্বরূপ
gemini-1.0-pro
।
- স্বতঃ-আপডেট হওয়া সংস্করণের মডেলের নাম আছে যার কোনো পরিশিষ্ট নেই, উদাহরণস্বরূপ
পূর্বরূপ সংস্করণে নতুন ক্ষমতা রয়েছে এবং স্থিতিশীল নয় বলে মনে করা হয়। মনে রাখবেন যে পূর্বরূপ সংস্করণগুলি সর্বদা সেই মডেলের সর্বশেষ পূর্বরূপ সংস্করণের দিকে নির্দেশ করে; যদি একটি নতুন প্রিভিউ সংস্করণ প্রকাশ করা হয়, যে কোনো বিদ্যমান পূর্বরূপ সংস্করণ স্বয়ংক্রিয়ভাবে সেই নতুন পূর্বরূপ সংস্করণের দিকে নির্দেশ করতে শুরু করে।
- প্রিভিউ সংস্করণের সাথে মডেলের নাম যুক্ত থাকে
- মডেলের প্রাথমিক প্রকাশের তারিখ সহ -preview
(-MMDD
), উদাহরণস্বরূপgemini-1.5-pro-preview-0409
(এপ্রিল 9, 2024 এ প্রকাশিত)।
- প্রিভিউ সংস্করণের সাথে মডেলের নাম যুক্ত থাকে
Google Cloud ডকুমেন্টেশনে উপলব্ধ জেমিনি মডেল সংস্করণ এবং তাদের জীবনচক্র সম্পর্কে আরও জানুন।
উপলব্ধ মডেল নাম
মডেলের নাম হল সুস্পষ্ট মান যা আপনি জেনারেটিভ মডেল শুরু করার সময় আপনার কোডে অন্তর্ভুক্ত করেন (যা Gemini API কল করার জন্য একটি প্রয়োজনীয় পদক্ষেপ)। আপনার ভাষার জন্য প্রাথমিক উদাহরণের জন্য, শুরু করার নির্দেশিকা দেখুন।
Gemini 1.5 Flash মডেলের নাম
মডেলের নাম | বর্ণনা | মুক্তির মঞ্চ | প্রাথমিক প্রকাশের তারিখ | বন্ধের তারিখ |
---|---|---|---|---|
স্থিতিশীল সংস্করণ | ||||
gemini-1.5-flash-001 | জেমিনি 1.5 ফ্ল্যাশের সর্বশেষ স্থিতিশীল সংস্করণ | সাধারণ প্রাপ্যতা | 2024-05-24 | 2025-05-24 এর আগে নয় |
স্বয়ংক্রিয় আপডেট সংস্করণ | ||||
gemini-1.5-flash | 1.5 ফ্ল্যাশের সর্বশেষ স্থিতিশীল সংস্করণের দিকে নির্দেশ করে৷ (বর্তমানে gemini-1.5-flash-001 ) | সাধারণ প্রাপ্যতা | 2024-05-24 | --- |
পূর্বরূপ সংস্করণ | ||||
gemini-1.5-flash-preview-0514 | জেমিনি 1.5 ফ্ল্যাশের সর্বশেষ পূর্বরূপ সংস্করণ | সর্বজনীন পূর্বরূপ | 2024-05-14 | 2024-06-24 |
Gemini 1.5 Pro মডেলের নাম
মডেলের নাম | বর্ণনা | মুক্তির মঞ্চ | প্রাথমিক প্রকাশের তারিখ | বন্ধের তারিখ |
---|---|---|---|---|
স্থিতিশীল সংস্করণ | ||||
gemini-1.5-pro-001 | জেমিনি 1.5 প্রো এর সর্বশেষ স্থিতিশীল সংস্করণ | সাধারণ প্রাপ্যতা | 2024-05-24 | 2025-05-24 এর আগে নয় |
স্বয়ংক্রিয় আপডেট সংস্করণ | ||||
gemini-1.5-pro | 1.5 প্রো এর সর্বশেষ স্থিতিশীল সংস্করণের দিকে নির্দেশ করে (বর্তমানে gemini-1.5-pro-001 ) | সাধারণ প্রাপ্যতা | 2024-05-24 | --- |
পূর্বরূপ সংস্করণ | ||||
gemini-1.5-pro-preview-0514 | Gemini 1.5 Pro এর সর্বশেষ প্রিভিউ সংস্করণ | সর্বজনীন পূর্বরূপ | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 | নির্দেশ করেgemini-1.5-pro-preview-0514 (যা সর্বশেষ প্রিভিউ সংস্করণ) | সর্বজনীন পূর্বরূপ | 2024-04-09 | 2024-06-14 |
জেমিনি 1.0 প্রো ভিশন মডেলের নাম
মডেলের নাম | বর্ণনা | মুক্তির মঞ্চ | প্রাথমিক প্রকাশের তারিখ | বন্ধের তারিখ |
---|---|---|---|---|
স্থিতিশীল সংস্করণ | ||||
gemini-1.0-pro-vision-001 | জেমিনি 1.0 প্রো ভিশনের সর্বশেষ স্থিতিশীল সংস্করণ | সাধারণ প্রাপ্যতা | 2024-02-15 | 2025-02-15 এর আগে নয় |
স্বয়ংক্রিয় আপডেট সংস্করণ | ||||
gemini-1.0-pro-vision | 1.5 প্রো ভিশনের সর্বশেষ স্থিতিশীল সংস্করণের দিকে নির্দেশ করে (বর্তমানে gemini-1.5-pro-vision-001 ) | সাধারণ প্রাপ্যতা | 2024-01-04 | --- |
Gemini 1.0 Pro মডেলের নাম
মডেলের নাম | বর্ণনা | মুক্তির মঞ্চ | প্রাথমিক প্রকাশের তারিখ | বন্ধের তারিখ |
---|---|---|---|---|
স্থিতিশীল সংস্করণ | ||||
gemini-1.0-pro-002 | Gemini 1.0 Pro এর সর্বশেষ স্থিতিশীল সংস্করণ | সাধারণ প্রাপ্যতা | 2024-04-09 | 2025-04-09 এর আগে নয় |
gemini-1.0-pro-001 | Gemini 1.0 Pro এর স্থিতিশীল সংস্করণ | সাধারণ প্রাপ্যতা | 2024-02-15 | 2025-02-15 এর আগে নয় |
স্বয়ংক্রিয় আপডেট সংস্করণ | ||||
gemini-1.0-pro | 1.0 প্রো এর সর্বশেষ স্থিতিশীল সংস্করণের দিকে নির্দেশ করে৷ (বর্তমানে gemini-1.0-pro-002 ) | সাধারণ প্রাপ্যতা | 2024-02-15 | --- |
সমর্থিত ভাষা
সমস্ত মিথুন মডেল নিম্নলিখিত ভাষায় বুঝতে এবং প্রতিক্রিয়া জানাতে পারে:
আরবি (আরবি), বাংলা (বিএন), বুলগেরিয়ান (বিজি), চাইনিজ সরলীকৃত এবং ঐতিহ্যবাহী (zh), ক্রোয়েশিয়ান (hr), চেক (cs), ডেনিশ (da), ডাচ (nl), ইংরেজি (en), এস্তোনিয়ান ( et), ফিনিশ (fi), ফ্রেঞ্চ (fr), জার্মান (de), গ্রীক (el), হিব্রু (iw), হিন্দি (hi), হাঙ্গেরিয়ান (hu), ইন্দোনেশিয়ান (id), ইতালীয় (it), জাপানি ( ja), কোরিয়ান (ko), লাটভিয়ান (lv), লিথুয়ানিয়ান (lt), নরওয়েজিয়ান (no), পোলিশ (pl), পর্তুগিজ (pt), রোমানিয়ান (ro), রাশিয়ান (ru), সার্বিয়ান (sr), স্লোভাক ( sk), স্লোভেনীয় (sl), স্প্যানিশ (es), সোয়াহিলি (sw), সুইডিশ (sv), থাই (th), তুর্কি (tr), ইউক্রেনীয় (uk), ভিয়েতনামী (vi)
জেমিনি 1.5 প্রো এবং জেমিনি 1.5 ফ্ল্যাশ মডেলগুলি নিম্নলিখিত অতিরিক্ত ভাষায় বুঝতে এবং প্রতিক্রিয়া জানাতে পারে:
Afrikaans (af), আমহারিক (am), অসমীয়া (as), আজারবাইজানীয় (az), বেলারুশিয়ান (be), বসনিয়ান (bs), কাতালান (ca), Cebuano (ceb), Corsican (co), ওয়েলশ (cy), ধিভেহি (ডিভি), এস্পেরান্তো (ইও), বাস্ক (ইউ), ফার্সি (ফা), ফিলিপিনো (তাগালগ) (ফিল), ফ্রিসিয়ান (ফাই), আইরিশ (গা), স্কটস গ্যালিক (জিডি), গ্যালিসিয়ান (জিএল), গুজরাটি (gu), হাউসা (ha), হাওয়াইয়ান (haw), Hmong (hmn), হাইতিয়ান ক্রেওল (ht), আর্মেনিয়ান (hy), ইগবো (ig), আইসল্যান্ডিক (is), জাভানিজ (jv), জর্জিয়ান (ka), কাজাখ (kk), খেমার (কিমি), কন্নড় (কেএন), ক্রিও (ক্রি), কুর্দি (কু), কিরগিজ (কি), ল্যাটিন (লা), লুক্সেমবার্গিশ (lb), লাও (lo), মালাগাসি (mg), মাওরি (মাই), ম্যাসেডোনিয়ান (এমকে), মালায়ালাম (মিলি), মঙ্গোলিয়ান (এমএন), মেইটেইলন (মণিপুরি) (এমএনআই-এমটিই), মারাঠি (মিস্টার), মালয় (এমএস), মাল্টিজ (এমটি), মায়ানমার (বর্মি) ( আমার), নেপালি (নে), নানজা (চিচেওয়া) (নি), ওড়িয়া (ওড়িয়া) (বা), পাঞ্জাবি (পা), পশতু (পিএস), সিন্ধি (এসডি), সিংহলা (সিংহলি) (সি), সামোয়ান (এসএম) ), Shona (sn), সোমালি (so), আলবেনিয়ান (sq), সেসোথো (st), সুদানিজ (su), তামিল (ta), তেলুগু (te), তাজিক (tg), উইঘুর (ug), উর্দু (ur) , Uzbek (uz), Xhosa (xh), য়িদ্দিশ (yi), ইওরুবা (yo), জুলু (zu)
পরবর্তী পদক্ষেপ
Gemini API এর ক্ষমতা ব্যবহার করে দেখুন
- মাল্টি-টার্ন কথোপকথন তৈরি করুন (চ্যাট) ।
- শুধুমাত্র পাঠ্য প্রম্পট থেকে পাঠ্য তৈরি করুন।
- মাল্টিমোডাল প্রম্পট থেকে পাঠ্য তৈরি করুন (পাঠ্য, চিত্র, পিডিএফ, ভিডিও এবং অডিও সহ)।
- বাহ্যিক সিস্টেম এবং তথ্যের সাথে জেনারেটিভ মডেল সংযোগ করতে ফাংশন কলিং ব্যবহার করুন।