مدلهای خانواده جمینی چندوجهی در نظر گرفته میشوند زیرا قادر به پردازش اطلاعات از روشهای مختلف، از جمله تصاویر، ویدئوها و متن هستند. به عنوان مثال، می توانید یک مدل Gemini یک عکس از یک بشقاب کلوچه بفرستید و از او بخواهید که دستور پخت آن کوکی ها را به شما بدهد.
اعلان | پاسخ |
دستور پخت این کوکی ها را به من بدهید. | **مواد تشکیل دهنده** - 1 c. (2 چوب) کره بدون نمک، نرم شده - 3/4 c. شکر دانه ریز - 3/4 c. شکر قهوه ای بسته بندی شده - 1 قاشق چایخوری عصاره وانیل - 2 عدد تخم مرغ بزرگ - 2 1/4 c. آرد همه منظوره - 1 قاشق چایخوری جوش شیرین - 1 قاشق چایخوری نمک ... |
می توانید با استفاده از Gemini API ارائه شده توسط Vertex AI در Google Cloud با خانواده مدل های Gemini تعامل داشته باشید. برای برنامه های موبایل و وب، می توانید از Vertex AI in Firebase SDK برای فراخوانی Gemini API و تعامل مستقیم با مدل های Gemini از برنامه خود استفاده کنید.
این صفحه اطلاعات زیر را در مورد مدل های جمینی ارائه می دهد:
مقایسه سطح بالایی از موارد استفاده برای مدلهای مختلف Gemini، از جمله انواع ورودی پشتیبانیشده آنها.
مقایسه جزئیات برای هر مدل ، به عنوان مثال حداکثر نشانه های ورودی یا حداکثر طول ویدیو.
شرح نحوه نسخهسازی مدلهای Gemini، بهویژه نسخههای پایدار ، بهروزرسانی خودکار و پیشنمایش آنها.
لیستی از نام مدل های موجود برای گنجاندن در کد خود در هنگام شروع اولیه.
لیست زبان های پشتیبانی شده برای مدل های Gemini.
مدل های موجود
می توانید از هر یک از مدل های Gemini زیر با Vertex AI in Firebase استفاده کنید:
فلش جمینی 1.5
مدل چند وجهی که از انواع ورودی و خروجی مشابه 1.5 Pro پشتیبانی می کند، اما با درک زمینه طولانی از 1 میلیون توکن. فلش Gemini 1.5 به طور خاص برای برنامه های کاربردی با حجم بالا و مقرون به صرفه طراحی شده است.جمینی 1.5 پرو
مدل چند وجهی که از افزودن تصویر، صدا، ویدئو و فایلهای PDF در متن یا چت پشتیبانی میکند، پاسخ متن یا کد را درخواست میکند. همچنین، از درک متن طولانی با 2 میلیون توکن پشتیبانی می کند.Gemini 1.0 Pro Vision
مدل چندوجهی طراحی شده برای مدیریت متن به اضافه تصاویر و ویدئو برای پاسخ متن یا کد. نمی توان برای چت استفاده کرد.Gemini 1.0 Pro
مدل طراحی شده برای انجام وظایف زبان طبیعی، چت چند طرفه با متن و کد، و تولید کد.
به نام مدل ها بروید تا در کد خود قرار دهید
برای هر مدل از موارد و قابلیت ها استفاده کنید
هر مدل Gemini دارای قابلیت های مختلفی برای پشتیبانی از موارد استفاده مختلف است. میتوانید در مستندات Google Cloud درباره هر یک از مدلهای Gemini اطلاعات بیشتری کسب کنید.
ورودی و خروجی پشتیبانی شده برای هر مدل
فلش جمینی 1.5 | جمینی 1.5 پرو | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
انواع ورودی | ||||
متن | ||||
کد | ||||
تصویر | ||||
ویدئو (فقط فریم) | ||||
ویدئو (فریم و صدا) | ||||
صوتی | ||||
انواع خروجی | ||||
متن | ||||
کد |
برای آشنایی با انواع فایل های پشتیبانی شده، به فایل های ورودی پشتیبانی شده و الزامات برای Vertex AI Gemini API مراجعه کنید.
قابلیت های پشتیبانی شده و ویژگی های کلی برای هر مدل
فلش جمینی 1.5 | جمینی 1.5 پرو | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
تولید متن از ورودی فقط متنی | |||||
تولید متن از ورودی چندوجهی | |||||
خروجی ساختاریافته (مانند JSON) با استفاده از طرح پاسخ (به زودی به Vertex AI in Firebase SDK) | |||||
چت چند نوبتی | |||||
فراخوانی تابع | |||||
فراخوانی تابع پایه | |||||
فراخوانی تابع موازی | |||||
عملکرد حالت تماس | |||||
توکن ها و کاراکترهای قابل پرداخت را بشمارید | |||||
دستورالعمل های سیستم |
اطلاعات دقیق در مورد هر مدل
اموال | فلش جمینی 1.5 | جمینی 1.5 پرو | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
حد کل رمز (ورودی و خروجی ترکیبی) * | 1,048,576 توکن | 2,097,152 توکن | 16384 توکن | 32760 توکن |
محدودیت رمز خروجی * | 8192 توکن | 8192 توکن | 2048 توکن | 8192 توکن |
حداکثر تعداد تصاویر در هر درخواست | 3000 عکس | 3000 عکس | 16 تصویر | N/A |
حداکثر اندازه تصویر کدگذاری شده base64 | 7 مگابایت | 7 مگابایت | 7 مگابایت | N/A |
حداکثر اندازه PDF | 30 مگابایت | 30 مگابایت | 30 مگابایت | N/A |
حداکثر تعداد فایل های ویدئویی در هر درخواست | 10 فایل ویدئویی | 10 فایل ویدئویی | 1 فایل ویدیویی | N/A |
حداکثر طول ویدیو (فقط فریم) | 60 دقیقه فیلم | 60 دقیقه فیلم | 2 دقیقه | N/A |
حداکثر طول ویدیو (فریم و صدا) | ~45 دقیقه ویدیو | ~45 دقیقه ویدیو | N/A | N/A |
حداکثر تعداد فایل های صوتی در هر درخواست | 1 فایل صوتی | 1 فایل صوتی | N/A | N/A |
حداکثر طول صدا | ~ 8.4 ساعت صدا | ~ 8.4 ساعت صدا | N/A | N/A |
* برای تمام مدل های جمینی، یک نشانه معادل حدود 4 کاراکتر است، بنابراین 100 توکن حدود 60-80 کلمه انگلیسی است. با استفاده از countTokens
می توانید تعداد کل نشانه ها را در درخواست های خود تعیین کنید.
درباره انواع فایلهای پشتیبانیشده، نحوه تعیین نوع MIME، و نحوه اطمینان از اینکه فایلها و درخواستهای چندوجهی شما شرایط را برآورده میکنند و بهترین روشها را در فایلهای ورودی پشتیبانیشده و الزامات Vertex AI Gemini API دنبال میکنند، بیاموزید.
نسخه سازی مدل ها
مدلهای Gemini در نسخههای پایدار ، بهروزرسانی خودکار و پیشنمایش ارائه میشوند.
نسخه های پایدار به طور کلی در دسترس هستند.
- به عنوان مثال، نسخههای پایدار دارای نام مدلهایی هستند که با یک شماره نسخه سه رقمی خاص اضافه شدهاند
gemini-1.5-pro-002
.
- به عنوان مثال، نسخههای پایدار دارای نام مدلهایی هستند که با یک شماره نسخه سه رقمی خاص اضافه شدهاند
نسخه های به روز شده خودکار همیشه به آخرین نسخه پایدار آن مدل اشاره می کنند. اگر یک نسخه پایدار جدید منتشر شود، نسخه به روز شده خودکار به طور خودکار به آن نسخه پایدار جدید اشاره می کند.
- به عنوان مثال، نسخه های به روز شده خودکار دارای نام مدل بدون ضمیمه هستند
gemini-1.5-pro
.
- به عنوان مثال، نسخه های به روز شده خودکار دارای نام مدل بدون ضمیمه هستند
نسخه های پیش نمایش دارای قابلیت های جدیدی هستند و ثابت نیستند . توجه داشته باشید که نسخه های پیش نمایش همیشه به آخرین نسخه پیش نمایش آن مدل اشاره می کنند. اگر نسخه پیشنمایش جدیدی منتشر شود، هر نسخه پیشنمایش موجود بهطور خودکار به آن نسخه پیشنمایش جدید اشاره میکند.
- نسخههای پیشنمایش دارای نام مدلها هستند
-preview
همراه با تاریخ عرضه اولیه مدل (-MMDD
)، به عنوان مثالgemini-1.5-pro-preview-0409
(منتشر شده در 9 آوریل 2024).
- نسخههای پیشنمایش دارای نام مدلها هستند
درباره نسخههای مدل Gemini موجود و چرخه عمر آنها در اسناد Google Cloud بیشتر بیاموزید.
نام مدل های موجود
نام مدلها مقادیر صریحی هستند که در کد خود در طول اولیهسازی مدل تولیدی (که یک مرحله لازم برای فراخوانی Gemini API است) وارد میکنید. برای مثالهای اولیه برای زبان خود، راهنمای شروع را ببینید.
نام مدل های فلش Gemini 1.5
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار اولیه | تاریخ توقف |
---|---|---|---|---|
نسخه های پایدار | ||||
gemini-1.5-flash-002 | آخرین نسخه پایدار Gemini 1.5 Flash | در دسترس بودن عمومی | 2024-09-24 | نه زودتر از 2025-09-24 |
gemini-1.5-flash-001 | نسخه پایدار اولیه Gemini 1.5 Flash | در دسترس بودن عمومی | 24-05-2024 | نه زودتر از 24/05/2025 |
نسخه به روز رسانی خودکار | ||||
gemini-1.5-flash | به آخرین نسخه پایدار 1.5 Flash اشاره می کند (در حال حاضر gemini-1.5-flash-002 ) | در دسترس بودن عمومی | 2024-09-24 | --- |
نام مدل های Gemini 1.5 Pro
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار اولیه | تاریخ توقف |
---|---|---|---|---|
نسخه های پایدار | ||||
gemini-1.5-pro-002 | آخرین نسخه پایدار Gemini 1.5 Pro | در دسترس بودن عمومی | 2024-09-24 | نه زودتر از 2025-09-24 |
gemini-1.5-pro-001 | نسخه پایدار اولیه Gemini 1.5 Pro | در دسترس بودن عمومی | 24-05-2024 | نه زودتر از 24/05/2025 |
نسخه به روز رسانی خودکار | ||||
gemini-1.5-pro | به آخرین نسخه پایدار 1.5 Pro اشاره می کند (در حال حاضر gemini-1.5-pro-002 ) | در دسترس بودن عمومی | 2024-09-24 | --- |
نام مدل های Gemini 1.0 Pro Vision
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار اولیه | تاریخ توقف |
---|---|---|---|---|
نسخه های پایدار | ||||
gemini-1.0-pro-vision-001 | آخرین نسخه پایدار Gemini 1.0 Pro Vision | در دسترس بودن عمومی | 15-02-2024 | نه زودتر از 15/02/2025 |
نسخه به روز رسانی خودکار | ||||
gemini-1.0-pro-vision | به آخرین نسخه پایدار 1.5 Pro Vision اشاره می کند (در حال حاضر gemini-1.5-pro-vision-001 ) | در دسترس بودن عمومی | 04-01-2024 | --- |
نام مدل های Gemini 1.0 Pro
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار اولیه | تاریخ توقف |
---|---|---|---|---|
نسخه های پایدار | ||||
gemini-1.0-pro-002 | آخرین نسخه پایدار Gemini 1.0 Pro | در دسترس بودن عمومی | 09-04-2024 | نه زودتر از 09-04-2025 |
gemini-1.0-pro-001 | نسخه پایدار Gemini 1.0 Pro | در دسترس بودن عمومی | 15-02-2024 | نه زودتر از 15/02/2025 |
نسخه به روز رسانی خودکار | ||||
gemini-1.0-pro | به آخرین نسخه پایدار 1.0 Pro اشاره می کند (در حال حاضر gemini-1.0-pro-002 ) | در دسترس بودن عمومی | 15-02-2024 | --- |
زبان های پشتیبانی شده
همه مدلهای Gemini میتوانند به زبانهای زیر بفهمند و پاسخ دهند:
عربی (ar)، بنگالی (bn)، بلغاری (bg)، چینی ساده و سنتی (zh)، کرواتی (hr)، چکی (cs)، دانمارکی (da)، هلندی (nl)، انگلیسی (en)، استونیایی ( et)، فنلاندی (fi)، فرانسوی (fr)، آلمانی (de)، یونانی (el)، عبری (iw)، هندی (hi)، مجارستانی (hu)، اندونزیایی (id)، ایتالیایی (it)، ژاپنی ( ja)، کره ای (ko)، لتونی (lv)، لیتوانیایی (lt)، نروژی (خیر)، لهستانی (pl)، پرتغالی (pt)، رومانیایی (ro)، روسی (ru)، صربی (sr)، اسلواکی ( sk)، اسلوونیایی (sl)، اسپانیایی (es)، سواحیلی (sw)، سوئدی (sv)، تایلندی (th)، ترکی (tr)، اوکراینی (بریتانیا)، ویتنامی (vi)
مدلهای Gemini 1.5 Pro و Gemini 1.5 Flash میتوانند به زبانهای اضافی زیر بفهمند و پاسخ دهند:
آفریقایی (af)، آمهری (am)، آسامی (ع)، آذربایجانی (az)، بلاروسی (be)، بوسنیایی (bs)، کاتالان (ca)، سبوانو (ceb)، کورسی (co)، ولزی (cy)، دیوهی (dv)، اسپرانتو (eo)، باسکی (eu)، فارسی (fa)، فیلیپینی (تاگالوگ) (fil)، فریزی (fy)، ایرلندی (ga)، گالیکی اسکاتلندی (gd)، گالیسی (gl)، گجراتی (gu)، هائوسا (ha)، هاوایی (haw)، همونگ (hmn)، کریول هائیتی (ht)، ارمنی (hy)، ایگبو (ig)، ایسلندی (is)، جاوه ای (jv)، گرجی (ka)، قزاقستانی (kk)، خمری (km)، کانادایی (kn)، کریو (kri)، کردی (ku)، قرقیزی (ky)، لاتین (la)، لوگزامبورگی (lb)، لائوس (lo)، مالاگاسی (mg)، مائوری (mi)، مقدونی (mk)، مالایالام (ml)، مغولی (mn)، Meiteilon (مانیپوری) (mni-Mtei)، مراتی (mr)، مالایی (ms)، مالتی (mt)، میانمار (برمه) ( my)، نپالی (ne)، نیانجا (چیچوا) (ny)، اودیا (اوریا) (یا)، پنجابی (pa)، پشتو (ps)، سندی (sd)، سینهالی (سینهالی) (si)، ساموایی (sm) )، شونا (sn)، سومالیایی (so)، آلبانیایی (sq)، سسوتو (st)، سوندانی (su)، تامیلی (ta)، تلوگو (te)، تاجیکی (tg)، اویغور (ug)، اردو (ur) )، ازبکی (وز)، خوسا (xh)، ییدیش (یی)، یوروبا (یو)، زولو (زو)
مراحل بعدی
قابلیت های Gemini API را امتحان کنید
- مکالمات چند نوبتی (چت) بسازید.
- متن را از اعلانهای فقط متنی ایجاد کنید.
- متن را از اعلانهای چندوجهی (شامل متن، تصاویر، PDF، ویدئو و صدا) تولید کنید.
- از فراخوانی تابع برای اتصال مدل های مولد به سیستم ها و اطلاعات خارجی استفاده کنید.