با مدل های جمینی آشنا شوید

مدل‌های خانواده جمینی چندوجهی در نظر گرفته می‌شوند زیرا قادر به پردازش اطلاعات از روش‌های مختلف، از جمله تصاویر، ویدئوها و متن هستند. به عنوان مثال، می توانید یک مدل Gemini یک عکس از یک بشقاب کلوچه بفرستید و از او بخواهید که دستور پخت آن کوکی ها را به شما بدهد.

اعلان پاسخ

دستور پخت این کوکی ها را به من بدهید.

عکس چند کوکی شکلاتی
**مواد تشکیل دهنده**
- 1 c. (2 چوب) کره بدون نمک، نرم شده
- 3/4 c. شکر دانه ریز
- 3/4 c. شکر قهوه ای بسته بندی شده
- 1 قاشق چایخوری عصاره وانیل
- 2 عدد تخم مرغ بزرگ
- 2 1/4 c. آرد همه منظوره
- 1 قاشق چایخوری جوش شیرین
- 1 قاشق چایخوری نمک
...

می توانید با استفاده از Gemini API ارائه شده توسط Vertex AI در Google Cloud با خانواده مدل های Gemini تعامل داشته باشید. برای برنامه های موبایل و وب، می توانید از Vertex AI in Firebase SDK برای فراخوانی Gemini API و تعامل مستقیم با مدل های Gemini از برنامه خود استفاده کنید.

این صفحه اطلاعات زیر را در مورد مدل های جمینی ارائه می دهد:

مدل های موجود

می توانید از هر یک از مدل های Gemini زیر با Vertex AI in Firebase استفاده کنید:

  • فلش جمینی 1.5
    مدل چند وجهی که از انواع ورودی و خروجی مشابه 1.5 Pro پشتیبانی می کند، اما با درک زمینه طولانی از 1 میلیون توکن. فلش Gemini 1.5 به طور خاص برای برنامه های کاربردی با حجم بالا و مقرون به صرفه طراحی شده است.

  • جمینی 1.5 پرو
    مدل چند وجهی که از افزودن تصویر، صدا، ویدئو و فایل‌های PDF در متن یا چت پشتیبانی می‌کند، پاسخ متن یا کد را درخواست می‌کند. همچنین، از درک متن طولانی با 2 میلیون توکن پشتیبانی می کند.

  • Gemini 1.0 Pro Vision
    مدل چندوجهی طراحی شده برای مدیریت متن به اضافه تصاویر و ویدئو برای پاسخ متن یا کد. نمی توان برای چت استفاده کرد.

  • Gemini 1.0 Pro
    مدل طراحی شده برای انجام وظایف زبان طبیعی، چت چند طرفه با متن و کد، و تولید کد.

به نام مدل ها بروید تا در کد خود قرار دهید

برای هر مدل از موارد و قابلیت ها استفاده کنید

هر مدل Gemini دارای قابلیت های مختلفی برای پشتیبانی از موارد استفاده مختلف است. می‌توانید در مستندات Google Cloud درباره هر یک از مدل‌های Gemini اطلاعات بیشتری کسب کنید.

ورودی و خروجی پشتیبانی شده برای هر مدل

فلش جمینی 1.5 جمینی 1.5 پرو Gemini 1.0 Pro Vision Gemini 1.0 Pro
انواع ورودی
متن
کد
تصویر
PDF
ویدئو (فقط فریم)
ویدئو (فریم و صدا)
صوتی
انواع خروجی
متن
کد

برای آشنایی با انواع فایل های پشتیبانی شده، به فایل های ورودی پشتیبانی شده و الزامات برای Vertex AI Gemini API مراجعه کنید.

قابلیت های پشتیبانی شده و ویژگی های کلی برای هر مدل

فلش جمینی 1.5 جمینی 1.5 پرو Gemini 1.0 Pro Vision Gemini 1.0 Pro
تولید متن از ورودی فقط متنی
تولید متن از ورودی چندوجهی
خروجی ساختاریافته (مانند JSON) با استفاده از طرح پاسخ
(به زودی به Vertex AI in Firebase SDK)
چت چند نوبتی
فراخوانی تابع
فراخوانی تابع پایه
فراخوانی تابع موازی
عملکرد حالت تماس
توکن ها و کاراکترهای قابل پرداخت را بشمارید
دستورالعمل های سیستم

اطلاعات دقیق در مورد هر مدل

اموال فلش جمینی 1.5 جمینی 1.5 پرو Gemini 1.0 Pro Vision Gemini 1.0 Pro
حد کل رمز (ورودی و خروجی ترکیبی) * 1,048,576 توکن 2,097,152 توکن 16384 توکن 32760 توکن
محدودیت رمز خروجی * 8192 توکن 8192 توکن 2048 توکن 8192 توکن
حداکثر تعداد تصاویر در هر درخواست 3000 عکس 3000 عکس 16 تصویر N/A
حداکثر اندازه تصویر کدگذاری شده base64 7 مگابایت 7 مگابایت 7 مگابایت N/A
حداکثر اندازه PDF 30 مگابایت 30 مگابایت 30 مگابایت N/A
حداکثر تعداد فایل های ویدئویی در هر درخواست 10 فایل ویدئویی 10 فایل ویدئویی 1 فایل ویدیویی N/A
حداکثر طول ویدیو (فقط فریم) 60 دقیقه فیلم 60 دقیقه فیلم 2 دقیقه N/A
حداکثر طول ویدیو (فریم و صدا) ~45 دقیقه ویدیو ~45 دقیقه ویدیو N/A N/A
حداکثر تعداد فایل های صوتی در هر درخواست 1 فایل صوتی 1 فایل صوتی N/A N/A
حداکثر طول صدا ~ 8.4 ساعت صدا ~ 8.4 ساعت صدا N/A N/A

* برای تمام مدل های جمینی، یک نشانه معادل حدود 4 کاراکتر است، بنابراین 100 توکن حدود 60-80 کلمه انگلیسی است. با استفاده از countTokens می توانید تعداد کل نشانه ها را در درخواست های خود تعیین کنید.

درباره انواع فایل‌های پشتیبانی‌شده، نحوه تعیین نوع MIME، و نحوه اطمینان از اینکه فایل‌ها و درخواست‌های چندوجهی شما شرایط را برآورده می‌کنند و بهترین روش‌ها را در فایل‌های ورودی پشتیبانی‌شده و الزامات Vertex AI Gemini API دنبال می‌کنند، بیاموزید.

نسخه سازی مدل ها

مدل‌های Gemini در نسخه‌های پایدار ، به‌روزرسانی خودکار و پیش‌نمایش ارائه می‌شوند.

  • نسخه های پایدار به طور کلی در دسترس هستند.

    • به عنوان مثال، نسخه‌های پایدار دارای نام مدل‌هایی هستند که با یک شماره نسخه سه رقمی خاص اضافه شده‌اند gemini-1.5-pro-002 .
  • نسخه های به روز شده خودکار همیشه به آخرین نسخه پایدار آن مدل اشاره می کنند. اگر یک نسخه پایدار جدید منتشر شود، نسخه به روز شده خودکار به طور خودکار به آن نسخه پایدار جدید اشاره می کند.

    • به عنوان مثال، نسخه های به روز شده خودکار دارای نام مدل بدون ضمیمه هستند gemini-1.5-pro .
  • نسخه های پیش نمایش دارای قابلیت های جدیدی هستند و ثابت نیستند . توجه داشته باشید که نسخه های پیش نمایش همیشه به آخرین نسخه پیش نمایش آن مدل اشاره می کنند. اگر نسخه پیش‌نمایش جدیدی منتشر شود، هر نسخه پیش‌نمایش موجود به‌طور خودکار به آن نسخه پیش‌نمایش جدید اشاره می‌کند.

    • نسخه‌های پیش‌نمایش دارای نام مدل‌ها هستند -preview همراه با تاریخ عرضه اولیه مدل ( -MMDD )، به عنوان مثال gemini-1.5-pro-preview-0409 (منتشر شده در 9 آوریل 2024).

درباره نسخه‌های مدل Gemini موجود و چرخه عمر آنها در اسناد Google Cloud بیشتر بیاموزید.

نام مدل های موجود

نام مدل‌ها مقادیر صریحی هستند که در کد خود در طول اولیه‌سازی مدل تولیدی (که یک مرحله لازم برای فراخوانی Gemini API است) وارد می‌کنید. برای مثال‌های اولیه برای زبان خود، راهنمای شروع را ببینید.

نام مدل های فلش Gemini 1.5

نام مدل توضیحات مرحله انتشار تاریخ انتشار اولیه تاریخ توقف
نسخه های پایدار
gemini-1.5-flash-002 آخرین نسخه پایدار Gemini 1.5 Flash در دسترس بودن عمومی 2024-09-24 نه زودتر از 2025-09-24
gemini-1.5-flash-001 نسخه پایدار اولیه Gemini 1.5 Flash در دسترس بودن عمومی 24-05-2024 نه زودتر از 24/05/2025
نسخه به روز رسانی خودکار
gemini-1.5-flash به آخرین نسخه پایدار 1.5 Flash اشاره می کند
(در حال حاضر gemini-1.5-flash-002 )
در دسترس بودن عمومی 2024-09-24 ---

نام مدل های Gemini 1.5 Pro

نام مدل توضیحات مرحله انتشار تاریخ انتشار اولیه تاریخ توقف
نسخه های پایدار
gemini-1.5-pro-002 آخرین نسخه پایدار Gemini 1.5 Pro در دسترس بودن عمومی 2024-09-24 نه زودتر از 2025-09-24
gemini-1.5-pro-001 نسخه پایدار اولیه Gemini 1.5 Pro در دسترس بودن عمومی 24-05-2024 نه زودتر از 24/05/2025
نسخه به روز رسانی خودکار
gemini-1.5-pro به آخرین نسخه پایدار 1.5 Pro اشاره می کند
(در حال حاضر gemini-1.5-pro-002 )
در دسترس بودن عمومی 2024-09-24 ---

نام مدل های Gemini 1.0 Pro Vision

نام مدل توضیحات مرحله انتشار تاریخ انتشار اولیه تاریخ توقف
نسخه های پایدار
gemini-1.0-pro-vision-001 آخرین نسخه پایدار Gemini 1.0 Pro Vision در دسترس بودن عمومی 15-02-2024 نه زودتر از 15/02/2025
نسخه به روز رسانی خودکار
gemini-1.0-pro-vision به آخرین نسخه پایدار 1.5 Pro Vision اشاره می کند
(در حال حاضر gemini-1.5-pro-vision-001 )
در دسترس بودن عمومی 04-01-2024 ---

نام مدل های Gemini 1.0 Pro

نام مدل توضیحات مرحله انتشار تاریخ انتشار اولیه تاریخ توقف
نسخه های پایدار
gemini-1.0-pro-002 آخرین نسخه پایدار Gemini 1.0 Pro در دسترس بودن عمومی 09-04-2024 نه زودتر از 09-04-2025
gemini-1.0-pro-001 نسخه پایدار Gemini 1.0 Pro در دسترس بودن عمومی 15-02-2024 نه زودتر از 15/02/2025
نسخه به روز رسانی خودکار
gemini-1.0-pro به آخرین نسخه پایدار 1.0 Pro اشاره می کند
(در حال حاضر gemini-1.0-pro-002 )
در دسترس بودن عمومی 15-02-2024 ---

زبان های پشتیبانی شده

  • همه مدل‌های Gemini می‌توانند به زبان‌های زیر بفهمند و پاسخ دهند:

    عربی (ar)، بنگالی (bn)، بلغاری (bg)، چینی ساده و سنتی (zh)، کرواتی (hr)، چکی (cs)، دانمارکی (da)، هلندی (nl)، انگلیسی (en)، استونیایی ( et)، فنلاندی (fi)، فرانسوی (fr)، آلمانی (de)، یونانی (el)، عبری (iw)، هندی (hi)، مجارستانی (hu)، اندونزیایی (id)، ایتالیایی (it)، ژاپنی ( ja)، کره ای (ko)، لتونی (lv)، لیتوانیایی (lt)، نروژی (خیر)، لهستانی (pl)، پرتغالی (pt)، رومانیایی (ro)، روسی (ru)، صربی (sr)، اسلواکی ( sk)، اسلوونیایی (sl)، اسپانیایی (es)، سواحیلی (sw)، سوئدی (sv)، تایلندی (th)، ترکی (tr)، اوکراینی (بریتانیا)، ویتنامی (vi)

  • مدل‌های Gemini 1.5 Pro و Gemini 1.5 Flash می‌توانند به زبان‌های اضافی زیر بفهمند و پاسخ دهند:

    آفریقایی (af)، آمهری (am)، آسامی (ع)، آذربایجانی (az)، بلاروسی (be)، بوسنیایی (bs)، کاتالان (ca)، سبوانو (ceb)، کورسی (co)، ولزی (cy)، دیوهی (dv)، اسپرانتو (eo)، باسکی (eu)، فارسی (fa)، فیلیپینی (تاگالوگ) (fil)، فریزی (fy)، ایرلندی (ga)، گالیکی اسکاتلندی (gd)، گالیسی (gl)، گجراتی (gu)، هائوسا (ha)، هاوایی (haw)، همونگ (hmn)، کریول هائیتی (ht)، ارمنی (hy)، ایگبو (ig)، ایسلندی (is)، جاوه ای (jv)، گرجی (ka)، قزاقستانی (kk)، خمری (km)، کانادایی (kn)، کریو (kri)، کردی (ku)، قرقیزی (ky)، لاتین (la)، لوگزامبورگی (lb)، لائوس (lo)، مالاگاسی (mg)، مائوری (mi)، مقدونی (mk)، مالایالام (ml)، مغولی (mn)، Meiteilon (مانیپوری) (mni-Mtei)، مراتی (mr)، مالایی (ms)، مالتی (mt)، میانمار (برمه) ( my)، نپالی (ne)، نیانجا (چیچوا) (ny)، اودیا (اوریا) (یا)، پنجابی (pa)، پشتو (ps)، سندی (sd)، سینهالی (سینهالی) (si)، ساموایی (sm) )، شونا (sn)، سومالیایی (so)، آلبانیایی (sq)، سسوتو (st)، سوندانی (su)، تامیلی (ta)، تلوگو (te)، تاجیکی (tg)، اویغور (ug)، اردو (ur) )، ازبکی (وز)، خوسا (xh)، ییدیش (یی)، یوروبا (یو)، زولو (زو)

مراحل بعدی

قابلیت های Gemini API را امتحان کنید