برای برنامههای موبایل و وب، کیتهای توسعه نرمافزار Firebase AI Logic به شما امکان میدهند مستقیماً از طریق برنامه خود با مدلهای Gemini و Imagen پشتیبانیشده تعامل داشته باشید.
مدلهای Gemini چندوجهی در نظر گرفته میشوند زیرا قادر به پردازش و حتی تولید چندین حالت، از جمله متن، کد، PDF، تصاویر، ویدیو و صدا هستند. مدلهای Imagen را میتوان با متن برای تولید تصاویر تحریک کرد.
جدول زیر خلاصهای از مدلهای پشتیبانیشده برای Firebase AI Logic و نام آخرین مدلهای پایدار آنها را نشان میدهد. این جدول همچنین مدلهای پیشنمایش و آزمایشی را که برای موارد استفاده نمونهسازی در دسترس هستند، فهرست میکند.
همچنین، سوالات متداول ما را در مورد تمام مدلهایی که Firebase AI Logic پشتیبانی میکند و پشتیبانی نمیکند، بررسی کنید.
مدلهای جمینی
| مدل | ورودی | خروجی | توضیحات |
|---|---|---|---|
| مدلهای Gemini با نسخههای پایدار | |||
جمینی ۲.۵ پروgemini-2.5-pro | متن، کد، فایلهای PDF، تصاویر، ویدیو، صدا | متن، کد، JSON | پیشرفتهترین مدل استدلال ما، قادر به حل مسائل پیچیده. |
فلش جمینی ۲.۵gemini-2.5-flash | متن، کد، فایلهای PDF، تصاویر، ویدیو، صدا | متن، کد، JSON | مدل تفکر ما که قابلیتهای عالی و جامعی را ارائه میدهد. این مدل به گونهای طراحی شده است که تعادلی بین قیمت و عملکرد برقرار کند. |
جمینی ۲.۵ فلش-لایتgemini-2.5-flash-lite | متن، کد، فایلهای PDF، تصاویر، ویدیو، صدا | متن، کد، JSON | متعادلترین مدل Gemini ما، بهینه شده برای موارد استفاده با تأخیر کم و برنامههای مقرونبهصرفه. |
تصویر فلش Gemini 2.5gemini-2.5-flash-image | متن، کد، فایلهای PDF، تصاویر | تصاویر، متن و تصاویر | مدل استاندارد فلش ما برای گردشهای کاری خلاقانه سریع با قابلیت تولید تصویر و ویرایش چند مرحلهای و محاورهای ارتقا یافته است. (معروف به "نانو موز") |
فلش جمینی ۲.۰gemini-2.0-flash-001 | متن، کد، فایلهای PDF، تصاویر، ویدیو، صدا | متن، کد، JSON | مدل چندوجهی ما با ویژگیهای نسل بعدی و قابلیتهای بهبود یافته، از جمله سرعت برتر، استفاده از ابزار داخلی و یک پنجره متن توکن ۱ میلیونی |
جمینی ۲.۰ فلش-لایتgemini-2.0-flash-lite-001 | متن، کد، فایلهای PDF، تصاویر، ویدیو، صدا | متن، کد، JSON | سریعترین و مقرونبهصرفهترین مدل فلش ما. این یک مسیر ارتقا برای کاربران فلش ۱.۵ اینچی است که کیفیت بهتری را با همان قیمت و سرعت میخواهند. |
| مدلهای Gemini فقط با نسخههای پیشنمایش و آزمایشی (فقط برای موارد استفاده نمونهسازی اولیه توصیه میشود) | |||
تولید تصویر فلش Gemini 2.0gemini-2.0-flash-preview-image-generation | متن، کد، فایلهای PDF، تصاویر | تصاویر، متن و تصاویر | مدل چندوجهی ما که از ورودی چندوجهی و خروجی تصویر پشتیبانی میکند. |
جمینی ۲.۰ فلش لایو ۱gemini-2.0-flash-live-preview-04-09 | متن (پخش زنده)، صدا (استریمینگ) | متن (پخش زنده)، صدا (استریمینگ) | مدل چندوجهی ما که از پخش همزمان ورودیها و خروجیهای چندوجهی با تأخیر کم پشتیبانی میکند. |
۱ نامهای مدل اضافی بسته به ارائهدهنده و دسترسی API Gemini انتخابی شما، از Live API پشتیبانی میکنند (به صفحه Live API مراجعه کنید).
مدلهای ایمیجن
| مدل | ورودی | خروجی | توضیحات |
|---|---|---|---|
| مدلهای Imagen با نسخههای پایدار | |||
تصویر ۴imagen-4.0-generate-001 | متن | تصاویر | تصاویر واقعگرایانه و با کیفیت بالا را از متنهای زبان طبیعی تولید میکند |
ایمجین ۴ سریعimagen-4.0-fast-generate-001 | متن | تصاویر | تصاویر را برای نمونهسازی اولیه یا موارد استفاده با تأخیر کم تولید میکند |
ایمیجن ۴ اولتراimagen-4.0-ultra-generate-001 | متن | تصاویر | تصاویر واقعگرایانه و با کیفیت بالا را از متنهای زبان طبیعی تولید میکند |
تصویر ۳imagen-3.0-generate-002 | متن | تصاویر | تصاویر واقعگرایانه و با کیفیت بالا را از متنهای زبان طبیعی تولید میکند |
ایمجین ۳ فست ۲imagen-3.0-fast-generate-001 | متن | تصاویر | تصاویر را برای نمونهسازی اولیه یا موارد استفاده با تأخیر کم تولید میکند |
قابلیت ایمیجن ۳، ۲imagen-3.0-capability-001 | متن، تصاویر | تصاویر | ویرایش و تولید تصاویر؛ پشتیبانی از ویرایش مبتنی بر ماسک و سفارشیسازی با استفاده از تصاویر مرجع |
| مدلهای Imagen فقط با نسخههای پیشنمایش و آزمایشی (فقط برای موارد استفاده نمونهسازی اولیه توصیه میشود) | |||
| --- | --- | --- | --- |
۲- صرف نظر از نحوه دسترسی شما، توسط رابط برنامهنویسی کاربردی توسعهدهندگان Gemini پشتیبانی نمیشود.
ادامهی این صفحه اطلاعات دقیقی در مورد مدلهای پشتیبانیشده توسط Firebase AI Logic ارائه میدهد.
- ورودی و خروجی پشتیبانی شده
- مقایسه سطح بالا از قابلیتهای پشتیبانیشده
- مشخصات و محدودیتها، برای مثال حداکثر توکنهای ورودی یا حداکثر طول ویدیوی ورودی
شرح نحوهی نسخهبندی مدلها ، به ویژه نسخههای پایدار ، بهروزرسانی خودکار ، پیشنمایش و آزمایشی آنها
فهرست نام مدلهای موجود برای گنجاندن در کد شما در هنگام مقداردهی اولیه
لیست زبانهای پشتیبانیشده برای مدلها
در پایین این صفحه، میتوانید اطلاعات دقیقی در مورد مدلهای قدیمیتر مشاهده کنید .
مقایسه مدلها
هر مدل قابلیتهای متفاوتی برای پشتیبانی از موارد استفاده مختلف دارد. توجه داشته باشید که هر یک از جداول این بخش، هر مدل را هنگام استفاده با Firebase AI Logic شرح میدهند. هر مدل ممکن است قابلیتهای اضافی داشته باشد که هنگام استفاده از SDK های ما در دسترس نیستند.
اگر اطلاعات مورد نظر خود را در زیربخشهای زیر پیدا نکردید، میتوانید اطلاعات بیشتری را در مستندات ارائهدهنده API انتخابی خود بیابید:
رابط برنامهنویسی کاربردی توسعهدهندگان Gemini : مدلهای Gemini و مدلهای Imagen
Vertex AI Gemini API : مدلهای Gemini و مدلهای Imagen
ورودی و خروجی پشتیبانی شده
اینها انواع ورودی و خروجی پشتیبانی شده هنگام استفاده از هر مدل با Firebase AI Logic هستند:
| جوزا ۲.۵ پرو، فلش، فلش-لایت | جوزا ۲.۵ فلش تصویر | جوزا فلش ۲.۰ | جوزا فلش ۲.۰ لایت | جوزا فلش ۲.۰ تولید تصویر | جوزا فلش ۲.۰ زنده | تصویر (تولید) | تصویر (قابلیت) | |
|---|---|---|---|---|---|---|---|---|
| انواع ورودی | ||||||||
| متن | ||||||||
| متن (پخش) | ||||||||
| کد | ||||||||
| اسناد (پیدیاف یا متن ساده) | ||||||||
| تصاویر | ||||||||
| ویدئو | ||||||||
| صوتی | ||||||||
| صدا (پخش جریانی) | ||||||||
| انواع خروجی | ||||||||
| متن | ||||||||
| متن (پخش) | ||||||||
| کد | ||||||||
| خروجی ساختاریافته (مثل جیسون) | ||||||||
| تصاویر | ||||||||
| صوتی | ||||||||
| صدا (پخش جریانی) | ||||||||
برای آشنایی با انواع فایلهای پشتیبانیشده، به بخش فایلهای ورودی پشتیبانیشده و الزامات مراجعه کنید.
قابلیتها و ویژگیهای پشتیبانیشده
این قابلیتها و ویژگیهای پشتیبانیشده هنگام استفاده از هر مدل با Firebase AI Logic هستند:
| جوزا ۲.۵ پرو، فلش، فلش-لایت | جوزا ۲.۵ فلش تصویر | جوزا فلش ۲.۰ | جوزا فلش ۲.۰ لایت | جوزا فلش ۲.۰ تولید تصویر | جوزا فلش ۲.۰ زنده | تصویر (تولید) | تصویر (قابلیت) | |
|---|---|---|---|---|---|---|---|---|
| تفکر | ||||||||
| تولید متن از ورودیهای فقط متنی یا چندوجهی | به صورت لایه لایه یا به عنوان بخشی از تصویر | به صورت لایه لایه یا به عنوان بخشی از تصویر | فقط پخش جریانی | |||||
| تولید تصاویر ( جوزا یا ایمیجن ) | ||||||||
| ویرایش تصاویر ( جوزا یا ایمیجن ) | ||||||||
| تولید صدا | فقط پخش جریانی | |||||||
| تولید خروجی ساختاریافته (مثل جیسون) | ||||||||
| اسناد را تجزیه و تحلیل کنید (پیدیاف یا متن ساده) | ||||||||
| تحلیل تصاویر (بینایی) | ||||||||
| تجزیه و تحلیل ویدیو (بینایی) | ||||||||
| تجزیه و تحلیل صدا | فقط پخش جریانی | |||||||
| چت چند نوبتی | ||||||||
| جریانسازی چندوجهی دوطرفه | ||||||||
| فراخوانی تابع | ||||||||
| اجرای کد | ||||||||
| اتصال به زمین با جستجوی گوگل | ||||||||
| دستورالعملهای سیستم | ||||||||
| تعداد توکنها |
مشخصات و محدودیتها
مشخصات و محدودیتهای استفاده از هر مدل با Firebase AI Logic به شرح زیر است:
| ملک | جوزا ۲.۵ پرو، فلش، فلش-لایت | جوزا ۲.۵ فلش تصویر | جوزا فلش ۲.۰ | جوزا فلش ۲.۰ لایت | جوزا فلش ۲.۰ تولید تصویر | جوزا فلش ۲.۰ زنده | تصویر (تولید) | تصویر (قابلیت) |
|---|---|---|---|---|---|---|---|---|
| پنجره زمینه * محدودیت کل توکن (ورودی + خروجی ترکیبی) | ۱,۰۴۸,۵۷۶ توکن | ۳۲۷۶۸ توکن | ۱,۰۴۸,۵۷۶ توکن | ۱,۰۴۸,۵۷۶ توکن | ۳۲۷۶۸ توکن | ۳۲۷۶۸ توکن | ۴۸۰ توکن | ۴۸۰ توکن |
| محدودیت توکن خروجی * | ۶۵,۵۳۶ توکن | ۸,۱۹۲ توکن | ۸,۱۹۲ توکن | ۸,۱۹۲ توکن | ۸,۱۹۲ توکن | ۸,۱۹۲ توکن | --- | --- |
| تاریخ پایان دانش | ژانویه ۲۰۲۵ | ژوئن ۲۰۲۵ | ژوئن ۲۰۲۴ | ژوئن ۲۰۲۴ | اوت ۲۰۲۴ | اوت ۲۰۲۴ | --- | --- |
| فایلهای PDF (بنا به درخواست) | ||||||||
| حداکثر تعداد از فایلهای PDF ورودی ** | ۳۰۰۰ فایل | ۳ فایل | ۳۰۰۰ فایل | ۳۰۰۰ فایل | ۳۰۰۰ فایل | --- | --- | --- |
| حداکثر تعداد از صفحات به ازای هر فایل PDF ورودی ** | ۱۰۰۰ صفحه | ۳ صفحه | ۱۰۰۰ صفحه | ۱۰۰۰ صفحه | ۱۰۰۰ صفحه | --- | --- | --- |
| حداکثر اندازه به ازای هر فایل PDF ورودی | ۵۰ مگابایت | ۵۰ مگابایت | ۵۰ مگابایت | ۵۰ مگابایت | ۵۰ مگابایت | --- | --- | --- |
| تصاویر (بنا به درخواست) | ||||||||
| حداکثر تعداد از تصاویر ورودی | ۳۰۰۰ تصویر | ۳ تصویر | ۳۰۰۰ تصویر | ۳۰۰۰ تصویر | ۳۰۰۰ تصویر | --- | --- | ۴ تصویر |
| حداکثر تعداد از تصاویر خروجی | --- | ۱۰ تصویر | --- | --- | ۱۰ تصویر | --- | ۴ تصویر | ۴ تصویر |
| حداکثر اندازه تصویر کدگذاری شده با base64 به ازای هر ورودی | ۷ مگابایت | ۷ مگابایت | ۷ مگابایت | ۷ مگابایت | ۷ مگابایت | --- | --- | --- |
| ویدئو (به درخواست) | ||||||||
| حداکثر تعداد از فایلهای ویدیویی ورودی | ۱۰ فایل | --- | ۱۰ فایل | ۱۰ فایل | --- | --- | --- | --- |
| حداکثر طول از تمام ویدیوهای ورودی (فقط قابها) | حدود ۶۰ دقیقه | --- | حدود ۶۰ دقیقه | حدود ۶۰ دقیقه | --- | --- | --- | --- |
| حداکثر طول از تمام ویدیوهای ورودی (فریمها + صدا) | حدود ۴۵ دقیقه | --- | حدود ۴۵ دقیقه | حدود ۴۵ دقیقه | --- | --- | --- | --- |
| صدا (به درخواست) | ||||||||
| حداکثر تعداد از فایلهای صوتی ورودی | ۱ فایل | --- | ۱ فایل | ۱ فایل | --- | --- | --- | --- |
| حداکثر تعداد از فایلهای صوتی خروجی | --- | --- | --- | --- | --- | --- | --- | --- |
| حداکثر طول از تمام صداهای ورودی | حدود ۸.۴ ساعت | حدود ۸.۴ ساعت | حدود ۸.۴ ساعت | حدود ۸.۴ ساعت | --- | --- | --- | --- |
| حداکثر طول از تمام صداهای خروجی | --- | --- | --- | --- | --- | --- | --- | --- |
* برای همه مدلهای Gemini ، یک توکن معادل حدود ۴ کاراکتر است، بنابراین ۱۰۰ توکن حدود ۶۰ تا ۸۰ کلمه انگلیسی است. برای مدلهای Gemini ، میتوانید تعداد کل توکنها را در درخواستهای خود با استفاده از countTokens تعیین کنید.
** فایلهای PDF به عنوان تصویر در نظر گرفته میشوند، بنابراین یک صفحه از PDF به عنوان یک تصویر در نظر گرفته میشود. تعداد صفحات مجاز در یک درخواست محدود به تعداد تصاویری است که مدل میتواند پشتیبانی کند.
اطلاعات دقیق اضافی را پیدا کنید
سهمیهها و قیمتگذاری برای هر مدل متفاوت است. قیمتگذاری همچنین به ورودی و خروجی بستگی دارد.
در مورد انواع فایلهای ورودی پشتیبانیشده، نحوه تعیین نوع MIME و نحوه اطمینان از اینکه فایلهای ورودی و درخواستهای چندوجهی شما الزامات را برآورده میکنند و از بهترین شیوهها در فایلها و الزامات ورودی پشتیبانیشده پیروی میکنند، اطلاعات کسب کنید.
الگوهای نسخهبندی و نامگذاری مدل
مدلها در نسخههای پایدار ، پیشنمایش و آزمایشی ارائه میشوند. برای راحتی، از نامهای مستعار بدون مقادیر نسخه صریح پشتیبانی میشود.
برای یافتن نامهای مدل خاص برای استفاده در کد خود، به بخش «نامهای مدل موجود» در ادامه همین صفحه مراجعه کنید.
| نوع نسخه / مرحله انتشار | توضیحات | الگوی نام مدل | |
|---|---|---|---|
| پایدار | نسخههای پایدار از تاریخ انتشار برای استفاده در محیط عملیاتی در دسترس و پشتیبانی میشوند.
|
| |
| نام مستعار پایدار با بهروزرسانی خودکار (فقط مدلهای Gemini 2.0 ) | نامهای مستعار پایدار که به صورت خودکار بهروزرسانی میشوند، همیشه به آخرین نسخه پایدار آن مدل اشاره میکنند.
| فقط مدلهای Gemini 2.0 مثال: | |
| پیشنمایش | نسخههای پیشنمایش دارای قابلیتهای جدیدی هستند و پایدار محسوب نمیشوند .
| نام مدلهای نسخههای پیشنمایش به همراه ... پیوست شدهاند. مثالها: | |
| تجربی | نسخههای آزمایشی قابلیتهای جدیدی دارند و پایدار تلقی نمیشوند .
| نام مدلهای نسخههای آزمایشی به همراه ... پیوست شده است. مثال: | |
| بازنشسته | نسخههای از رده خارج شده، تاریخ انقضایشان گذشته و برای همیشه غیرفعال شدهاند.
| --- | |
نام مدلهای موجود
نامهای مدل، مقادیر صریحی هستند که شما در هنگام مقداردهی اولیه مدل، در کد خود قرار میدهید.
پرش به نام مدلهای پرش به نام مدلهای Imagen
لیست کردن تمام مدلهای موجود به صورت برنامهنویسی شده
شما میتوانید با استفاده از REST API، نام تمام مدلهای موجود را فهرست کنید:
رابط برنامهنویسی کاربردی توسعهدهندگان Gemini : فراخوانی نقطه پایانی
models.listرابط برنامهنویسی کاربردی Vertex AI Gemini : فراخوانی نقطه پایانی
publishers.models.list
توجه داشته باشید که این لیست برگشتی شامل تمام مدلهای پشتیبانیشده توسط ارائهدهندگان API خواهد بود، اما Firebase AI Logic فقط از مدلهای Gemini و Imagen که در این صفحه توضیح داده شدهاند، پشتیبانی میکند. همچنین توجه داشته باشید که نامهای مستعار بهروزرسانیشده خودکار (به عنوان مثال، gemini-2.0-flash ) در فهرست قرار نگرفتهاند زیرا آنها یک نام مستعار برای مدل پایه هستند.
نام مدلهای جمینی
برای مثالهای مقداردهی اولیه برای پلتفرم خود، به راهنمای شروع به کار مراجعه کنید.
برای جزئیات بیشتر در مورد مراحل انتشار (به ویژه برای موارد استفاده، صدور صورتحساب و بازنشستگی)، به الگوهای نسخهبندی و نامگذاری مدل مراجعه کنید.
نام مدلهای Gemini 2.5 Pro
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
gemini-2.5-pro | نسخه پایدار Gemini 2.5 Pro | پایدار | ۲۰۲۵-۰۶-۱۷ | نه زودتر از ۲۰۲۶-۰۶-۱۷ |
نام مدلهای Gemini 2.5 Flash
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
gemini-2.5-flash | نسخه پایدار Gemini 2.5 Flash | پایدار | ۲۰۲۵-۰۶-۱۷ | نه زودتر از ۲۰۲۶-۰۶-۱۷ |
نام مدلهای Gemini 2.5 Flash‑Lite
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
gemini-2.5-flash-lite | نسخه پایدار Gemini 2.5 Flash‑Lite | پایدار | ۲۰۲۵-۰۷-۲۲ | نه زودتر از ۲۰۲۶-۰۷-۲۲ |
نام مدلهای تصویر فلش Gemini 2.5 (معروف به "نانو موز")
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
gemini-2.5-flash-image | نسخه پایدار برای Gemini 2.5 Flash Image (معروف به "نانو موز") | پایدار | ۲۰۲۵-۱۰-۰۲ | ۲۰۲۶-۱۰-۰۲ |
gemini-2.5-flash-image-preview | نسخه پیشنمایش برای Gemini 2.5 Flash Image (معروف به "نانو موز") | پیشنمایش | ۲۰۲۵-۰۸-۲۶ | ۲۰۲۵-۱۰-۳۱ |
نام مدلهای Gemini 2.5 Flash Live
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
gemini-live-2.5-flash | نسخه پایدار برای Gemini 2.5 Flash Live | پایدار (GA خصوصی) 1 | ۲۰۲۵-۰۶-۰۱ | نه زودتر از ۲۰۲۶-۰۶-۰۱ |
gemini-live-2.5-flash-preview 2 | نسخه پیشنمایش برای Gemini 2.5 Flash Live | پیشنمایش | ۲۰۲۵-۰۶-۰۱ | تعیین خواهد شد |
توجه داشته باشید که در نام مدلهای نسخه ۲.۵ برای Live API ، بخش live بلافاصله پس از بخش gemini قرار میگیرد.
Firebase AI Logic هنوز از مدلهای صوتی بومی (مانند gemini-2.5-flash-native-audio-preview-09-2025 ) پشتیبانی نمیکند .
۱- برای درخواست دسترسی، با نماینده تیم حساب Google Cloud خود تماس بگیرید.
۲ صرف نظر از نحوه دسترسی شما، توسط API مربوط به Vertex AI Gemini پشتیبانی نمیشود.
نام مدلهای Gemini 2.0 Flash
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
gemini-2.0-flash-001 | آخرین نسخه پایدار Gemini 2.0 Flash | پایدار | ۲۰۲۵-۰۲-۰۵ | نه زودتر از ۲۰۲۶-۰۲-۰۵ |
gemini-2.0-flash | نام مستعار بهروزرسانیشده خودکار که به آخرین نسخه پایدار Gemini 2.0 Flash اشاره دارد (در حال حاضر gemini-2.0-flash-001 ) | پایدار | ۲۰۲۵-۰۲-۱۰ | --- |
نام مدلهای Gemini 2.0 Flash‑Lite
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
gemini-2.0-flash-lite-001 | آخرین نسخه پایدار Gemini 2.0 Flash‑Lite | پایدار | 2025-02-25 | نه زودتر از ۲۰۲۶-۰۲-۲۵ |
gemini-2.0-flash-lite | نام مستعار بهروزرسانیشده خودکار که به آخرین نسخه پایدار Gemini 2.0 Flash‑Lite اشاره دارد (در حال حاضر gemini-2.0-flash-lite-001 ) | پایدار | 2025-02-25 | --- |
نام مدلهای تولید تصویر فلش Gemini 2.0
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
gemini-2.0-flash-preview-image-generation | نسخه پیشنمایش برای تولید تصویر فلش Gemini 2.0 | پیشنمایش | ۲۰۲۵-۰۵-۰۶ | ۲۰۲۵-۱۰-۳۱ |
نام مدلهای Gemini 2.0 Flash Live
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
gemini-2.0-flash-live-001 ۲ | نسخه پایدار برای Gemini 2.0 Flash Live | پایدار | ۲۰۲۵-۰۴-۰۱ | نه زودتر از ۲۰۲۶-۰۴-۰۱ |
gemini-2.0-flash-live-preview-04-09 | نسخه پیشنمایش Gemini 2.0 Flash Live | پیشنمایش | ۲۰۲۵-۰۴-۰۹ | تعیین خواهد شد |
۲ صرف نظر از نحوه دسترسی شما، توسط API مربوط به Vertex AI Gemini پشتیبانی نمیشود.
نام مدلهای ایمیجن
برای مثالهای مقداردهی اولیه برای پلتفرم خود، به راهنمای تولید تصاویر با Imagen مراجعه کنید.
برای جزئیات بیشتر در مورد مراحل انتشار (به ویژه برای موارد استفاده، صدور صورتحساب و بازنشستگی)، به الگوهای نسخهبندی و نامگذاری مدل مراجعه کنید.
نام مدلهای ایمیجن ۴
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
imagen-4.0-generate-001 | نسخه پایدار Imagen 4 | پایدار | ۱۴-۰۸-۲۰۲۵ | زودتر از 2026-08-14 مجاز نیست |
imagen-4.0-generate-preview-06-06 | نسخه پیشنمایش Imagen 4 | پیشنمایش | ۲۰۲۵-۰۶-۰۶ | همان اوایل که ۱۴-۰۸-۲۰۲۵ |
نام مدلهای Imagen 4 Fast
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
imagen-4.0-fast-generate-001 | نسخه پایدار Imagen 4 Fast | پایدار | ۱۴-۰۸-۲۰۲۵ | زودتر از 2026-08-14 مجاز نیست |
imagen-4.0-fast-generate-preview-06-06 3 | نسخه پیشنمایش Imagen 4 Fast (به زودی از رده خارج خواهد شد - استفاده نکنید) | پیشنمایش | ۲۰۲۵-۰۶-۰۶ | همان اوایل که ۱۴-۰۸-۲۰۲۵ |
نام مدلهای ایمیجن ۴ اولترا
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
imagen-4.0-ultra-generate-001 | نسخه پایدار Imagen 4 Ultra | پایدار | ۱۴-۰۸-۲۰۲۵ | زودتر از 2026-08-14 مجاز نیست |
imagen-4.0-ultra-generate-preview-06-06 | نسخه پیشنمایش Imagen 4 Ultra (به زودی از رده خارج خواهد شد - استفاده نکنید) | پیشنمایش | ۲۰۲۵-۰۶-۰۶ | همان اوایل که ۱۴-۰۸-۲۰۲۵ |
نام مدلهای ایمیجن ۳
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
imagen-3.0-generate-002 | آخرین نسخه پایدار Imagen 3 | پایدار | ۲۰۲۵-۰۱-۲۳ | زودتر از 2026-01-23 مجاز نیست |
imagen-3.0-generate-001 3 | نسخه پایدار اولیه Imagen 3 | پایدار | ۲۰۲۴-۰۷-۳۱ | زودتر از 2025-07-31 مجاز نیست |
نام مدلهای سریع Imagen 3
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
imagen-3.0-fast-generate-001 3 | نسخه پایدار اولیه Imagen 3 Fast | پایدار | ۲۰۲۴-۰۷-۳۱ | زودتر از 2025-07-31 مجاز نیست |
۳ صرف نظر از نحوه دسترسی شما، توسط رابط برنامهنویسی کاربردی توسعهدهندگان Gemini پشتیبانی نمیشود.
نام مدلهای قابلیت Imagen 3
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
imagen-3.0-capability-001 3 | نسخه پایدار اولیه قابلیت Imagen 3 | پایدار | ۲۰۲۴-۱۲-۱۰ | زودتر از 2025-12-10 |
۳ صرف نظر از نحوه دسترسی شما، توسط رابط برنامهنویسی کاربردی توسعهدهندگان Gemini پشتیبانی نمیشود.
زبانهای پشتیبانیشده
جوزا
تمام مدلهای Gemini میتوانند زبانهای زیر را درک کرده و به آنها پاسخ دهند:
عربی (ar)، بنگالی (bn)، بلغاری (bg)، چینی سادهشده و سنتی (zh)، کرواتی (hr)، چکی (cs)، دانمارکی (da)، هلندی (nl)، انگلیسی (en)، استونیایی (et)، فنلاندی (fi)، فرانسوی (fr)، آلمانی (de)، یونانی (el)، عبری (iw)، هندی (hi)، مجارستانی (hu)، اندونزیایی (id)، ایتالیایی (it)، ژاپنی (ja)، کرهای (ko)، لتونیایی (lv)، لیتوانیایی (lt)، نروژی (no)، لهستانی (pl)، پرتغالی (pt)، رومانیایی (ro)، روسی (ru)، صربی (sr)، اسلواکی (sk)، اسلوونیایی (sl)، اسپانیایی (es)، سواحیلی (sw)، سوئدی (sv)، تایلندی (th)، ترکی (tr)، اوکراینی (uk)، ویتنامی (vi)
مدلهای Gemini 2.0 Flash ، Gemini 1.5 Pro و Gemini 1.5 Flash میتوانند زبانهای اضافی زیر را درک کرده و به آنها پاسخ دهند:
آفریکانس (af)، آمهری (am)، آسامی (ع)، آذربایجانی (az)، بلاروسی (be)، بوسنیایی (bs)، کاتالان (ca)، سبوانو (ceb)، کورسی (co)، ولزی (cy)، Dhivehi (dv)، اسپرانتو (eo)، باسک (eu)، فارسی (fa)، فیلیپینی (تاگالوگ) (fil)، (fy)، ایرلندی (ga)، گالیکایی اسکاتلندی (ga)، گالیکایی گالاتی (ga)، اسکاتلندی (ga) (ha)، هاوایی (haw)، همونگ (hmn)، کریول هائیتی (ht)، ارمنی (hy)، ایگبو (ig)، ایسلندی (is)، جاوه ای (jv)، گرجی (ka)، قزاقستان (kk)، خمر (km)، کانادا (kn)، کریو (kri)، کردی (ku)، قرقیز (ky)، لاتین (la)، لوگزامبورگی (lb)، لائوس (lom)، مقدونی، مالاگاسی (mk)، مالایالام (ml)، مغولی (mn)، Meiteilon (Manipuri) (mni-Mtei)، مراتی (mr)، مالایی (ms)، مالتی (mt)، میانمار (برمه) (my)، نپالی (ne)، Nyanja (Chichewa) (ny)، Odia (Oriya) (یا)، پنجابی (Pa), Pashtoinhales (Pashto) (si)، ساموآیی (sm)، شونا (sn)، سومالیایی (so)، آلبانیایی (sq)، سسوتو (st)، سوندانی (su)، تامیلی (ta)، تلوگو (te)، تاجیکی (tg)، اویغور (ug)، اردو (ur)، ازبکی (uz)، Xhosa (xh)، ییدیش (yi)، یروبا (yo)، زولو (zu)
ایمیجِن
دسترسی عمومی : انگلیسی
پیشنمایش : چینی (سادهشده)، چینی (سنتی)، هندی، ژاپنی، کرهای، پرتغالی، اسپانیایی
اطلاعات مربوط به مدلهای قدیمیتر
| مدل | ورودی | خروجی | بهینه شده برای |
|---|---|---|---|
gemini-1.5-pro-002 | | | |
gemini-1.5-flash-002 | | | |
gemini-1.0-pro-vision-001 | | | |
gemini-1.0-pro-002 | | | |
اینها انواع ورودی و خروجی هنگام استفاده از هر مدل با Firebase AI Logic هستند:
| جمینی ۱.۵ پرو | فلش جمینی ۱.۵ | جمینی ۱.۰ پرو ویژن | جمینی ۱.۰ پرو | ||||
|---|---|---|---|---|---|---|---|
| انواع ورودی | |||||||
| متن | |||||||
| کد | |||||||
| اسناد (پیدیاف یا متن ساده) | |||||||
| تصاویر | |||||||
| ویدئو | |||||||
| صوتی | |||||||
| صدا (پخش جریانی) | |||||||
| انواع خروجی | |||||||
| متن | |||||||
| کد | |||||||
| خروجی ساختاریافته (مثل جیسون) | |||||||
| تصاویر، ویدیو و صدا | |||||||
این قابلیتها و ویژگیها هنگام استفاده از هر مدل با Firebase AI Logic وجود دارد:
| جمینی ۱.۵ پرو | فلش جمینی ۱.۵ | جمینی ۱.۰ پرو ویژن | جمینی ۱.۰ پرو | |
|---|---|---|---|---|
| تولید متن از ورودی فقط متنی | ||||
| تولید متن از ورودی چندوجهی | ||||
| تولید تصاویر | ||||
| تولید صدا | ||||
| تولید خروجی ساختاریافته (مثل جیسون) | ||||
| اسناد را تجزیه و تحلیل کنید (پیدیاف یا متن ساده) | ||||
| تحلیل تصاویر (بینایی) | ||||
| تجزیه و تحلیل ویدیو (بینایی) | ||||
| تجزیه و تحلیل صدا | ||||
| چت چند نوبتی | ||||
| فراخوانی تابع (ابزارها) | ||||
| تعداد توکنها و کاراکترهای قابل پرداخت | ||||
| دستورالعملهای سیستم | ||||
| جریانسازی چندوجهی دوطرفه |
مشخصات و محدودیتهای استفاده از هر مدل با Firebase AI Logic به شرح زیر است:
| جمینی ۱.۵ پرو | فلش جمینی ۱.۵ | جمینی ۱.۰ پرو ویژن | جمینی ۱.۰ پرو | ||||
|---|---|---|---|---|---|---|---|
| پنجره زمینه * محدودیت کل توکن (ورودی + خروجی ترکیبی) | ۲,۰۹۷,۱۵۲ توکن | ۱,۰۴۸,۵۷۶ توکن | ۱۶۳۸۴ توکن | ۳۲۷۶۰ توکن | |||
| محدودیت توکن خروجی * | ۸,۱۹۲ توکن | ۸,۱۹۲ توکن | ۲,۰۴۸ توکن | ۸,۱۹۲ توکن | |||
| تاریخ پایان دانش | مه ۲۰۲۴ | مه ۲۰۲۴ | فوریه ۲۰۲۳ | فوریه ۲۰۲۳ | |||
| فایلهای PDF (بنا به درخواست) | |||||||
| حداکثر تعداد از فایلهای PDF ورودی ** | ۳۰۰۰ فایل | ۳۰۰۰ فایل | ۱۶ فایل | --- | |||
| حداکثر تعداد تعداد صفحات به ازای هر فایل PDF ورودی ** | ۱۰۰۰ صفحه | ۱۰۰۰ صفحه | ۱۶ صفحه | --- | |||
| حداکثر اندازه به ازای هر فایل PDF ورودی | ۵۰ مگابایت | ۵۰ مگابایت | ۵۰ مگابایت | --- | |||
| تصاویر (بنا به درخواست) | |||||||
| حداکثر تعداد از تصاویر ورودی | ۳۰۰۰ تصویر | ۳۰۰۰ تصویر | ۱۶ تصویر | --- | |||
| حداکثر تعداد از تصاویر خروجی | --- | --- | --- | --- | |||
| حداکثر اندازه تصویر کدگذاری شده با base64 به ازای هر ورودی | ۷ مگابایت | ۷ مگابایت | ۷ مگابایت | --- | |||
| ویدئو (به درخواست) | |||||||
| حداکثر تعداد از فایلهای ویدیویی ورودی | ۱۰ فایل | ۱۰ فایل | ۱ فایل | --- | |||
| حداکثر طول از تمام ویدیوهای ورودی (فقط قابها) | حدود ۶۰ دقیقه | حدود ۶۰ دقیقه | ۲ دقیقه | --- | |||
| حداکثر طول از تمام ویدیوهای ورودی (فریمها + صدا) | حدود ۴۵ دقیقه | حدود ۴۵ دقیقه | --- | --- | |||
| صدا (به درخواست) | |||||||
| حداکثر تعداد از فایلهای صوتی ورودی | ۱ فایل | ۱ فایل | --- | --- | |||
| حداکثر تعداد از فایلهای صوتی خروجی | --- | --- | --- | --- | |||
| حداکثر طول از تمام صداهای ورودی | حدود ۸.۴ ساعت | حدود ۸.۴ ساعت | --- | --- | |||
| حداکثر طول از تمام صداهای خروجی | --- | --- | --- | --- | |||
* برای همه مدلهای Gemini ، یک توکن معادل حدود ۴ کاراکتر است، بنابراین ۱۰۰ توکن حدود ۶۰ تا ۸۰ کلمه انگلیسی است. برای مدلهای Gemini ، میتوانید تعداد کل توکنها را در درخواستهای خود با استفاده از countTokens تعیین کنید.
** فایلهای PDF به عنوان تصویر در نظر گرفته میشوند، بنابراین یک صفحه از PDF به عنوان یک تصویر در نظر گرفته میشود. تعداد صفحات مجاز در یک درخواست محدود به تعداد تصاویری است که مدل میتواند پشتیبانی کند.
نامهای مدل، مقادیر صریحی هستند که شما در هنگام مقداردهی اولیه مدل، در کد خود قرار میدهید.
نام مدلهای Gemini 1.5 Pro
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
| نسخههای پایدار | ||||
gemini-1.5-pro-002 | آخرین نسخه پایدار Gemini 1.5 Pro | بازنشستگی پیش رو | ۲۴-۰۹-۲۰۲۴ | ۲۴-۰۹-۲۰۲۵ |
gemini-1.5-pro-001 | نسخه پایدار اولیه Gemini 1.5 Pro | بازنشستگی پیش رو | ۲۴-۰۵-۲۰۲۴ | 2025-05-24 |
| نام مستعار پایدار با بهروزرسانی خودکار | ||||
gemini-1.5-pro | به آخرین نسخه پایدار ۱.۵ پرو اشاره دارد (در حال حاضر gemini-1.5-pro-002 ) | بازنشستگی پیش رو | ۲۴-۰۹-۲۰۲۴ | ۲۴-۰۹-۲۰۲۵ |
نام مدلهای Gemini 1.5 Flash
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
| نسخههای پایدار | ||||
gemini-1.5-flash-002 | آخرین نسخه پایدار Gemini 1.5 Flash | بازنشستگی پیش رو | ۲۴-۰۹-۲۰۲۴ | ۲۴-۰۹-۲۰۲۵ |
gemini-1.5-flash-001 | نسخه پایدار اولیه Gemini 1.5 Flash | بازنشستگی پیش رو | ۲۴-۰۵-۲۰۲۴ | 2025-05-24 |
| نام مستعار پایدار با بهروزرسانی خودکار | ||||
gemini-1.5-flash | به آخرین نسخه پایدار ۱.۵ فلش اشاره دارد (در حال حاضر gemini-1.5-flash-002 ) | بازنشستگی پیش رو | ۲۴-۰۹-۲۰۲۴ | ۲۴-۰۹-۲۰۲۵ |
نام مدلهای Gemini 1.0 Pro Vision
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
| نسخههای پایدار | ||||
gemini-1.0-pro-vision-001 | آخرین نسخه پایدار Gemini 1.0 Pro Vision | بازنشسته | ۲۰۲۴-۰۲-۱۵ | ۲۰۲۵-۰۴-۲۱ |
| نام مستعار پایدار با بهروزرسانی خودکار | ||||
gemini-1.0-pro-vision | به آخرین نسخه پایدار ۱.۵ Pro Vision اشاره دارد (در حال حاضر gemini-1.5-pro-vision-001 ) | بازنشسته | ۲۰۲۴-۰۱-۰۴ | ۲۰۲۵-۰۴-۲۱ |
نام مدلهای Gemini 1.0 Pro
| نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار | تاریخ بازنشستگی |
|---|---|---|---|---|
| نسخههای پایدار | ||||
gemini-1.0-pro-002 | آخرین نسخه پایدار Gemini 1.0 Pro | بازنشسته | ۲۰۲۴-۰۴-۰۹ | ۲۰۲۵-۰۴-۲۱ |
gemini-1.0-pro-001 | نسخه پایدار Gemini 1.0 Pro | بازنشسته | ۲۰۲۴-۰۲-۱۵ | ۲۰۲۵-۰۴-۲۱ |
| نام مستعار پایدار با بهروزرسانی خودکار | ||||
gemini-1.0-pro | به آخرین نسخه پایدار ۱.۰ پرو اشاره دارد (در حال حاضر gemini-1.0-pro-002 ) | بازنشسته | ۲۰۲۴-۰۲-۱۵ | ۲۰۲۵-۰۴-۲۱ |
مراحل بعدی
قابلیتهای رابط برنامهنویسی Gemini را امتحان کنید
- مکالمات چند نوبتی (چت) بسازید.
- تولید متن از درخواستهای فقط متنی .
- با استفاده از انواع فایلهای مختلف، مانند تصاویر ، فایلهای PDF ، ویدیو و صدا ، متن را با پرسوجو تولید کنید.
- خروجی ساختاریافته (مانند JSON) را از هر دو حالت متنی و چندوجهی تولید کنید.
- تصاویر را از متنهای پیشنهادی ( Gemini یا Imagen ) تولید کنید.
- ورودی و خروجی (از جمله صدا) را با استفاده از Gemini Live API استریم کنید.
- از ابزارهایی (مانند فراخوانی تابع و اتصال به زمین با جستجوی گوگل ) برای اتصال یک مدل Gemini به سایر بخشهای برنامه و سیستمها و اطلاعات خارجی خود استفاده کنید.