تُعدّ مجموعة نماذج Gemini متعددة الوسائط لأنّها قادرة على معالجة المعلومات من وسائط متعددة، بما في ذلك الصور والفيديوهات والنصوص. على سبيل المثال، يمكنك إرسال صورة طبق من البسكويت إلى أحد نماذج Gemini وطلب الحصول على وصفة لإعداد هذا البسكويت.
الطلب | الاستجابة |
Give me a recipe for these cookies. |
**INGREDIENTS**
|
يمكنك التفاعل مع مجموعة نماذج Gemini باستخدام Gemini API المقدَّمة من Vertex AI في Google Cloud. بالنسبة إلى تطبيقات الويب والتطبيقات المتوافقة مع الأجهزة الجوّالة، يمكنك استخدام Vertex AI in Firebase حِزم تطوير البرامج (SDK) للاتصال بواجهة Gemini API والتفاعل مع نماذج Gemini مباشرةً من تطبيقك.
تقدّم هذه الصفحة المعلومات التالية حول طُرز Gemini:
مقارنة عالية المستوى لحالات الاستخدام لنماذج Gemini المختلفة، بما في ذلك أنواع الإدخال المتوافقة
مقارنة تفاصيل كل نموذج، على سبيل المثال، الحد الأقصى لوحدات ترميز الإدخال أو الحد الأقصى لمدة الفيديو
وصف لكيفية إصدار نماذج Gemini، خاصةً إصداراتها الثابت والتي يتم تحديثها تلقائيًا والإصدارات التجريبية
قوائم بأسماء النماذج المتاحة لتضمينها في الرمز البرمجي أثناء الإعداد
قائمة باللغات المتاحة لطُرز Gemini
النماذج المتاحة
يمكنك استخدام أيّ من نماذج Gemini التالية مع Vertex AI in Firebase:
Gemini 1.5 Flash
نموذج متعدد الوسائط يتيح استخدام أنواع الإدخال والإخراج نفسها في 1.5 Pro، ولكن مع فهم السياق الطويل الذي يتضمّن مليون رمز مميّز. تم تصميم نموذج Gemini 1.5 Flash خصيصًا للتطبيقات التي تتطلب معالجة كميات كبيرة من البيانات بتكلفة منخفضة.Gemini 1.5 Pro
نموذج متعدد الوسائط يتيح إضافة صور وملفات صوتية وفيديو وملفات PDF في طلبات النص أو المحادثة للحصول على ردّ نصي أو رمز برمجي. ويدعم هذا النموذج أيضًا فهم السياق الطويل باستخدام مليونَي رمز.Gemini 1.0 Pro Vision
نموذج متعدد الوسائط مصمّم للتعامل مع النصوص بالإضافة إلى الصور والفيديوهات من أجل تقديم ردود نصية أو رمزية. لا يمكن استخدامها للمحادثة.Gemini 1.0 Pro
تم تصميم هذا النموذج لمعالجة مهام اللغة الطبيعية ومحادثات متعددة المقاطع باستخدام النصوص والرموز البرمجية وإنشاء الرموز البرمجية.
الانتقال إلى أسماء الطُرز لتضمينها في الرمز
حالات الاستخدام والإمكانات لكل نموذج
يمتلك كل طراز من طُرز Gemini إمكانات مختلفة لاستخدامه في حالات مختلفة. يمكنك الاطّلاع على مزيد من المعلومات في Google Cloud المستندات حول كل من نماذج Gemini.
الإدخالات والمخرجات المتوافقة لكل طراز
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
أنواع الإدخال | ||||
Text | ||||
الرمز | ||||
صورة | ||||
ملف PDF | ||||
الفيديو (الإطارات فقط) | ||||
الفيديو (الإطارات والصوت) | ||||
الصوت | ||||
أنواع النتائج | ||||
Text | ||||
إخراج منظَّم (مثل JSON) باستخدام مخطّط الاستجابة | ||||
الرمز |
للاطّلاع على أنواع الملفات المتوافقة، يُرجى الاطّلاع على مقالة ملفات الإدخال المتوافقة ومتطلبات Vertex AI Gemini API.
الإمكانات والميزات العامة المتاحة لكل طراز
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
إنشاء نص من إدخال نصي فقط | |||||
إنشاء نص من إدخال متعدد الوسائط | |||||
الإخراج المنظَّم (مثل JSON) باستخدام مخطّط الاستجابة | |||||
المحادثة المتعدّدة المقاطع | |||||
استدعاء الدوالّ | |||||
استدعاء الدوالّ الأساسية | |||||
استدعاء الدوالّ بشكل موازٍ | |||||
وضع استدعاء الدوال | |||||
احتساب الرموز والحروف التي يتم تحصيل رسومها | |||||
تعليمات النظام |
معلومات تفصيلية عن كل نموذج
الموقع (لكل طلب) | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
الحدّ الأقصى لعدد الرموز المميّزة (إدخال وإخراج مجمّعان) * | 1,048,576 رمزًا مميزًا | 2,097,152 رمزًا مميّزًا | 16,384 رمزًا مميزًا | 32,760 رمزًا مميزًا |
الحد الأقصى لعدد الرموز المميّزة للإخراج * | 8,192 رمزًا مميّزًا | 8,192 رمزًا مميّزًا | 2,048 رمزًا مميّزًا | 8,192 رمزًا مميّزًا |
الحد الأقصى لعدد الصور المُدخلة | 3,000 صورة | 3,000 صورة | 16 صورة | --- |
الحد الأقصى لحجم كل صورة مشفّرة بترميز Base64 | 7 ميغابايت | 7 ميغابايت | 7 ميغابايت | --- |
الحد الأقصى لعدد ملفات PDF التي يتم إدخالها ** | 3,000 ملف | 3,000 ملف | 16 ملفًا | --- |
الحد الأقصى لعدد الصفحات في كل ملف PDF ** | 1,000 صفحة | 1,000 صفحة | 16 صفحة | --- |
الحد الأقصى للحجم لكل ملف PDF | 50 ميغابايت | 50 ميغابايت | 50 ميغابايت | --- |
الحد الأقصى لعدد ملفات الفيديو التي يمكن إدخالها | 10 ملفات | 10 ملفات | ملف واحد | --- |
الحد الأقصى لطول كل الفيديوهات المُدخلة (الإطارات فقط) | 60 دقيقة | 60 دقيقة | دقيقتان | --- |
الحد الأقصى لمدة كل الفيديوهات المُدخلة (اللقطات والصوت) | 50 دقيقة تقريبًا | 50 دقيقة تقريبًا | --- | --- |
الحد الأقصى لعدد ملفات الصوت التي يتم إدخالها | ملف واحد | ملف واحد | --- | --- |
الحد الأقصى لطول كل المحتوى الصوتي الذي يتم إدخاله | 8.4 ساعة تقريبًا | 8.4 ساعة تقريبًا | --- | --- |
* في جميع نماذج Gemini، يعادل الرمز المميّز 4 أحرف تقريبًا،
وبالتالي، فإنّ 100 رمز مميّز تقريبًا تتراوح بين 60 و80 كلمة باللغة الإنجليزية. يمكنك تحديد إجمالي عدد
الرموز المميّزة في طلباتك باستخدام
countTokens
.
** يتم التعامل مع ملفات PDF كصور، لذا يتم التعامل مع صفحة واحدة من ملف PDF ك صورة واحدة. يقتصر عدد الصفحات المسموح به في الطلب على عدد الصور التي يمكن للنموذج التعامل معها.
تعرَّف على أنواع الملفات المتوافقة وكيفية تحديد نوع MIME وكيفية التأكّد من أنّ ملفاتك وطلباتك المتعدّدة الوسائط تستوفي المتطلبات وتتّبع أفضل الممارسات في ملفّات الإدخال المتوافقة ومتطلبات Vertex AI Gemini API.
إصدارات النماذج
تتوفّر نماذج Gemini في إصدارات ثابتة وتتم تحديثها تلقائيًا وإصدارات معاينة.
تُعتبر الإصدارات الثابتة متاحة للجمهور العام.
- تحتوي الإصدارات الثابتة على أسماء طُرز مُلحقة بأحد
أرقام الإصدار المحدّدة المكونة من ثلاثة أرقام، على سبيل المثال
.gemini-1.5-pro-002
- تحتوي الإصدارات الثابتة على أسماء طُرز مُلحقة بأحد
أرقام الإصدار المحدّدة المكونة من ثلاثة أرقام، على سبيل المثال
تشير الإصدارات التي يتم تحديثها تلقائيًا دائمًا إلى أحدث إصدار ثابت من هذا الطراز. وفي حال طرح إصدار ثابت جديد، سيبدأ الإصدار التي يتم تحديثها تلقائيًا بالإشارة تلقائيًا إلى هذا الإصدار الثابت الجديد.
- تحتوي الإصدارات التي يتم تحديثها تلقائيًا على أسماء طُرز بدون
لاحقة، على سبيل المثال
.gemini-1.5-pro
- تحتوي الإصدارات التي يتم تحديثها تلقائيًا على أسماء طُرز بدون
لاحقة، على سبيل المثال
تتضمّن إصدارات الإصدار التجريبي إمكانات جديدة وتعتبر غير ثابتة. يُرجى العِلم أنّ إصدارات المعاينة تشير دائمًا إلى أحدث إصدار من هذا النموذج. وفي حال طرح إصدار جديد من المعاينة، سيبدأ أي إصدار حالي من المعاينة بالإشارة تلقائيًا إلى هذا الإصدار الجديد من المعاينة.
- تحتوي الإصدارات التجريبية على أسماء الطُرز مع إضافة
بالإضافة إلى تاريخ الإصدار الأولي للنموذج (-preview
)، على سبيل المثال-MMDD
(تم إصداره في 9 نيسان (أبريل) 2024).gemini-1.5-pro-preview-0409
- تحتوي الإصدارات التجريبية على أسماء الطُرز مع إضافة
يمكنك الاطّلاع على مزيد من المعلومات حول إصدارات نماذج Gemini المتاحة ومراحل نشاطها في مستندات Google Cloud.
أسماء الطُرز المتاحة
أسماء النماذج هي القيم الصريحة التي تُدرِجها في الرمز البرمجي أثناء تهيئة النموذج التوليدي (وهي خطوة مطلوبة لاستدعاء Gemini API). للحصول على أمثلة على عملية الإعداد للغة التي تستخدمها، اطّلِع على دليل البدء.
أسماء نماذج Gemini 1.5 Flash
اسم الطراز | الوصف | مرحلة الإصدار | التاريخ الأولي للإصدار | تاريخ الإيقاف |
---|---|---|---|---|
الإصدارات الثابتة | ||||
gemini-1.5-flash-002 |
أحدث إصدار ثابت من نموذج Gemini 1.5 Flash | مرحلة التوفّر للجمهور العام | 2024-09-24 | لا يجوز أن يكون تاريخ الإصدار أقدم من 24-09-2025. |
gemini-1.5-flash-001 |
الإصدار الأولي الثابت من نموذج Gemini 1.5 Flash | مرحلة التوفّر للجمهور العام | 2024-05-24 | لا يجوز أن يكون تاريخ الإصدار قبل 24/05/2025. |
الإصدار الذي يتم تحديثه تلقائيًا | ||||
gemini-1.5-flash |
يشير إلى أحدث إصدار ثابت من Flash 1.5 (الإصدار الحالي هو gemini-1.5-flash-002 |
مرحلة التوفّر للجمهور العام | 2024-09-24 | --- |
أسماء نماذج Gemini 1.5 Pro
اسم الطراز | الوصف | مرحلة الإصدار | التاريخ الأولي للإصدار | تاريخ الإيقاف |
---|---|---|---|---|
الإصدارات الثابتة | ||||
gemini-1.5-pro-002 |
أحدث إصدار ثابت من Gemini 1.5 Pro | مرحلة التوفّر للجمهور العام | 2024-09-24 | لا يجوز أن يكون تاريخ الإصدار أقدم من 24-09-2025. |
gemini-1.5-pro-001 |
الإصدار الأولي الثابت من Gemini 1.5 Pro | مرحلة التوفّر للجمهور العام | 2024-05-24 | لا يجوز أن يكون تاريخ الإصدار قبل 24/05/2025. |
الإصدار الذي يتم تحديثه تلقائيًا | ||||
gemini-1.5-pro |
يشير إلى أحدث إصدار ثابت من الإصدار 1.5 Pro (الإصدار الحالي هو gemini-1.5-pro-002 |
مرحلة التوفّر للجمهور العام | 2024-09-24 | --- |
أسماء طُرز Gemini 1.0 Pro Vision
اسم الطراز | الوصف | مرحلة الإصدار | التاريخ الأولي للإصدار | تاريخ الإيقاف |
---|---|---|---|---|
الإصدارات الثابتة | ||||
gemini-1.0-pro-vision-001 |
أحدث إصدار ثابت من Gemini 1.0 Pro Vision | مرحلة التوفّر للجمهور العام | 2024-02-15 | لا يجوز أن يكون تاريخ الإصدار قبل 15 شباط (فبراير) 2025. |
الإصدار الذي يتم تحديثه تلقائيًا | ||||
gemini-1.0-pro-vision |
يشير إلى أحدث إصدار ثابت من الإصدار 1.5 من Pro Vision (الإصدار الحالي هو gemini-1.5-pro-vision-001 |
مرحلة التوفّر للجمهور العام | 2024-01-04 | --- |
أسماء طُرز Gemini 1.0 Pro
اسم الطراز | الوصف | مرحلة الإصدار | التاريخ الأولي للإصدار | تاريخ الإيقاف |
---|---|---|---|---|
الإصدارات الثابتة | ||||
gemini-1.0-pro-002 |
أحدث إصدار ثابت من Gemini 1.0 Pro | مرحلة التوفّر للجمهور العام | 2024-04-09 | لا يجوز أن يكون تاريخ الإصدار قبل 09-04-2025 |
gemini-1.0-pro-001 |
الإصدار الثابت من Gemini 1.0 Pro | مرحلة التوفّر للجمهور العام | 2024-02-15 | لا يجوز أن يكون تاريخ الإصدار قبل 15 شباط (فبراير) 2025. |
الإصدار الذي يتم تحديثه تلقائيًا | ||||
gemini-1.0-pro |
يشير إلى أحدث إصدار ثابت من الإصدار 1.0 Pro (الإصدار الحالي هو gemini-1.0-pro-002 |
مرحلة التوفّر للجمهور العام | 2024-02-15 | --- |
اللغات المتاحة
يمكن لجميع نماذج Gemini فهم الطلبات والردّ عليها بال اللغات التالية:
العربية (ar)، البنغالية (bn)، البلغارية (bg)، الصينية المبسّطة والتقليدية (zh)، الكرواتية (hr)، التشيكية (cs)، الدانمركية (da)، الهولندية (nl)، الإنجليزية (en)، الإستونية (et)، الفنلندية (fi)، الفرنسية (fr)، الألمانية (de)، اليونانية (el)، العبرية (iw)، الهندية (hi)، المجرية (hu)، الإندونيسية (id)، الإيطالية (it)، اليابانية (ja)، الكورية (ko)، اللاتفية (lv)، اللتوانية (lt)، النرويجية (no)، البولندية (pl)، البرتغالية (pt)، الرومانية (ro)، الروسية (ru)، الصربية (sr)، السلوفاكية (sk)، السلوفينية (sl)، الإسبانية (es)، السواحيلية (sw)، السويدية (sv)، التايلاندية (th)، التركية (tr)، الأوكرانية (uk)، الفيتنامية (vi)
يمكن للنماذج Gemini 1.5 Pro وGemini 1.5 Flash فهم اللغات الإضافية التالية والردّ بها:
الأفريقانية (af)، الأمهرية (am)، الأسامية (as)، الأذربيجانية (az)، البيلاروسية (be)، البوسنية (bs)، الكتالانية (ca)، السيبيانو (ceb)، الكورسيكية (co)، الويلزية (cy)، الديفيهية (dv)، الإسبرانتو (eo)، الباسكية (eu)، الفارسية (fa)، الفيليبينية (التاغالوغ) (fil)، الفريزية (fy)، الأيرلندية (ga)، الغيلية الاسكتلندية (gd)، الغاليسية (gl)، الغوجاراتية (gu)، الهوسا (ha)، الهوائية (haw)، الهمونغ (hmn)، الكريولية الهايتية (ht)، الأرمينية (hy)، الإيغبو (ig)، الأيسلندية (is)، الجاوية (jv)، الجورجية (ka)، الكازاخستانية (kk)، الخمير (km)، الكانادا (kn)، الكريو (kri)، الكردي (ku)، القيرغيزية (ky)، اللاتينية (la)، اللوكسمبورجية (lb)، اللاوية (lo)، المالاغاشية (mg)، الماوري (mi)، المقدونية (mk)، المالايالام (ml)، المنغولية (mn)، المايتيلون (المانيبوري) (mni-Mtei)، الماراثية (mr)، الماليزية (ms)، المالطية (mt)، الميانمار (البورمية) (my)، النيبالية (ne)، النيانجا (تشيتشوا) (ny)، الأودية (الأوريا) (or)، البنجابية (pa)، البشتوية (ps)، السندية (sd)، السنهالية (السنهالية) (si)، الساموا (sm)، الشونا (sn)، الصومالية (so)، الألبانية (sq)، السواحلية (st)، السواحيلية (su)، التاميلية (ta)، التيلوغو (te)، الطاجيكية (tg)، الأويغورية (ug)، الأوردية (ur)، الأوزبكية (uz)، الزولو (xh)، اليديشية (yi)، اليوروبا (yo)، الزولوية (zu)
الخطوات التالية
تجربة إمكانات Gemini API
- إنشاء محادثات متعددة المقاطع (محادثة)
- إنشاء نص من الطلبات النصية فقط
- إنشاء نص من طلبات متعددة الوسائط (بما في ذلك النصوص والصور وملفات PDF والفيديوهات والمحتوى الصوتي)
- إنشاء إخراج منظَّم (مثل تنسيق JSON) من كلّ من الطلبات النصية والطلبات المتعدّدة الوسائط
- استخدِم استدعاء الدوال لربط النماذج التوليدية بالأنظمة والمعلومات الخارجية.