عند الاتصال بالرقم Vertex AI Gemini API من تطبيقك باستخدام حزمة تطوير البرامج (SDK) Vertex AI in Firebase، يمكنك أن تطلب من نموذج Gemini إنشاء نص استنادًا إلى إدخال متعدد الوسائط. يمكن أن تتضمّن الطلبات المتعددة الوسائط عدة وسائط. (أو أنواع الإدخال)، مثل النص مع الصور وملفات PDF والفيديو والصوت.
بالنسبة للأجزاء غير النصية من الإدخال (مثل ملفات الوسائط)، تحتاج إلى استخدام الملفات المتوافقة، وتحديد نوع MIME متوافق والتأكد من وتتطلب الملفات والطلبات المتعددة الوسائط استيفاء المتطلبات واتّباع أفضل الممارسات.
توضّح هذه الصفحة أنواع بروتوكول MIME المتوافقة وأفضل الممارسات والقيود المفروضة. لما يلي:
المتطلبات الخاصة بحِزم SDK لنظام التشغيل Vertex AI in Firebase
بالنسبة إلى حزمتَي SDK (Vertex AI in Firebase)، يكون الحد الأقصى لإجمالي حجم الطلب هو 20 ميغابايت. يظهر لك خطأ HTTP 413 إذا كان الطلب كبيرًا جدًا.
إذا أدّى حجم الملف إلى تجاوز إجمالي حجم الطلب 20 ميغابايت، استخدام عنوان URL من النوع Cloud Storage for Firebase لتضمين الملف في طلبك المتعدد الوسائط
إذا كان الملف صغيرًا، فيمكنك غالبًا تمريره مباشرةً كبيانات مضمنة. يُرجى العِلم أنّ الملف المقدَّم كبيانات مضمّنة تم ترميزه إلى base64 في النقل العام، مما يزيد من حجم الطلب. للحصول على أمثلة توضح كيفية تضمين الملفات كبيانات مضمنة، والاطلاع على إنشاء نص من طلبات متعدّدة الوسائط باستخدام Gemini API
الصور: المتطلبات وأفضل الممارسات والقيود
الصور: المتطلبات
تعرَّف في هذا القسم على أنواع وحدود MIME المتاحة لكل طلب الصور.
أنواع MIME المتوافقة
تتوافق نماذج Gemini المتعدّدة الوسائط مع أنواع MIME التالية للصور:
نوع MIME للصورة | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - "image/jpeg " |
|||
WebP - image/webp |
الحدود القصوى المسموح بها لكل طلب
ما مِن حدّ أقصى محدّد لعدد البكسل في الصورة. ومع ذلك، يتم تصغير الصور الكبيرة وتبطينها لتلائم دقة قصوى تبلغ 3072 x 3072 مع الحفاظ على نسبة العرض إلى الارتفاع الأصلية.
في ما يلي الحد الأقصى لعدد ملفات الصور المسموح به في طلب فوري:
- Gemini 1.0 Pro Vision: 16 صورة
- Gemini 1.5 Flash و Gemini 1.5 Pro: 3,000 صورة
الصور: إنشاء رمز مميّز
إليك طريقة حساب الرموز المميزة للصور:
- Gemini 1.0 Pro Vision: تُمثّل كل صورة 258 رمزًا مميّزًا.
- Gemini 1.5 Flash
Gemini 1.5 Pro:
- إذا كان كلا بُعدي الصورة أقل من أو يساوي 384 بكسل، ثم يتم استخدام 258 رمزًا.
- إذا كان أحد أبعاد الصورة أكبر من 384 بكسل، فعندئذ يتم اقتصاص الصورة إلى أجزاء. يتم ضبط كل حجم مربّع تلقائيًا على الأصغر. البُعد (العرض أو الارتفاع) مقسومًا على 1.5. إذا لزم الأمر، يتم تعديل كل مربّع بحيث لا يكون أصغر من 256 بكسل ولا أكبر من 768 بكسل. يتم بعد ذلك تغيير حجم كل مربع إلى 768x768 ويستخدم 258 رمزًا مميزًا.
الصور: أفضل الممارسات
عند استخدام الصور، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:
- إذا أردت رصد نص في صورة، استخدِم الطلبات التي تتضمّن صورة واحدة من أجل تؤدي إلى نتائج أفضل من الطلبات التي تحتوي على عدة صور.
- إذا كان طلبك يتضمّن صورة واحدة، ضَع الصورة قبل النص. مطالبة في طلبك.
- إذا كان الطلب يتضمّن عدة صور وأردت الإشارة إليها
لاحقًا في طلبك أو جعل النموذج يشير إليها في استجابة النموذج،
قد يكون من المفيد إعطاء كل صورة فهرسًا قبلها. استخدام
أوa
b
c
للفهرس. في ما يلي مثال على استخدام صور مفهرسة في الطلب:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - استخدِم صورًا بدرجة دقة أعلى، لأنّها تحقّق نتائج أفضل.
- ضمِّن بعض الأمثلة في الطلب.
- يجب تدوير الصور إلى الاتجاه الصحيح قبل إضافتها إلى الطلب.
- تجنَّب استخدام الصور المموّهة.
الصور: القيود
على الرغم من أنّ نماذج Gemini المتعددة الوسائط فعّالة في العديد من حالات استخدام الوسائط المتعددة، من المهم فهم القيود المفروضة على النماذج:
- الإشراف على المحتوى: يرفض العارضون تقديم إجابات حول الصور التي تنتهك سياسات السلامة.
- الاستدلال المكاني: لا تُحدِّد النماذج بدقة مكان النصوص أو الكائنات في الصور. قد تعرض فقط الأعداد التقريبية الأخرى.
- الاستخدامات الطبية: هذه النماذج غير مناسبة لتفسيرها. صور طبية (مثل الأشعة السينية والأشعة المقطعية) أو توفر الأدوات الطبية نصيحة.
- التعرف على الأشخاص: ليس الغرض من النماذج للاستخدام من أجل التعرف على الأشخاص الذين ليسوا مشاهير في الصور.
- الدقة: قد تُظهر النماذج هلوسات أو تخطئ عند تفسير الصور المنخفضة الجودة أو المُدارَة أو ذات الدقة المنخفضة جدًا. قد تتوهم النماذج أيضًا عند تفسير نص مكتوب بخط اليد في مستندات الصور.
الفيديو: المتطلبات وأفضل الممارسات والقيود
الفيديو: المتطلبات
تعرَّف في هذا القسم على أنواع وحدود MIME المتاحة لكل طلب الفيديو القادم.
أنواع MIME المتوافقة
تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع الفيديو MIME التالية:
نوع MIME للفيديو | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
تنسيق MOV - video/quicktime |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
ميل في الغالون - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
بروتوكول 3GPP - video/3gpp |
الحدود لكل طلب
في ما يلي الحد الأقصى لعدد ملفات الفيديو المسموح به في طلب فوري:
- Gemini 1.0 Pro Vision: ملف فيديو واحد
- Gemini 1.5 Flash و Gemini 1.5 Pro: 10 ملفات فيديو
فيديو: إنشاء الرموز المميّزة
إليك طريقة حساب الرموز المميّزة للفيديو:
- جميع نماذج Gemini المتعددة الوسائط: يتم أخذ عيّنات من الفيديوهات في
لقطة واحدة في الثانية (لقطات في الثانية) : 258 إطارًا في كل إطار فيديو الرموز المميزة. - Gemini 1.5 Flash و
Gemini 1.5 Pro: يتم ترميز المقطع الصوتي
باستخدام لقطات الفيديو. يتم تقسيم المقطع الصوتي أيضًا إلى
خطوط اتصالات تبلغ مدتها ثانية واحدة والتي يحتوى كل منها على 32 رمزًا مميزًا. يتم تداخل رمزَي الإطار والصوت في الفيديو مع الطوابع الزمنية الخاصة بهما. يتم تمثيل الطابعات الزمنية على شكل 7 علامات.
فيديو: أفضل الممارسات
عند استخدام الفيديو، يُرجى اتّباع أفضل الممارسات والمعلومات التالية أفضل النتائج:
- إذا كان الطلب يحتوي على فيديو واحد، ضَع الفيديو قبل الطلب المكتوب.
- إذا أردت أقلمة الطوابع الزمنية في فيديو يتضمّن صوتًا، اطلب ذلك من النموذج.
لإنشاء طوابع زمنية بتنسيق
MM:SS
حيث يظهر أول حرفين ويمثل الرقمان الدقائق ويمثل آخر رقمين الثواني. يمكنك استخدام نفس التنسيق للأسئلة التي تُطرح عن طابع زمني. يُرجى مراعاة ما يلي إذا كنت تستخدم إصدار Gemini 1.0 Pro Vision:
- لا تستخدِم أكثر من فيديو واحد لكل طلب.
- يعالج النموذج المعلومات في أول دقيقتين فقط من الفيديو.
- يعالج النموذج الفيديوهات كإطارات صور غير متصلة من الفيديو. الصوت غير مضمّن. إذا لاحظت أن النموذج يفتقد إلى بعض من الفيديو، فحاول جعل الفيديو أقصر حتى يتسنى عرض النموذج يعرض جزءًا أكبر من محتوى الفيديو
- لا يعالج النموذج أي معلومات صوتية أو الطوابع الزمنية أو البيانات الوصفية. وبسبب ذلك، قد لا يحقّق النموذج أداءً جيدًا في حالات الاستخدام. التي تتطلب إدخالاً صوتيًا، مثل إضافة ترجمة صوتية أو معلومات المعلومات، مثل السرعة أو الإيقاع.
فيديو: القيود
على الرغم من أنّ نماذج Gemini المتعددة الوسائط فعّالة في العديد من حالات استخدام الوسائط المتعددة، من المهم فهم القيود المفروضة على النماذج:
- الإشراف على المحتوى: يرفض العارضون تقديم إجابات على الفيديوهات التي تخالف سياسات الأمان لدينا.
- التعرّف على الصوت بدون كلام: النماذج المتوافقة في الصوت قد يخطئ في تمييز الصوت وليس الكلام.
- الحركة السريعة: قد ترتكب النماذج أخطاء عند محاولة فهم الحركة السريعة في الفيديو بسبب معدّل أخذ العينات الثابت الذي يبلغ
لقطة واحدة في الثانية . - علامات ترقيم تحويل الصوت إلى نص: (في حال استخدام Gemini 1.5 Flash) قد تستخدم النماذج إرجاع النصوص التي لا تتضمن علامات ترقيم.
الصوت: المتطلبات والقيود
الصوت: المتطلبات
في هذا القسم، يمكنك التعرّف على أنواع MIME المتوافقة والحدود المسموح بها لكل طلب بشأن المحتوى الصوتي.
أنواع MIME المتوافقة
تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع MIME الصوتية التالية:
نوع MIME للصوت | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
الترميز المتقدّم للصوت - audio/aac |
||
تنسيق FLAC - "audio/flac " |
||
MP3 - audio/mp3 |
||
موافقة جهات متعددة - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
الحدود القصوى المسموح بها لكل طلب
يمكنك تضمين
الصوت: القيود
تُعدّ نماذج Gemini المتعدّدة الوسائط فعّالة في استخدام العديد من الوسائط. من المهم فهم قيود النماذج:
- التعرّف على الصوت بدون كلام: النماذج المتوافقة في الصوت قد يخطئ في تمييز الصوت وليس الكلام.
- الطوابع الزمنية للمحتوى الصوتي فقط: لإنشاء طوابع زمنية
دقيقة للملفات الصوتية فقط، يجب ضبط المَعلمة
audio_timestamp
فيgeneration_config
. - علامات الترقيم في النص المنسوخ: (في حال استخدام Gemini 1.5 Flash) قد تعرِض النماذج نصوصًا منسوخة لا تتضمّن علامات ترقيم.
المستندات (مثل ملفات PDF): المتطلبات وأفضل الممارسات والقيود
المستندات: المتطلبات
في هذا القسم، يمكنك الاطّلاع على أنواع MIME المتوافقة والحدود المسموح بها لكل طلب بشأن المستندات (مثل ملفات PDF).
أنواع MIME المتوافقة
تتوافق نماذج Gemini المتعدّدة الوسائط مع أنواع MIME التالية للمستندات:
نوع MIME للمستند | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
ملف PDF - application/pdf |
|||
رسالة نصية - text/plain |
الحدود لكل طلب
يتم التعامل مع ملفات PDF على أنّها صور، لذا يتم التعامل مع صفحة واحدة من ملف PDF على أنّها صورة واحدة. يقتصر عدد الصفحات المسموح به في طلب البحث على عدد الصور التي يمكن للنموذج التعامل معها:
- Gemini 1.0 Pro Vision: 16 صفحة
- Gemini 1.5 Pro Gemini 1.5 Flash: 1,000 صفحة
المستندات: إنشاء الرموز المميّزة
إنشاء رموز مميّزة لملفات PDF
يتم التعامل مع ملفات PDF كصور، لذا يتم تقسيم كل صفحة من ملف PDF إلى وحدات ترميز بالطريقة نفسها التي يتم بها تقسيم الصورة.
كذلك، تكون تكلفة ملفات PDF كما يلي أسعار صور Gemini على سبيل المثال، إذا أدرجت ملف PDF مكوّنًا من صفحتَين في طلب Gemini API، ستسدد رسوم إدخال لمعالجة صورتَين.
إنشاء رموز مميّزة للنص العادي
يتم ترميز مستندات النص العادي كنص. على سبيل المثال، في حال تضمين نص عادي مكوّن من 100 كلمة مستند في طلب بيانات من Gemini API، يفرض رسمًا على إدخال 100 كلمة.
المستندات: أفضل الممارسات
عند استخدام ملفات PDF، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:
- إذا كان طلبك يتضمّن ملف PDF واحدًا، ضَع ملف PDF قبل النص مطالبة في طلبك.
- إذا كان لديك مستند طويل، ننصحك بتقسيمه إلى عدة ملفات PDF لمعالجتها
- استخدِم ملفات PDF التي تم إنشاؤها باستخدام نص معروض كنص بدلاً من استخدام النص في الصور الممسوحة ضوئيًا. يضمن هذا التنسيق إمكانية قراءة النص آليًا لكي يكون من السهل على النموذج تعديله والبحث عنه والتلاعب به مقارنةً بملف PDF المسجّل من الصور الممسوحة ضوئيًا. توفّر هذه الممارسة نتائج مثالية عند العمل مع المستندات التي تتضمّن الكثير من النصوص، مثل العقود.
المستندات: القيود
على الرغم من أنّ نماذج Gemini المتعددة الوسائط فعّالة في العديد من حالات استخدام الوسائط المتعددة، من المهم فهم القيود المفروضة على النماذج:
- الاستدلال المكاني: النماذج ليست دقيقة في تحديد الموقع الجغرافي. نصوص أو كائنات في ملفات PDF. قد تعرض فقط الأعداد التقريبية الأخرى.
- الدقة: قد تُظهر النماذج معلومات مضلِّلة عند تفسير النص المكتوب بخط اليد في ملفات PDF.