ملفات الإدخال المتوافقة والمتطلبات في Vertex AI Gemini API

عند الاتصال بالرقم Vertex AI Gemini API من تطبيقك باستخدام حزمة تطوير البرامج (SDK) Vertex AI in Firebase، يمكنك أن تطلب من نموذج Gemini إنشاء نص استنادًا إلى إدخال متعدد الوسائط. يمكن أن تتضمّن الطلبات المتعددة الوسائط عدة وسائط. (أو أنواع الإدخال)، مثل النص مع الصور وملفات PDF والفيديو والصوت.

بالنسبة للأجزاء غير النصية من الإدخال (مثل ملفات الوسائط)، تحتاج إلى استخدام الملفات المتوافقة، وتحديد نوع MIME متوافق والتأكد من وتتطلب الملفات والطلبات المتعددة الوسائط استيفاء المتطلبات واتّباع أفضل الممارسات.

توضّح هذه الصفحة أنواع بروتوكول MIME المتوافقة وأفضل الممارسات والقيود المفروضة. لما يلي:

المتطلبات الخاصة بحِزم SDK لنظام التشغيل Vertex AI in Firebase

بالنسبة إلى حزمتَي SDK (Vertex AI in Firebase)، يكون الحد الأقصى لإجمالي حجم الطلب هو 20 ميغابايت. يظهر لك خطأ HTTP 413 إذا كان الطلب كبيرًا جدًا.



الصور: المتطلبات وأفضل الممارسات والقيود

الصور: المتطلبات

تعرَّف في هذا القسم على أنواع وحدود MIME المتاحة لكل طلب الصور.

أنواع MIME المتوافقة

تتوافق نماذج Gemini المتعدّدة الوسائط مع أنواع MIME التالية للصور:

نوع MIME للصورة Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG - image/png
JPEG - "image/jpeg"
‫WebP ‏- image/webp

الحدود القصوى المسموح بها لكل طلب

ما مِن حدّ أقصى محدّد لعدد البكسل في الصورة. ومع ذلك، يتم تصغير الصور الكبيرة وتبطينها لتلائم دقة قصوى تبلغ 3072 x 3072 مع الحفاظ على نسبة العرض إلى الارتفاع الأصلية.

في ما يلي الحد الأقصى لعدد ملفات الصور المسموح به في طلب فوري:

  • Gemini 1.0 Pro Vision: 16 صورة
  • Gemini 1.5 Flash و Gemini 1.5 Pro: 3,000 صورة

الصور: إنشاء رمز مميّز

إليك طريقة حساب الرموز المميزة للصور:

  • Gemini 1.0 Pro Vision: تُمثّل كل صورة 258 رمزًا مميّزًا.
  • Gemini 1.5 Flash Gemini 1.5 Pro:
    • إذا كان كلا بُعدي الصورة أقل من أو يساوي 384 بكسل، ثم يتم استخدام 258 رمزًا.
    • إذا كان أحد أبعاد الصورة أكبر من 384 بكسل، فعندئذ يتم اقتصاص الصورة إلى أجزاء. يتم ضبط كل حجم مربّع تلقائيًا على الأصغر. البُعد (العرض أو الارتفاع) مقسومًا على 1.5. إذا لزم الأمر، يتم تعديل كل مربّع بحيث لا يكون أصغر من 256 بكسل ولا أكبر من 768 بكسل. يتم بعد ذلك تغيير حجم كل مربع إلى 768x768 ويستخدم 258 رمزًا مميزًا.

الصور: أفضل الممارسات

عند استخدام الصور، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:

  • إذا أردت رصد نص في صورة، استخدِم الطلبات التي تتضمّن صورة واحدة من أجل تؤدي إلى نتائج أفضل من الطلبات التي تحتوي على عدة صور.
  • إذا كان طلبك يتضمّن صورة واحدة، ضَع الصورة قبل النص. مطالبة في طلبك.
  • إذا كان الطلب يتضمّن عدة صور وأردت الإشارة إليها لاحقًا في طلبك أو جعل النموذج يشير إليها في استجابة النموذج، قد يكون من المفيد إعطاء كل صورة فهرسًا قبلها. استخدام a b c أو image 1 image 2 image 3 للفهرس. في ما يلي مثال على استخدام صور مفهرسة في الطلب:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • استخدِم صورًا بدرجة دقة أعلى، لأنّها تحقّق نتائج أفضل.
  • ضمِّن بعض الأمثلة في الطلب.
  • يجب تدوير الصور إلى الاتجاه الصحيح قبل إضافتها إلى الطلب.
  • تجنَّب استخدام الصور المموّهة.

الصور: القيود

على الرغم من أنّ نماذج Gemini المتعددة الوسائط فعّالة في العديد من حالات استخدام الوسائط المتعددة، من المهم فهم القيود المفروضة على النماذج:

  • الإشراف على المحتوى: يرفض العارضون تقديم إجابات حول الصور التي تنتهك سياسات السلامة.
  • الاستدلال المكاني: لا تُحدِّد النماذج بدقة مكان النصوص أو الكائنات في الصور. قد تعرض فقط الأعداد التقريبية الأخرى.
  • الاستخدامات الطبية: هذه النماذج غير مناسبة لتفسيرها. صور طبية (مثل الأشعة السينية والأشعة المقطعية) أو توفر الأدوات الطبية نصيحة.
  • التعرف على الأشخاص: ليس الغرض من النماذج للاستخدام من أجل التعرف على الأشخاص الذين ليسوا مشاهير في الصور.
  • الدقة: قد تُظهر النماذج هلوسات أو تخطئ عند تفسير الصور المنخفضة الجودة أو المُدارَة أو ذات الدقة المنخفضة جدًا. قد تتوهم النماذج أيضًا عند تفسير نص مكتوب بخط اليد في مستندات الصور.



الفيديو: المتطلبات وأفضل الممارسات والقيود

الفيديو: المتطلبات

تعرَّف في هذا القسم على أنواع وحدود MIME المتاحة لكل طلب الفيديو القادم.

أنواع MIME المتوافقة

تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع الفيديو MIME التالية:

نوع MIME للفيديو Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
تنسيق MOV - video/quicktime
MPEG - video/mpeg
‫MPEGPS ‏- video/mpegps
ميل في الغالون - video/mpg
MP4 - video/mp4
‫WEBM - video/webm
WMV - video/wmv
بروتوكول 3GPP - video/3gpp

الحدود لكل طلب

في ما يلي الحد الأقصى لعدد ملفات الفيديو المسموح به في طلب فوري:

  • Gemini 1.0 Pro Vision: ملف فيديو واحد
  • Gemini 1.5 Flash و Gemini 1.5 Pro: 10 ملفات فيديو

فيديو: إنشاء الرموز المميّزة

إليك طريقة حساب الرموز المميّزة للفيديو:

  • جميع نماذج Gemini المتعددة الوسائط: يتم أخذ عيّنات من الفيديوهات في لقطة واحدة في الثانية (لقطات في الثانية): 258 إطارًا في كل إطار فيديو الرموز المميزة.
  • ‫Gemini 1.5 Flash و Gemini 1.5 Pro: يتم ترميز المقطع الصوتي باستخدام لقطات الفيديو. يتم تقسيم المقطع الصوتي أيضًا إلى خطوط اتصالات تبلغ مدتها ثانية واحدة والتي يحتوى كل منها على 32 رمزًا مميزًا. يتم تداخل رمزَي الإطار والصوت في الفيديو مع الطوابع الزمنية الخاصة بهما. يتم تمثيل الطابعات الزمنية على شكل 7 علامات.

فيديو: أفضل الممارسات

عند استخدام الفيديو، يُرجى اتّباع أفضل الممارسات والمعلومات التالية أفضل النتائج:

  • إذا كان الطلب يحتوي على فيديو واحد، ضَع الفيديو قبل الطلب المكتوب.
  • إذا أردت أقلمة الطوابع الزمنية في فيديو يتضمّن صوتًا، اطلب ذلك من النموذج. لإنشاء طوابع زمنية بتنسيق MM:SS حيث يظهر أول حرفين ويمثل الرقمان الدقائق ويمثل آخر رقمين الثواني. يمكنك استخدام نفس التنسيق للأسئلة التي تُطرح عن طابع زمني.
  • يُرجى مراعاة ما يلي إذا كنت تستخدم إصدار Gemini 1.0 Pro Vision:

    • لا تستخدِم أكثر من فيديو واحد لكل طلب.
    • يعالج النموذج المعلومات في أول دقيقتين فقط من الفيديو.
    • يعالج النموذج الفيديوهات كإطارات صور غير متصلة من الفيديو. الصوت غير مضمّن. إذا لاحظت أن النموذج يفتقد إلى بعض من الفيديو، فحاول جعل الفيديو أقصر حتى يتسنى عرض النموذج يعرض جزءًا أكبر من محتوى الفيديو
    • لا يعالج النموذج أي معلومات صوتية أو الطوابع الزمنية أو البيانات الوصفية. وبسبب ذلك، قد لا يحقّق النموذج أداءً جيدًا في حالات الاستخدام. التي تتطلب إدخالاً صوتيًا، مثل إضافة ترجمة صوتية أو معلومات المعلومات، مثل السرعة أو الإيقاع.

فيديو: القيود

على الرغم من أنّ نماذج Gemini المتعددة الوسائط فعّالة في العديد من حالات استخدام الوسائط المتعددة، من المهم فهم القيود المفروضة على النماذج:

  • الإشراف على المحتوى: يرفض العارضون تقديم إجابات على الفيديوهات التي تخالف سياسات الأمان لدينا.
  • التعرّف على الصوت بدون كلام: النماذج المتوافقة في الصوت قد يخطئ في تمييز الصوت وليس الكلام.
  • الحركة السريعة: قد ترتكب النماذج أخطاء عند محاولة فهم الحركة السريعة في الفيديو بسبب معدّل أخذ العينات الثابت الذي يبلغ لقطة واحدة في الثانية.
  • علامات ترقيم تحويل الصوت إلى نص: (في حال استخدام Gemini 1.5 Flash) قد تستخدم النماذج إرجاع النصوص التي لا تتضمن علامات ترقيم.



الصوت: المتطلبات والقيود

الصوت: المتطلبات

في هذا القسم، يمكنك التعرّف على أنواع MIME المتوافقة والحدود المسموح بها لكل طلب بشأن المحتوى الصوتي.

أنواع MIME المتوافقة

تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع MIME الصوتية التالية:

نوع MIME للصوت Gemini 1.5 Flash Gemini 1.5 Pro
الترميز المتقدّم للصوت - audio/aac
تنسيق FLAC - "audio/flac"
MP3 - audio/mp3
موافقة جهات متعددة - audio/m4a
‫MPEG - audio/mpeg
‫MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
‫WEBM - audio/webm

الحدود القصوى المسموح بها لكل طلب

يمكنك تضمين ملف صوتي واحد كحد أقصى في طلب طلب.

الصوت: القيود

تُعدّ نماذج Gemini المتعدّدة الوسائط فعّالة في استخدام العديد من الوسائط. من المهم فهم قيود النماذج:

  • التعرّف على الصوت بدون كلام: النماذج المتوافقة في الصوت قد يخطئ في تمييز الصوت وليس الكلام.
  • الطوابع الزمنية للمحتوى الصوتي فقط: لإنشاء طوابع زمنية دقيقة للملفات الصوتية فقط، يجب ضبط المَعلمة audio_timestamp في generation_config.
  • علامات الترقيم في النص المنسوخ: (في حال استخدام Gemini 1.5 Flash) قد تعرِض النماذج نصوصًا منسوخة لا تتضمّن علامات ترقيم.



المستندات (مثل ملفات PDF): المتطلبات وأفضل الممارسات والقيود

المستندات: المتطلبات

في هذا القسم، يمكنك الاطّلاع على أنواع MIME المتوافقة والحدود المسموح بها لكل طلب بشأن المستندات (مثل ملفات PDF).

أنواع MIME المتوافقة

تتوافق نماذج Gemini المتعدّدة الوسائط مع أنواع MIME التالية للمستندات:

نوع MIME للمستند Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
ملف PDF‏ - application/pdf
رسالة نصية - text/plain

الحدود لكل طلب

يتم التعامل مع ملفات PDF على أنّها صور، لذا يتم التعامل مع صفحة واحدة من ملف PDF على أنّها صورة واحدة. يقتصر عدد الصفحات المسموح به في طلب البحث على عدد الصور التي يمكن للنموذج التعامل معها:

  • Gemini 1.0 Pro Vision: 16 صفحة
  • Gemini 1.5 Pro Gemini 1.5 Flash: 1,000 صفحة

المستندات: إنشاء الرموز المميّزة

إنشاء رموز مميّزة لملفات PDF

يتم التعامل مع ملفات PDF كصور، لذا يتم تقسيم كل صفحة من ملف PDF إلى وحدات ترميز بالطريقة نفسها التي يتم بها تقسيم الصورة.

كذلك، تكون تكلفة ملفات PDF كما يلي أسعار صور Gemini على سبيل المثال، إذا أدرجت ملف PDF مكوّنًا من صفحتَين في طلب Gemini API، ستسدد رسوم إدخال لمعالجة صورتَين.

إنشاء رموز مميّزة للنص العادي

يتم ترميز مستندات النص العادي كنص. على سبيل المثال، في حال تضمين نص عادي مكوّن من 100 كلمة مستند في طلب بيانات من Gemini API، يفرض رسمًا على إدخال 100 كلمة.

المستندات: أفضل الممارسات

عند استخدام ملفات PDF، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:

  • إذا كان طلبك يتضمّن ملف PDF واحدًا، ضَع ملف PDF قبل النص مطالبة في طلبك.
  • إذا كان لديك مستند طويل، ننصحك بتقسيمه إلى عدة ملفات PDF لمعالجتها
  • استخدِم ملفات PDF التي تم إنشاؤها باستخدام نص معروض كنص بدلاً من استخدام النص في الصور الممسوحة ضوئيًا. يضمن هذا التنسيق إمكانية قراءة النص آليًا لكي يكون من السهل على النموذج تعديله والبحث عنه والتلاعب به مقارنةً بملف PDF المسجّل من الصور الممسوحة ضوئيًا. توفّر هذه الممارسة نتائج مثالية عند العمل مع المستندات التي تتضمّن الكثير من النصوص، مثل العقود.

المستندات: القيود

على الرغم من أنّ نماذج Gemini المتعددة الوسائط فعّالة في العديد من حالات استخدام الوسائط المتعددة، من المهم فهم القيود المفروضة على النماذج:

  • الاستدلال المكاني: النماذج ليست دقيقة في تحديد الموقع الجغرافي. نصوص أو كائنات في ملفات PDF. قد تعرض فقط الأعداد التقريبية الأخرى.
  • الدقة: قد تُظهر النماذج معلومات مضلِّلة عند تفسير النص المكتوب بخط اليد في ملفات PDF.