ملفات الإدخال المتوافقة والمتطلبات في Vertex AI Gemini API

عند الاتصال بالرقم Vertex AI Gemini API من تطبيقك باستخدام حزمة تطوير البرامج (SDK) Vertex AI in Firebase، يمكنك أن تطلب من نموذج Gemini إنشاء نص استنادًا إلى إدخال متعدد الوسائط. يمكن أن تتضمّن الطلبات المتعددة الوسائط عدة وسائط. (أو أنواع الإدخال)، مثل النص مع الصور وملفات PDF والفيديو والصوت.

بالنسبة للأجزاء غير النصية من الإدخال (مثل ملفات الوسائط)، تحتاج إلى استخدام الملفات المتوافقة، وتحديد نوع MIME متوافق والتأكد من وتتطلب الملفات والطلبات متعددة الوسائط استيفاء المتطلبات واتّباع أفضل الممارسات.

توضّح هذه الصفحة أنواع بروتوكول MIME المتوافقة وأفضل الممارسات والقيود المفروضة. لما يلي:

متطلبات خاصة بحِزم تطوير البرامج (SDK) التي يبلغ عددها Vertex AI in Firebase

بالنسبة إلى Vertex AI in Firebase حزمة SDK، يكون الحد الأقصى لإجمالي حجم الطلب هو 20 ميغابايت. إذا كان الطلب كبيرًا جدًا، تظهر لك رسالة خطأ HTTP 413.



الصور: المتطلبات وأفضل الممارسات والقيود

الصور: المتطلبات

تعرَّف في هذا القسم على أنواع وحدود MIME المتاحة لكل طلب الصور.

أنواع MIME المتوافقة

تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع الصور MIME التالية:

نوع MIME للصورة Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG - image/png
JPEG - "image/jpeg"

الحدود لكل طلب

ليس هناك حد معيّن لعدد البكسل في الصورة. ومع ذلك، يتم تصغير الصور الكبيرة وتبطينها لتلائم دقة قصوى تبلغ 3072 x 3072 مع الحفاظ على نسبة العرض إلى الارتفاع الأصلية.

إليك الحد الأقصى لعدد ملفات الصور المسموح بها في طلب الطلب:

  • Gemini 1.0 Pro Vision: 16 صورة
  • Gemini 1.5 Flash Gemini 1.5 Pro: 3,000 صورة

الصور: إنشاء رمز مميّز

إليك طريقة حساب الرموز المميزة للصور:

  • Gemini 1.0 Pro Vision: تستند كل صورة إلى مقابل 258 رمزًا مميزًا.
  • Gemini 1.5 Flash Gemini 1.5 Pro:
    • إذا كان كلا بُعدي الصورة أقل من أو يساوي 384 بكسل، ثم يتم استخدام 258 رمزًا.
    • إذا كان أحد أبعاد الصورة أكبر من 384 بكسل، فعندئذ يتم اقتصاص الصورة إلى أجزاء. يتم ضبط كل حجم مربّع تلقائيًا على أصغر حجم البُعد (العرض أو الارتفاع) مقسومًا على 1.5. إذا لزم الأمر، يتم تخصيص اضبطها بحيث لا تكون أصغر من 256 بكسل ولا تزيد عن 768 بكسل. يتم بعد ذلك تغيير حجم كل مربع إلى 768x768 ويستخدم 258 رمزًا مميزًا.

الصور: أفضل الممارسات

عند استخدام الصور، يُرجى اتّباع أفضل الممارسات والمعلومات التالية أفضل النتائج:

  • إذا أردت رصد نص في صورة، استخدِم الطلبات التي تتضمّن صورة واحدة من أجل تؤدي إلى نتائج أفضل من الطلبات التي تحتوي على عدة صور.
  • إذا كان طلبك يتضمّن صورة واحدة، ضَع الصورة قبل النص. مطالبة في طلبك.
  • إذا كان الطلب يتضمّن عدة صور وأردت الإشارة إليها لاحقًا في طلبك أو جعل النموذج يشير إليها في استجابة النموذج، قد يكون من المفيد إعطاء كل صورة فهرسًا قبلها. استخدام a b c أو image 1 image 2 image 3 للفهرس. في ما يلي مثال على استخدام صور مفهرسة في الطلب:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • استخدِم صورًا بدقة أعلى. فإنها تحقق نتائج أفضل.
  • ضمِّن بعض الأمثلة في الطلب.
  • قم بتدوير الصور إلى الاتجاه الصحيح قبل إضافتها إلى مطالبة.
  • تجنَّب استخدام الصور المموّهة.

الصور: القيود

تُعدّ نماذج Gemini المتعدّدة الوسائط فعّالة في استخدام العديد من الوسائط. من المهم فهم قيود النماذج:

  • الإشراف على المحتوى: ترفض النماذج تقديم إجابات على الصور التي تنتهك سياسات الأمان.
  • الاستدلال المكاني: النماذج ليست دقيقة في تحديد الموقع الجغرافي. النصوص أو الكائنات في الصور. قد تعرض فقط الأعداد التقريبية الأخرى.
  • الاستخدامات الطبية: هذه النماذج غير مناسبة لتفسيرها. صور طبية (مثل الأشعة السينية والأشعة المقطعية) أو توفر الأدوات الطبية نصيحة.
  • التعرف على الأشخاص: ليس الغرض من النماذج للاستخدام من أجل التعرف على الأشخاص الذين ليسوا مشاهير في الصور.
  • الدقة: قد تخطئ النماذج أو تخطئ في بعض الحالات عند تفسير صور منخفضة الجودة أو مستديرة أو منخفضة الدقة للغاية. قد ترتكب النماذج أيضًا الأخطاء عند تفسير النص المكتوب بخط اليد مستندات صور.



الفيديو: المتطلبات وأفضل الممارسات والقيود

الفيديو: المتطلبات

تعرَّف في هذا القسم على أنواع وحدود MIME المتاحة لكل طلب الفيديو القادم.

أنواع MIME المتوافقة

تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع الفيديو MIME التالية:

نوع MIME للفيديو Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
تنسيق MOV - video/mov
MPEG - video/mpeg
MPEGPS - video/mpegps
ميل في الغالون - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
بروتوكول 3GPP - video/3gpp

الحدود لكل طلب

إليك الحد الأقصى لعدد ملفات الفيديو المسموح بها في طلب الطلب:

  • Gemini 1.0 Pro Vision: ملف فيديو واحد
  • Gemini 1.5 Flash Gemini 1.5 Pro: 10 ملفات فيديو

فيديو: إنشاء رمز مميّز

إليك طريقة حساب الرموز المميّزة للفيديو:

  • جميع نماذج Gemini المتعددة الوسائط: يتم أخذ عيّنات من الفيديوهات في لقطة واحدة في الثانية (لقطات في الثانية): 258 لقطة لكل إطار فيديو الرموز المميزة.
  • Gemini 1.5 Flash Gemini 1.5 Pro: تم ترميز المقطع الصوتي. من خلال إطارات الفيديو. يتم تقسيم المقطع الصوتي أيضًا إلى خطوط اتصالات تبلغ مدتها ثانية واحدة والتي يحتوى كل منها على 32 رمزًا مميزًا. الفيديو تكون رموز الإطار والصوت المميزة متداخلة مع الطوابع الزمنية. تشير رسالة الأشكال البيانية يتم تمثيل الطوابع الزمنية على شكل 7 رموز مميزة.

فيديو: أفضل الممارسات

عند استخدام الفيديو، يُرجى اتّباع أفضل الممارسات والمعلومات التالية أفضل النتائج:

  • إذا كان الطلب يتضمّن فيديو واحدًا، ضَع الفيديو قبل النص. مطالبة.
  • إذا أردت أقلمة الطوابع الزمنية في فيديو يتضمّن صوتًا، اطلب ذلك من النموذج. لإنشاء طوابع زمنية بتنسيق MM:SS حيث يظهر أول حرفين ويمثل الرقمان الدقائق ويمثل آخر رقمين الثواني. يمكنك استخدام نفس التنسيق للأسئلة التي تُطرح عن طابع زمني.
  • يُرجى مراعاة ما يلي في حال استخدام Gemini 1.0 Pro Vision:

    • يجب عدم استخدام أكثر من فيديو واحد في كل طلب.
    • يعالج النموذج المعلومات في أول دقيقتين فقط من الفيديو.
    • يعالج النموذج الفيديوهات كإطارات صور غير متجاورة من الفيديو القادم. الصوت غير مضمّن. إذا لاحظت أن النموذج يفتقد إلى بعض من الفيديو، فحاول جعل الفيديو أقصر حتى يتسنى عرض النموذج يعرض جزءًا أكبر من محتوى الفيديو
    • لا يعالج النموذج أي معلومات صوتية أو طابع زمني. بيانات التعريف. وبسبب ذلك، قد لا يحقّق النموذج أداءً جيدًا في حالات الاستخدام. التي تتطلب إدخالاً صوتيًا، مثل إضافة ترجمة صوتية أو معلومات المعلومات، مثل السرعة أو الإيقاع.

الفيديو: القيود

تُعدّ نماذج Gemini المتعدّدة الوسائط فعّالة في استخدام العديد من الوسائط. من المهم فهم قيود النماذج:

  • الإشراف على المحتوى: ترفض النماذج تقديم إجابات على الفيديوهات التي تخالف سياسات الأمان
  • التعرّف على الصوت بدون كلام: النماذج المتوافقة في الصوت قد يخطئ في تمييز الصوت وليس الكلام.
  • حركة عالية السرعة: قد تخطئ النماذج. فهم الحركة العالية السرعة في الفيديو بسبب معدّل أخذ العينات 1 لقطة في الثانية (fps):
  • علامات ترقيم تحويل الصوت إلى نص: (في حال استخدام Gemini 1.5 Flash) قد تستخدم النماذج إرجاع النصوص التي لا تتضمن علامات ترقيم.



الصوت: المتطلبات والقيود

الصوت: المتطلبات

تعرَّف في هذا القسم على أنواع وحدود MIME المتاحة لكل طلب الصوت.

أنواع MIME المتوافقة

تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع MIME الصوتية التالية:

نوع MIME للصوت Gemini 1.5 Flash Gemini 1.5 Pro
الترميز المتقدّم للصوت - audio/aac
ملف FLAC - audio/flac
MP3 - audio/mp3
موافقة جهات متعددة - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
تضمين نبضي مشفر (PCM) - "audio/pcm"
WAV - audio/wav
WEBM - audio/webm

الحدود لكل طلب

يمكنك تضمين ملف صوتي واحد كحد أقصى في طلب الطلب.

الصوت: القيود

تُعدّ نماذج Gemini المتعدّدة الوسائط فعّالة في استخدام العديد من الوسائط. من المهم فهم قيود النماذج:

  • التعرّف على الصوت بدون كلام: النماذج المتوافقة في الصوت قد يخطئ في تمييز الصوت وليس الكلام.
  • الطوابع الزمنية التي تتيح تشغيل الصوت فقط: الطُرز التي تتيح تشغيل المحتوى الصوتي إنشاء طوابع زمنية بدقة للطلبات التي تتضمن ملفات صوتية. هذا النمط التي تتضمّن الطوابع الزمنية للتقسيم والأقلمة الزمنية. يمكن أن تظهر الطوابع الزمنية يتم إنشاؤها بدقة للإدخال الذي يتضمن فيديو يحتوي على صوت.
  • علامات ترقيم تحويل الصوت إلى نص: (في حال استخدام Gemini 1.5 Flash) قد تستخدم النماذج إرجاع النصوص التي لا تتضمن علامات ترقيم.



المستندات (مثل ملفات PDF): المتطلبات وأفضل الممارسات والقيود

المستندات: المتطلبات

تعرَّف في هذا القسم على أنواع وحدود MIME المتاحة لكل طلب مستندات (مثل ملفات PDF).

أنواع MIME المتوافقة

تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع MIME التالية للمستندات:

نوع MIME للمستند Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
ملف PDF - application/pdf

الحدود لكل طلب

يتم التعامل مع ملفات PDF كصور، لذا يتم التعامل مع صفحة واحدة من ملف PDF باعتبارها صفحة . يقتصر عدد الصفحات المسموح بها في الطلب على عدد الصور التي يمكن أن يتيحها النموذج:

  • Gemini 1.0 Pro Vision: 16 صفحة
  • Gemini 1.5 Pro Gemini 1.5 Flash: 1,000 صفحة

المستندات: إنشاء رمز مميّز

يتم التعامل مع ملفات PDF كصور، بحيث يتم إنشاء رمز مميّز لكل صفحة من ملف PDF الطريقة كصورة.

كذلك، تكون تكلفة ملفات PDF كما يلي أسعار صور Gemini على سبيل المثال، في حال تضمين ملف PDF من صفحتين في طلب بيانات من Gemini API، عليك فرض رسوم إدخال لمعالجة صورتين.

المستندات: أفضل الممارسات

عند استخدام ملفات PDF، استخدم أفضل الممارسات والمعلومات التالية أفضل النتائج:

  • إذا كان طلبك يتضمّن ملف PDF واحدًا، ضَع ملف PDF قبل النص مطالبة في طلبك.
  • إذا كان لديك مستند طويل، ننصحك بتقسيمه إلى عدة ملفات PDF لمعالجتها
  • استخدام ملفات PDF التي تم إنشاؤها بنص معروض كنص بدلاً من استخدام نص فيه الصور الممسوحة ضوئيًا. يضمن هذا التنسيق أن يكون النص قابلاً للقراءة آليًا، لذا أن يكون تعديل النموذج والبحث فيه ومعالجتها أسهل مقارنةً بالإجراء الذي تم فحصه صور بتنسيق PDF. توفر هذه الممارسة النتائج المثلى عند التعامل مع مستندات نصية كثيفة مثل العقود.

المستندات: القيود

تُعدّ نماذج Gemini المتعدّدة الوسائط فعّالة في استخدام العديد من الوسائط. من المهم فهم قيود النماذج:

  • الاستدلال المكاني: النماذج ليست دقيقة في تحديد الموقع الجغرافي. نصوص أو كائنات في ملفات PDF. قد تعرض فقط الأعداد التقريبية الأخرى.
  • الدقة: قد ترتكب النماذج الأخطاء عند تفسيرها نصًا مكتوبًا بخط اليد في مستندات PDF.