ملفات الإدخال المتوافقة ومتطلبات واجهة برمجة التطبيقات Vertex AI Gemini API

عند طلب Vertex AI Gemini API من تطبيقك باستخدام حزمة تطوير البرامج (SDK) Vertex AI in Firebase، يمكنك توجيه نموذج Gemini لإنشاء نص استنادًا إلى إدخال متعدد الوسائط. يمكن أن تتضمن الطلبات المتعددة الوسائط عدة وسائط (أو أنواع إدخال)، مثل النص مع الصور وملفات PDF والفيديوهات والصوت.

بالنسبة إلى الأجزاء غير النصية في الإدخال (مثل ملفات الوسائط)، ستحتاج إلى استخدام أنواع ملفات متوافقة، وتحديد نوع MIME متوافق، والتأكّد من أنّ الملفات والطلبات المتعددة الوسائط تستوفي المتطلبات وتتّبع أفضل الممارسات.

توضّح هذه الصفحة أنواع MIME المتوافقة وأفضل الممارسات والقيود لما يلي:

المتطلبات الخاصة بحِزم تطوير البرامج (SDK) Vertex AI in Firebase

بالنسبة إلى حِزم تطوير البرامج (SDK) Vertex AI in Firebase، يبلغ الحد الأقصى لإجمالي حجم الطلب 20 ميغابايت. يظهر لك خطأ HTTP 413 إذا كان الطلب كبيرًا جدًا.



الصور: المتطلبات وأفضل الممارسات والقيود

الصور: المتطلبات

في هذا القسم، يمكنك الاطّلاع على أنواع MIME المتوافقة والحدود المسموح بها لكل طلب بشأن الصور.

أنواع MIME المتوافقة

تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع الصور MIME التالية:

نوع MIME للصورة Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG - image/png
JPEG - "image/jpeg"
WebP - "image/webp"

الحدود لكل طلب

ليس هناك حد معيّن لعدد وحدات البكسل في الصورة. في المقابل، يتم تصغير حجم الصور الأكبر حجمًا وملؤها لتلائم درجة دقة قصوى تبلغ 3072 x 3072 مع الحفاظ على نسبة العرض إلى الارتفاع الأصلية لها.

إليك الحد الأقصى لعدد ملفات الصور المسموح بها في طلب الطلب:

  • Gemini 1.0 Pro Vision: 16 صورة
  • Gemini 1.5 Flash و Gemini 1.5 Pro: 3,000 صورة

الصور: إنشاء رمز مميّز

في ما يلي كيفية احتساب الرموز المميّزة للصور:

  • Gemini 1.0 Pro Vision: تحتوي كل صورة على 258 رمزًا مميزًا.
  • Gemini 1.5 Flash و Gemini 1.5 Pro:
    • إذا كانت أبعاد الصورة أقل من 384 بكسل أو مساويًا لها، يتم استخدام 258 رمزًا مميّزًا.
    • في حال كان حجم إحدى أبعاد الصورة أكبر من 384 بكسل، يتم اقتصاص الصورة إلى مربّعات. يكون حجم كل مربّع تلقائيًا هو أصغر سمة (العرض أو الارتفاع) مقسومة على 1.5. إذا لزم الأمر، تتم تعديل كل مربّع بحيث لا يكون أصغر من 256 بكسل ولا أكبر من 768 بكسل. يتم بعد ذلك تغيير حجم كل مربع إلى 768x768 ويستخدم 258 رمزًا مميزًا.

الصور: أفضل الممارسات

عند استخدام الصور، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:

  • إذا أردت رصد نص في صورة، استخدِم الطلبات التي تتضمّن صورة واحدة للحصول على نتائج أفضل من الطلبات التي تحتوي على عدة صور.
  • إذا كان طلبك يتضمّن صورة واحدة، عليك وضع الصورة قبل الطلب النصي في طلبك.
  • إذا كان الطلب يتضمّن عدة صور، وأردت الإشارة إليها لاحقًا في الطلب أو أن يشير النموذج إليها في استجابة النموذج، يمكنك إضافة فهرس قبل الصورة لكل صورة. استخدِم a b c أو image 1 image 2 image 3 للفهرس. في ما يلي مثال على استخدام الصور المفهرَسة في طلب:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • استخدِم صورًا بدرجة دقة أعلى، لأنّها تحقّق نتائج أفضل.
  • أدرِج بعض الأمثلة في الطلب.
  • يجب تدوير الصور إلى الاتجاه الصحيح قبل إضافتها إلى الطلب.
  • تجنَّب استخدام الصور المموّهة.

الصور: القيود

على الرغم من أنّ نماذج Gemini المتعدّدة الوسائط فعّالة في العديد من حالات الاستخدام المتعدّدة الوسائط، من المهم فهم القيود المفروضة على هذه النماذج:

  • الإشراف على المحتوى: ترفض النماذج تقديم إجابات بشأن الصور التي تخالف سياسات الأمان.
  • الاستدلال المكاني: النماذج ليست دقيقة في تحديد مكان النص أو العناصر في الصور. وقد تعرض فقط الأعداد التقريبية للكائنات.
  • الاستخدامات الطبية: النماذج غير مناسبة لتفسير الصور الطبية (مثل الأشعة السينية والأشعة المقطعية) أو لتقديم المشورة الطبية.
  • التعرّف على الأشخاص: لا يُقصد استخدام النماذج لتحديد هوية الأشخاص العاديين في الصور.
  • الدقة: قد ترتكب النماذج أخطاءً أو قد تخطئ في بعض الحالات عند تفسير صور منخفضة الجودة أو مستديرة أو منخفضة الدقة للغاية. قد تتوهم النماذج أيضًا عند تفسير نص مكتوب بخط اليد في مستندات الصور.



الفيديو: المتطلبات وأفضل الممارسات والقيود

الفيديو: المتطلبات

يمكنك في هذا القسم التعرّف على أنواع وحدود MIME المتوافقة لكل طلب فيديو.

أنواع MIME المتوافقة

تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع الفيديو MIME التالية:

نوع MIME للفيديو Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
‫FLV - video/x-flv
‫MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
ميل في الغالون - video/mpg
MP4 - video/mp4
‫WEBM - video/webm
WMV - video/wmv
بروتوكول 3GPP - video/3gpp

الحدود القصوى المسموح بها لكل طلب

إليك الحد الأقصى لعدد ملفات الفيديو المسموح بها في طلب الطلب:

  • Gemini 1.0 Pro Vision: ملف فيديو واحد
  • Gemini 1.5 Flash وGemini 1.5 Pro: 10 ملفات فيديو

فيديو: إنشاء الرموز المميّزة

إليك طريقة حساب الرموز المميّزة للفيديو:

  • كل نماذج Gemini المتعدّدة الوسائط: يتم استخدام عيّنات من الفيديوهات في الثانية الواحدة (لقطات في الثانية). ويمثل كل إطار فيديو 258 رمزًا مميزًا.
  • ‫Gemini 1.5 Flash و Gemini 1.5 Pro: يتم ترميز المقطع الصوتي باستخدام لقطات الفيديو. يتم أيضًا تقسيم المقطع الصوتي إلى خطوط اتصالات تبلغ مدتها ثانية واحدة، ويتألف كل منها من 32 رمزًا مميزًا. يتم تداخل رمزَي الإطار الفيديو والصوت مع الطوابع الزمنية الخاصة بهما. يتم تمثيل الطابعات الزمنية على شكل 7 علامات.

فيديو: أفضل الممارسات

عند استخدام الفيديو، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:

  • إذا كان طلبك يتضمّن فيديو واحدًا، ضَع الفيديو قبل الطلب النصي.
  • إذا كنت بحاجة إلى ترجمة الطابع الزمني في فيديو يتضمّن صوتًا، اطلب من النموذج إنشاء الطوابع الزمنية بتنسيق MM:SS حيث يمثّل الرقمان الأولان الدقائق والرقمَان الأخيران الثواني. استخدِم التنسيق نفسه للأسئلة التي تسأل عن طابع زمني.
  • يُرجى مراعاة ما يلي إذا كنت تستخدم إصدار Gemini 1.0 Pro Vision:

    • يجب عدم استخدام أكثر من فيديو واحد في كل طلب.
    • يعالج النموذج المعلومات التي تظهر في أوّل دقيقتين فقط من الفيديو.
    • يعالج النموذج الفيديوهات على أنّها إطارات صور غير متجاورة من الفيديو. الصوت غير مضمّن. إذا لاحظت أنّ بعض المحتوى في الفيديو لا يظهر في النموذج، حاوِل تقصير مدة الفيديو كي يلتقط النموذج جزءًا أكبر من محتوى الفيديو.
    • لا يعالج النموذج أي معلومات صوتية أو الطوابع الزمنية أو البيانات الوصفية. نتيجةً لذلك، قد لا يكون أداء النموذج جيدًا في حالات الاستخدام التي تتطلّب إدخال صوت، مثل إضافة شرح الصوت أو المعلومات المتعلقة بالوقت، مثل السرعة أو الإيقاع.

الفيديو: القيود

على الرغم من أنّ نماذج Gemini المتعدّدة الوسائط فعّالة في العديد من حالات الاستخدام المتعدّدة الوسائط، من المهم فهم القيود المفروضة على هذه النماذج:

  • الإشراف على المحتوى: يرفض العارضون تقديم إجابات على الفيديوهات التي تخالف سياسات الأمان لدينا.
  • التعرّف على الصوت الذي لا يكون كلامًا: قد تحدث أخطاء في النماذج التي تتوافق مع الصوت في التعرّف على الصوت الذي ليس كلامًا.
  • الحركة العالية السرعة: قد يخطئ النماذج في فهم الحركة العالية السرعة في الفيديو بسبب معدّل أخذ العيّنات 1 لقطة في الثانية (fps) الثابت.
  • علامات ترقيم تحويل الصوت إلى نص: (في حال استخدام Gemini 1.5 Flash) قد تعرض النماذج نصوصًا مكتوبة لا تتضمّن علامات ترقيم.



الصوت: المتطلبات والقيود

الصوت: المتطلبات

يمكنك في هذا القسم التعرّف على أنواع وحدود MIME المتوافقة لكل طلب صوت.

أنواع MIME المتوافقة

تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع MIME الصوتية التالية:

نوع MIME للصوت Gemini 1.5 Flash Gemini 1.5 Pro
الترميز المتقدّم للصوت - audio/aac
ملف FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

الحدود القصوى المسموح بها لكل طلب

يمكنك تضمين ملف صوتي واحد كحد أقصى في طلب الطلب.

الصوت: القيود

على الرغم من أنّ نماذج Gemini المتعدّدة الوسائط فعّالة في العديد من حالات الاستخدام المتعدّدة الوسائط، من المهم فهم القيود المفروضة على هذه النماذج:

  • التعرّف على الصوت الذي لا يكون كلامًا: قد تحدث أخطاء في النماذج التي تتوافق مع الصوت في التعرّف على الصوت الذي ليس كلامًا.
  • الطوابع الزمنية الخاصة بالصوت فقط: لإنشاء طوابع زمنية بدقة للملفات الصوتية فقط، عليك ضبط مَعلمة audio_timestamp في generation_config.
  • علامات ترقيم تحويل الصوت إلى نص: (في حال استخدام Gemini 1.5 Flash) قد تعرض النماذج نصوصًا مكتوبة لا تتضمّن علامات ترقيم.



المستندات (مثل ملفات PDF): المتطلبات وأفضل الممارسات والقيود

المستندات: المتطلبات

في هذا القسم، تعرَّف على أنواع وحدود MIME المتاحة لكل طلب للمستندات (مثل ملفات PDF).

أنواع MIME المتوافقة

تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع MIME التالية للمستندات:

نوع MIME للمستند Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
ملف PDF - application/pdf
رسالة نصية - text/plain

الحدود القصوى المسموح بها لكل طلب

يتم التعامل مع ملفات PDF على أنّها صور، وبالتالي يتم التعامل مع صفحة واحدة من ملف PDF كصورة واحدة. يقتصر عدد الصفحات المسموح به في طلب البحث على عدد الصور التي يمكن للنموذج التعامل معها:

  • Gemini 1.0 Pro Vision: 16 صفحة
  • Gemini 1.5 Pro و Gemini 1.5 Flash: 1,000 صفحة

المستندات: إنشاء رمز مميّز

إنشاء رموز مميّزة لملفات PDF

يتم التعامل مع ملفات PDF على أنّها صور، وبالتالي يتم إنشاء رموز مميّزة لكل صفحة في ملف PDF بالطريقة نفسها المتّبعة مع الصور.

وتسري أيضًا أسعار صور Gemini على ملفات PDF. على سبيل المثال، في حال تضمين ملف PDF من صفحتين في طلب بيانات من Gemini API، ستتحمّل رسوم إدخال مقابل معالجة صورتين.

إنشاء رموز مميّزة للنص العادي

يتم تقسيم مستندات النصوص العادية إلى وحدات نصية. على سبيل المثال، في حال تضمين مستند نص عادي مكوّن من 100 كلمة في طلب بيانات من واجهة Gemini API، ستتحمّل رسومًا مقابل معالجة 100 كلمة.

المستندات: أفضل الممارسات

عند استخدام ملفات PDF، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:

  • إذا كان الطلب يحتوي على ملف PDF واحد، ضَع ملف PDF قبل الطلب النصي .
  • إذا كان لديك مستند طويل، ننصحك بتقسيمه إلى عدة ملفات PDF لمعالجته.
  • استخدِم ملفات PDF التي تم إنشاؤها باستخدام نص معروض كنص بدلاً من نص في الصور الممسوحة ضوئيًا. ويضمن هذا التنسيق أن يكون النص قابلاً للقراءة آليًا، وبالتالي يسهُل على النموذج تعديله والبحث عنه ومعالجتها مقارنةً بملفات PDF التي تم مسحها ضوئيًا. توفّر هذه الممارسة نتائج مثالية عند العمل مع المستندات التي تتضمّن الكثير من النصوص، مثل العقود.

المستندات: القيود

على الرغم من أنّ نماذج Gemini المتعدّدة الوسائط فعّالة في العديد من حالات الاستخدام المتعدّدة الوسائط، من المهم فهم القيود المفروضة على هذه النماذج:

  • الاستدلال المكاني: النماذج ليست دقيقة في تحديد مكان النص أو العناصر في ملفات PDF. وقد تعرض فقط الأعداد التقريبية للكائنات.
  • الدقة: قد تُظهر النماذج معلومات مضلِّلة عند تفسير النص المكتوب بخط اليد في ملفات PDF.