عند طلب Vertex AI Gemini API من تطبيقك باستخدام حزمة تطوير البرامج (SDK) Vertex AI in Firebase، يمكنك توجيه نموذج Gemini لإنشاء نص استنادًا إلى إدخال متعدد الوسائط. يمكن أن تتضمن الطلبات المتعددة الوسائط عدة وسائط (أو أنواع إدخال)، مثل النص مع الصور وملفات PDF والفيديوهات والصوت.
بالنسبة إلى الأجزاء غير النصية في الإدخال (مثل ملفات الوسائط)، ستحتاج إلى استخدام أنواع ملفات متوافقة، وتحديد نوع MIME متوافق، والتأكّد من أنّ الملفات والطلبات المتعددة الوسائط تستوفي المتطلبات وتتّبع أفضل الممارسات.
توضّح هذه الصفحة أنواع MIME المتوافقة وأفضل الممارسات والقيود لما يلي:
المتطلبات الخاصة بحِزم تطوير البرامج (SDK) Vertex AI in Firebase
بالنسبة إلى حِزم تطوير البرامج (SDK) Vertex AI in Firebase، يبلغ الحد الأقصى لإجمالي حجم الطلب 20 ميغابايت. يظهر لك خطأ HTTP 413 إذا كان الطلب كبيرًا جدًا.
إذا كان حجم أحد الملفات سيؤدي إلى تجاوز إجمالي حجم الطلب 20 ميغابايت، عليك استخدام عنوان URL Cloud Storage for Firebase لتضمين الملف في طلبك المتعدّد الوسائط.
إذا كان الملف صغيرًا، فيمكنك غالبًا تمريره مباشرةً كبيانات مضمنة. يُرجى العلم أنّه يتم ترميز الملف المقدَّم كبيانات مضمّنة إلى base64 أثناء نقله، ما يؤدي إلى زيادة حجم الطلب. للحصول على أمثلة توضّح كيفية تضمين الملفات كبيانات مضمّنة، يُرجى الاطّلاع على مقالة إنشاء نص من طلبات متعددة الوسائط باستخدام Gemini API.
الصور: المتطلبات وأفضل الممارسات والقيود
الصور: المتطلبات
في هذا القسم، يمكنك الاطّلاع على أنواع MIME المتوافقة والحدود المسموح بها لكل طلب بشأن الصور.
أنواع MIME المتوافقة
تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع الصور MIME التالية:
نوع MIME للصورة | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - "image/jpeg " |
|||
WebP - "image/webp " |
الحدود لكل طلب
ليس هناك حد معيّن لعدد وحدات البكسل في الصورة. في المقابل، يتم تصغير حجم الصور الأكبر حجمًا وملؤها لتلائم درجة دقة قصوى تبلغ 3072 x 3072 مع الحفاظ على نسبة العرض إلى الارتفاع الأصلية لها.
إليك الحد الأقصى لعدد ملفات الصور المسموح بها في طلب الطلب:
- Gemini 1.0 Pro Vision: 16 صورة
- Gemini 1.5 Flash و Gemini 1.5 Pro: 3,000 صورة
الصور: إنشاء رمز مميّز
في ما يلي كيفية احتساب الرموز المميّزة للصور:
- Gemini 1.0 Pro Vision: تحتوي كل صورة على 258 رمزًا مميزًا.
- Gemini 1.5 Flash و
Gemini 1.5 Pro:
- إذا كانت أبعاد الصورة أقل من 384 بكسل أو مساويًا لها، يتم استخدام 258 رمزًا مميّزًا.
- في حال كان حجم إحدى أبعاد الصورة أكبر من 384 بكسل، يتم اقتصاص الصورة إلى مربّعات. يكون حجم كل مربّع تلقائيًا هو أصغر سمة (العرض أو الارتفاع) مقسومة على 1.5. إذا لزم الأمر، تتم تعديل كل مربّع بحيث لا يكون أصغر من 256 بكسل ولا أكبر من 768 بكسل. يتم بعد ذلك تغيير حجم كل مربع إلى 768x768 ويستخدم 258 رمزًا مميزًا.
الصور: أفضل الممارسات
عند استخدام الصور، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:
- إذا أردت رصد نص في صورة، استخدِم الطلبات التي تتضمّن صورة واحدة للحصول على نتائج أفضل من الطلبات التي تحتوي على عدة صور.
- إذا كان طلبك يتضمّن صورة واحدة، عليك وضع الصورة قبل الطلب النصي في طلبك.
- إذا كان الطلب يتضمّن عدة صور، وأردت الإشارة إليها لاحقًا في الطلب أو أن يشير النموذج إليها في استجابة النموذج، يمكنك إضافة فهرس قبل الصورة لكل صورة. استخدِم
أوa
b
c
للفهرس. في ما يلي مثال على استخدام الصور المفهرَسة في طلب:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - استخدِم صورًا بدرجة دقة أعلى، لأنّها تحقّق نتائج أفضل.
- أدرِج بعض الأمثلة في الطلب.
- يجب تدوير الصور إلى الاتجاه الصحيح قبل إضافتها إلى الطلب.
- تجنَّب استخدام الصور المموّهة.
الصور: القيود
على الرغم من أنّ نماذج Gemini المتعدّدة الوسائط فعّالة في العديد من حالات الاستخدام المتعدّدة الوسائط، من المهم فهم القيود المفروضة على هذه النماذج:
- الإشراف على المحتوى: ترفض النماذج تقديم إجابات بشأن الصور التي تخالف سياسات الأمان.
- الاستدلال المكاني: النماذج ليست دقيقة في تحديد مكان النص أو العناصر في الصور. وقد تعرض فقط الأعداد التقريبية للكائنات.
- الاستخدامات الطبية: النماذج غير مناسبة لتفسير الصور الطبية (مثل الأشعة السينية والأشعة المقطعية) أو لتقديم المشورة الطبية.
- التعرّف على الأشخاص: لا يُقصد استخدام النماذج لتحديد هوية الأشخاص العاديين في الصور.
- الدقة: قد ترتكب النماذج أخطاءً أو قد تخطئ في بعض الحالات عند تفسير صور منخفضة الجودة أو مستديرة أو منخفضة الدقة للغاية. قد تتوهم النماذج أيضًا عند تفسير نص مكتوب بخط اليد في مستندات الصور.
الفيديو: المتطلبات وأفضل الممارسات والقيود
الفيديو: المتطلبات
يمكنك في هذا القسم التعرّف على أنواع وحدود MIME المتوافقة لكل طلب فيديو.
أنواع MIME المتوافقة
تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع الفيديو MIME التالية:
نوع MIME للفيديو | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
ميل في الغالون - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
بروتوكول 3GPP - video/3gpp |
الحدود القصوى المسموح بها لكل طلب
إليك الحد الأقصى لعدد ملفات الفيديو المسموح بها في طلب الطلب:
- Gemini 1.0 Pro Vision: ملف فيديو واحد
- Gemini 1.5 Flash وGemini 1.5 Pro: 10 ملفات فيديو
فيديو: إنشاء الرموز المميّزة
إليك طريقة حساب الرموز المميّزة للفيديو:
- كل نماذج Gemini المتعدّدة الوسائط: يتم استخدام عيّنات من الفيديوهات
في الثانية الواحدة (لقطات في الثانية) . ويمثل كل إطار فيديو 258 رمزًا مميزًا. - Gemini 1.5 Flash و
Gemini 1.5 Pro: يتم ترميز المقطع الصوتي
باستخدام لقطات الفيديو. يتم أيضًا تقسيم المقطع الصوتي إلى
خطوط اتصالات تبلغ مدتها ثانية واحدة ، ويتألف كل منها من 32 رمزًا مميزًا. يتم تداخل رمزَي الإطار الفيديو والصوت مع الطوابع الزمنية الخاصة بهما. يتم تمثيل الطابعات الزمنية على شكل 7 علامات.
فيديو: أفضل الممارسات
عند استخدام الفيديو، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:
- إذا كان طلبك يتضمّن فيديو واحدًا، ضَع الفيديو قبل الطلب النصي.
- إذا كنت بحاجة إلى ترجمة الطابع الزمني في فيديو يتضمّن صوتًا، اطلب من النموذج
إنشاء الطوابع الزمنية بتنسيق
MM:SS
حيث يمثّل الرقمان الأولان الدقائق والرقمَان الأخيران الثواني. استخدِم التنسيق نفسه للأسئلة التي تسأل عن طابع زمني. يُرجى مراعاة ما يلي إذا كنت تستخدم إصدار Gemini 1.0 Pro Vision:
- يجب عدم استخدام أكثر من فيديو واحد في كل طلب.
- يعالج النموذج المعلومات التي تظهر في أوّل دقيقتين فقط من الفيديو.
- يعالج النموذج الفيديوهات على أنّها إطارات صور غير متجاورة من الفيديو. الصوت غير مضمّن. إذا لاحظت أنّ بعض المحتوى في الفيديو لا يظهر في النموذج، حاوِل تقصير مدة الفيديو كي يلتقط النموذج جزءًا أكبر من محتوى الفيديو.
- لا يعالج النموذج أي معلومات صوتية أو الطوابع الزمنية أو البيانات الوصفية. نتيجةً لذلك، قد لا يكون أداء النموذج جيدًا في حالات الاستخدام التي تتطلّب إدخال صوت، مثل إضافة شرح الصوت أو المعلومات المتعلقة بالوقت، مثل السرعة أو الإيقاع.
الفيديو: القيود
على الرغم من أنّ نماذج Gemini المتعدّدة الوسائط فعّالة في العديد من حالات الاستخدام المتعدّدة الوسائط، من المهم فهم القيود المفروضة على هذه النماذج:
- الإشراف على المحتوى: يرفض العارضون تقديم إجابات على الفيديوهات التي تخالف سياسات الأمان لدينا.
- التعرّف على الصوت الذي لا يكون كلامًا: قد تحدث أخطاء في النماذج التي تتوافق مع الصوت في التعرّف على الصوت الذي ليس كلامًا.
- الحركة العالية السرعة: قد يخطئ النماذج في
فهم الحركة العالية السرعة في الفيديو بسبب معدّل أخذ العيّنات
1 لقطة في الثانية (fps) الثابت. - علامات ترقيم تحويل الصوت إلى نص: (في حال استخدام Gemini 1.5 Flash) قد تعرض النماذج نصوصًا مكتوبة لا تتضمّن علامات ترقيم.
الصوت: المتطلبات والقيود
الصوت: المتطلبات
يمكنك في هذا القسم التعرّف على أنواع وحدود MIME المتوافقة لكل طلب صوت.
أنواع MIME المتوافقة
تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع MIME الصوتية التالية:
نوع MIME للصوت | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
الترميز المتقدّم للصوت - audio/aac |
||
ملف FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
الحدود القصوى المسموح بها لكل طلب
يمكنك تضمين
الصوت: القيود
على الرغم من أنّ نماذج Gemini المتعدّدة الوسائط فعّالة في العديد من حالات الاستخدام المتعدّدة الوسائط، من المهم فهم القيود المفروضة على هذه النماذج:
- التعرّف على الصوت الذي لا يكون كلامًا: قد تحدث أخطاء في النماذج التي تتوافق مع الصوت في التعرّف على الصوت الذي ليس كلامًا.
- الطوابع الزمنية الخاصة بالصوت فقط: لإنشاء
طوابع زمنية بدقة للملفات الصوتية فقط، عليك ضبط مَعلمة
audio_timestamp
فيgeneration_config
. - علامات ترقيم تحويل الصوت إلى نص: (في حال استخدام Gemini 1.5 Flash) قد تعرض النماذج نصوصًا مكتوبة لا تتضمّن علامات ترقيم.
المستندات (مثل ملفات PDF): المتطلبات وأفضل الممارسات والقيود
المستندات: المتطلبات
في هذا القسم، تعرَّف على أنواع وحدود MIME المتاحة لكل طلب للمستندات (مثل ملفات PDF).
أنواع MIME المتوافقة
تتيح نماذج Gemini المتعدّدة الوسائط استخدام أنواع MIME التالية للمستندات:
نوع MIME للمستند | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
ملف PDF - application/pdf |
|||
رسالة نصية - text/plain |
الحدود القصوى المسموح بها لكل طلب
يتم التعامل مع ملفات PDF على أنّها صور، وبالتالي يتم التعامل مع صفحة واحدة من ملف PDF كصورة واحدة. يقتصر عدد الصفحات المسموح به في طلب البحث على عدد الصور التي يمكن للنموذج التعامل معها:
- Gemini 1.0 Pro Vision: 16 صفحة
- Gemini 1.5 Pro و Gemini 1.5 Flash: 1,000 صفحة
المستندات: إنشاء رمز مميّز
إنشاء رموز مميّزة لملفات PDF
يتم التعامل مع ملفات PDF على أنّها صور، وبالتالي يتم إنشاء رموز مميّزة لكل صفحة في ملف PDF بالطريقة نفسها المتّبعة مع الصور.
وتسري أيضًا أسعار صور Gemini على ملفات PDF. على سبيل المثال، في حال تضمين ملف PDF من صفحتين في طلب بيانات من Gemini API، ستتحمّل رسوم إدخال مقابل معالجة صورتين.
إنشاء رموز مميّزة للنص العادي
يتم تقسيم مستندات النصوص العادية إلى وحدات نصية. على سبيل المثال، في حال تضمين مستند نص عادي مكوّن من 100 كلمة في طلب بيانات من واجهة Gemini API، ستتحمّل رسومًا مقابل معالجة 100 كلمة.
المستندات: أفضل الممارسات
عند استخدام ملفات PDF، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:
- إذا كان الطلب يحتوي على ملف PDF واحد، ضَع ملف PDF قبل الطلب النصي .
- إذا كان لديك مستند طويل، ننصحك بتقسيمه إلى عدة ملفات PDF لمعالجته.
- استخدِم ملفات PDF التي تم إنشاؤها باستخدام نص معروض كنص بدلاً من نص في الصور الممسوحة ضوئيًا. ويضمن هذا التنسيق أن يكون النص قابلاً للقراءة آليًا، وبالتالي يسهُل على النموذج تعديله والبحث عنه ومعالجتها مقارنةً بملفات PDF التي تم مسحها ضوئيًا. توفّر هذه الممارسة نتائج مثالية عند العمل مع المستندات التي تتضمّن الكثير من النصوص، مثل العقود.
المستندات: القيود
على الرغم من أنّ نماذج Gemini المتعدّدة الوسائط فعّالة في العديد من حالات الاستخدام المتعدّدة الوسائط، من المهم فهم القيود المفروضة على هذه النماذج:
- الاستدلال المكاني: النماذج ليست دقيقة في تحديد مكان النص أو العناصر في ملفات PDF. وقد تعرض فقط الأعداد التقريبية للكائنات.
- الدقة: قد تُظهر النماذج معلومات مضلِّلة عند تفسير النص المكتوب بخط اليد في ملفات PDF.