تمت ترجمة هذه الصفحة بواسطة Cloud Translation API‏.

إنشاء نص من طلبات متعدّدة الوسائط باستخدام Gemini API

عند طلب البيانات من Gemini API من تطبيقك باستخدام حزمة تطوير البرامج (SDK) الخاصة بـ Vertex AI for Firebase، يمكنك أن تطلب من نموذج Gemini إنشاء نص استنادًا إلى إدخال متعدد الوسائط. يمكن أن تتضمن الطلبات المتعددة الوسائط عدة طُرق (أو أنواع من الإدخال) مثل النصوص مع الصور وملفات PDF والفيديو والصوت.

لاختبار الطلبات المتعدّدة الوسائط وتكرارها، ننصحك باستخدام Vertex AI Studio:

خيارات أخرى للعمل باستخدام Gemini API

يمكنك اختياريًا طلب البيانات من جهة الخادم Vertex AI Gemini API. باستخدام حِزم تطوير برامج Vertex AI من جهة الخادم أو إضافات Firebase لواجهة Gemini API:

يمكنك اختياريًا تجربة بديل "تكنولوجيات الذكاء الاصطناعي من Google" من Gemini API التي تتيح الوصول بدون أي تكلفة (ضمن الحدود وحيثما كان ذلك متاحًا) باستخدام Google AI Studio أو حِزم تطوير البرامج (SDK) الخاصة بتكنولوجيات الذكاء الاصطناعي من Google

إذا اخترت استخدام أدوات وخدمات الذكاء الاصطناعي (AI) من Google بالإضافة إلى Firebase، ننصحك بما يلي:

يجب عدم استخدام Google AI Studio وحِزم تطوير البرامج (SDK) الخاصة بتكنولوجيات الذكاء الاصطناعي من Google مع مشروع Firebase الذي تستخدمه تطبيق الإنتاج

بعد أن تطّلع على طريقة عمل Gemini API نقل البيانات إلى حِزم تطوير البرامج (SDK) الخاصة بالذكاء الاصطناعي من Vertex AI for Firebase والتي تحتوي على العديد من الميزات الإضافية المهمة لتطبيقات الأجهزة الجوّالة وتطبيقات الويب، مثل حماية واجهة برمجة التطبيقات من إساءة الاستخدام باستخدام فحص التطبيقات من Firebase

قبل البدء

إذا لم تكن قد قمت بذلك بالفعل، فاعمل على دليل البدء لحِزم تطوير البرامج (SDK) الخاصة بحزمة Vertex AI for Firebase تأكّد من القيام بكل ما يلي:

يمكنك إعداد مشروع جديد أو حالي في Firebase، بما في ذلك استخدام خطة أسعار Blaze وتفعيل واجهات برمجة التطبيقات المطلوبة
يمكنك ربط تطبيقك بمنصة Firebase، بما في ذلك تسجيل تطبيقك وإضافة تهيئة Firebase لتطبيقك.
إضافة حزمة تطوير البرامج (SDK) وإعداد خدمة Vertex AI والنموذج التوليدي في تطبيقك.

بعد ربط تطبيقك بمنصّة Firebase وإضافة حزمة تطوير البرامج (SDK) وإعداد وخدمة Vertex AI والنموذج التوليدي أصبح بإمكانك طلب واجهة برمجة تطبيقات Gemini

إنشاء نص من نص وصورة واحدة
إنشاء نص من نص وصور متعدّدة
إنشاء نص من نص وفيديو

إنشاء نص من نص وصورة واحدة

تأكَّد من إكمال برنامج قبل البدء. هذا الدليل قبل تجربة هذا النموذج.

يمكنك طلب البيانات من Gemini API من خلال طلبات متعدّدة الوسائط تشمل نصًا وملفًا واحدًا (مثل صورة، كما هو موضح في هذا المثال). لهذه الأسباب عليك استخدام نموذج يتوافق مع الطلبات المتعددة الوسائط (مثل Gemini 1.5 Pro)

تشمل الملفات المتوافقة الصور وملفات PDF والفيديوهات والصوت والمزيد. تأكد من مراجعة المتطلبات والتوصيات لملفات الإدخال.

اختَر ما إذا كنت تريد بث الرد (generateContentStream) أو الانتظار. للاستجابة إلى أن يتم إنشاء النتيجة بأكملها (generateContent).

البث

ويمكنك تحقيق تفاعلات أسرع من خلال عدم انتظار النتيجة بأكملها من وإنشاء النماذج، واستخدام البث لمعالجة النتائج الجزئية بدلاً من ذلك.

يوضّح هذا المثال كيفية استخدام "generateContentStream()" لإنشاء بث مباشر. نص من طلب طلب متعدد الوسائط يتضمن نصًا وصورة واحدة:

بدون بث

ويمكنك بدلاً من ذلك انتظار النتيجة كاملة بدلاً من البث. الـ لا يتم عرض النتيجة إلا بعد إكمال النموذج لعملية الإنشاء الدفع.

يوضح هذا المثال كيفية استخدام generateContent() لإنشاء نص من طلب طلب متعدد الوسائط يتضمن نصًا وصورة واحدة:

التعرّف على كيفية اختيار نموذج Gemini ويمكنك اختياريًا تحديد موقع جغرافي المناسبة لحالة الاستخدام والتطبيق

إنشاء نص من نص وصور متعدّدة

تأكَّد من إكمال برنامج قبل البدء. هذا الدليل قبل تجربة هذا النموذج.

يمكنك طلب البيانات من Gemini API من خلال طلبات متعدّدة الوسائط تشمل الملفات النصية والملفات المتعددة (مثل الصور، كما هو موضح في هذا المثال). لهذه الأسباب عليك استخدام نموذج يتوافق مع الطلبات المتعددة الوسائط (مثل Gemini 1.5 Pro)

البث

يوضّح هذا المثال كيفية استخدام "generateContentStream()" لإنشاء بث مباشر. نص من طلب طلب متعدد الوسائط يتضمن نصًا وصورًا متعددة:

بدون بث

أو بدلاً من ذلك، يمكنك انتظار النتيجة بأكملها بدلاً من البث فلن يتم إرجاع النتيجة إلا بعد أن يكمل النموذج عملية عملية الإنشاء.

يوضح هذا المثال كيفية استخدام generateContent() لإنشاء نص من طلب إشعار متعدد الوسائط يتضمن نصًا وصورًا متعددة:

التعرّف على كيفية اختيار نموذج Gemini ويمكنك اختياريًا تحديد موقع جغرافي المناسبة لحالة الاستخدام والتطبيق

إنشاء نص من نص وفيديو

تأكَّد من إكمال برنامج قبل البدء. هذا الدليل قبل تجربة هذا النموذج.

يمكنك طلب البيانات من Gemini API من خلال طلبات متعدّدة الوسائط تشمل نصًا وفيديو واحد (كما هو موضح في هذا المثال). لهذه الأسباب عليك استخدام نموذج يتوافق مع الطلبات المتعددة الوسائط (مثل Gemini 1.5 Pro)

تأكد من مراجعة المتطلبات والتوصيات لملفات الإدخال.

البث

يوضّح هذا المثال كيفية استخدام "generateContentStream()" لإنشاء بث مباشر. نص من طلب مطالبة متعدد الوسائط يتضمن نصًا وفيديو واحد:

بدون بث

يوضح هذا المثال كيفية استخدام generateContent() لإنشاء نص من طلب مطالبة متعدد الوسائط يتضمن نصًا وفيديو واحد:

التعرّف على كيفية اختيار نموذج Gemini ويمكنك اختياريًا تحديد موقع جغرافي المناسبة لحالة الاستخدام والتطبيق

متطلبات وتوصيات ملفات الإدخال

للتعرّف على أنواع الملفات المتوافقة وكيفية تحديد نوع MIME وكيفية إنشاء التأكد من أن ملفاتك وطلباتك المتعددة الوسائط تلبي المتطلبات وأفضل الممارسات، راجع ملفات الإدخال المتوافقة ومتطلبات واجهة Vertex AI Gemini API

ملاحظة: بالنسبة إلى حِزم تطوير برامج (SDK) Vertex AI for Firebase، يكون الحدّ الأقصى لحجم الطلب هو 20 ميغابايت. إذا كان الطلب كبيرًا جدًا، تظهر لك رسالة خطأ HTTP 413.

إذا أدّى حجم الملف إلى تجاوز إجمالي حجم الطلب 20 ميغابايت، استخدام عنوان URL خاص بخدمة Cloud Storage for Firebase من أجل تضمين الملف في طلبك المتعدّد الوسائط ومع ذلك، إذا كان الملف صغيرًا، يمكنك غالبًا تمريره مباشرةً كبيانات مضمّنة (كما هو موضّح في الأمثلة أعلاه). ومع ذلك، لاحظ أن الملف المقدم على أنه مضمّن يتم ترميز البيانات إلى base64 أثناء نقلها، ما يزيد من حجم الطلب.

ما هي الإجراءات الإضافية التي يمكنك تنفيذها؟

تعرَّف على كيفية احتساب الرموز المميّزة. قبل إرسال مطالبات طويلة إلى النموذج.
إعداد Cloud Storage لمنصّة Firebase بحيث يمكنك تضمين الملفات الكبيرة في الطلبات المتعددة الوسائط باستخدام عناوين URL لخدمة Cloud Storage يمكن أن تتضمن الملفات صورًا وملفات PDF وفيديو وصوتًا.
ابدأ بالتفكير في التحضير للإنتاج، بما في ذلك إعداد ميزة "فحص التطبيقات من Firebase" لحماية واجهة Gemini API من إساءة استخدام العملاء غير المصرّح لهم

تجربة إمكانات أخرى لواجهة Gemini API

إنشاء محادثات متعددة الأدوار (محادثة)
إنشاء نص من الطلبات النصية فقط:
استخدام استدعاء الوظائف للاتصال النماذج التوليدية للأنظمة والمعلومات الخارجية

التعرّف على طريقة التحكّم في إنشاء المحتوى

فهم تصميم الطلب، بما في ذلك وأفضل الممارسات والاستراتيجيات وأمثلة الطلبات.
ضبط مَعلمات النموذج مثل رموز درجة الحرارة والحد الأقصى للمخرجات.
استخدِم إعدادات الأمان لضبط احتمالية الحصول على استجابات قد تُعتبر ضارة.

يمكنك أيضًا تجربة الطلبات وعمليات ضبط النماذج باستخدام Vertex AI Studio:

مزيد من المعلومات حول نماذج Gemini

يمكنك معرفة المزيد عن النماذج المتوفّرة لحالات الاستخدام المختلفة و الحصص والأسعار:

تقديم ملاحظات حول تجربتك مع Vertex AI for Firebase