إنشاء نص من طلبات متعدّدة الوسائط باستخدام Gemini API


عند طلب البيانات من Gemini API من تطبيقك باستخدام حزمة تطوير البرامج (SDK) الخاصة بـ Vertex AI for Firebase، يمكنك أن تطلب من نموذج Gemini إنشاء نص استنادًا إلى إدخال متعدد الوسائط. يمكن أن تتضمن الطلبات المتعددة الوسائط عدة طُرق (أو أنواع من الإدخال) مثل النصوص مع الصور وملفات PDF والفيديو والصوت.

لاختبار الطلبات المتعدّدة الوسائط وتكرارها، ننصحك باستخدام Vertex AI Studio:

قبل البدء

إذا لم تكن قد قمت بذلك بالفعل، فاعمل على دليل البدء لحِزم تطوير البرامج (SDK) الخاصة بحزمة Vertex AI for Firebase تأكّد من القيام بكل ما يلي:

  • يمكنك إعداد مشروع جديد أو حالي في Firebase، بما في ذلك استخدام خطة أسعار Blaze وتفعيل واجهات برمجة التطبيقات المطلوبة

  • يمكنك ربط تطبيقك بمنصة Firebase، بما في ذلك تسجيل تطبيقك وإضافة تهيئة Firebase لتطبيقك.

  • إضافة حزمة تطوير البرامج (SDK) وإعداد خدمة Vertex AI والنموذج التوليدي في تطبيقك.

بعد ربط تطبيقك بمنصّة Firebase وإضافة حزمة تطوير البرامج (SDK) وإعداد وخدمة Vertex AI والنموذج التوليدي أصبح بإمكانك طلب واجهة برمجة تطبيقات Gemini

إنشاء نص من نص وصورة واحدة

تأكَّد من إكمال برنامج قبل البدء. هذا الدليل قبل تجربة هذا النموذج.

يمكنك طلب البيانات من Gemini API من خلال طلبات متعدّدة الوسائط تشمل نصًا وملفًا واحدًا (مثل صورة، كما هو موضح في هذا المثال). لهذه الأسباب عليك استخدام نموذج يتوافق مع الطلبات المتعددة الوسائط (مثل Gemini 1.5 Pro)

تشمل الملفات المتوافقة الصور وملفات PDF والفيديوهات والصوت والمزيد. تأكد من مراجعة المتطلبات والتوصيات لملفات الإدخال.

اختَر ما إذا كنت تريد بث الرد (generateContentStream) أو الانتظار. للاستجابة إلى أن يتم إنشاء النتيجة بأكملها (generateContent).

البث

ويمكنك تحقيق تفاعلات أسرع من خلال عدم انتظار النتيجة بأكملها من وإنشاء النماذج، واستخدام البث لمعالجة النتائج الجزئية بدلاً من ذلك.

يوضّح هذا المثال كيفية استخدام "generateContentStream()" لإنشاء بث مباشر. نص من طلب طلب متعدد الوسائط يتضمن نصًا وصورة واحدة:

بدون بث

ويمكنك بدلاً من ذلك انتظار النتيجة كاملة بدلاً من البث. الـ لا يتم عرض النتيجة إلا بعد إكمال النموذج لعملية الإنشاء الدفع.

يوضح هذا المثال كيفية استخدام generateContent() لإنشاء نص من طلب طلب متعدد الوسائط يتضمن نصًا وصورة واحدة:

التعرّف على كيفية اختيار نموذج Gemini ويمكنك اختياريًا تحديد موقع جغرافي المناسبة لحالة الاستخدام والتطبيق

إنشاء نص من نص وصور متعدّدة

تأكَّد من إكمال برنامج قبل البدء. هذا الدليل قبل تجربة هذا النموذج.

يمكنك طلب البيانات من Gemini API من خلال طلبات متعدّدة الوسائط تشمل الملفات النصية والملفات المتعددة (مثل الصور، كما هو موضح في هذا المثال). لهذه الأسباب عليك استخدام نموذج يتوافق مع الطلبات المتعددة الوسائط (مثل Gemini 1.5 Pro)

تشمل الملفات المتوافقة الصور وملفات PDF والفيديوهات والصوت والمزيد. تأكد من مراجعة المتطلبات والتوصيات لملفات الإدخال.

اختَر ما إذا كنت تريد بث الرد (generateContentStream) أو الانتظار. للاستجابة إلى أن يتم إنشاء النتيجة بأكملها (generateContent).

البث

ويمكنك تحقيق تفاعلات أسرع من خلال عدم انتظار النتيجة بأكملها من وإنشاء النماذج، واستخدام البث لمعالجة النتائج الجزئية بدلاً من ذلك.

يوضّح هذا المثال كيفية استخدام "generateContentStream()" لإنشاء بث مباشر. نص من طلب طلب متعدد الوسائط يتضمن نصًا وصورًا متعددة:

بدون بث

أو بدلاً من ذلك، يمكنك انتظار النتيجة بأكملها بدلاً من البث فلن يتم إرجاع النتيجة إلا بعد أن يكمل النموذج عملية عملية الإنشاء.

يوضح هذا المثال كيفية استخدام generateContent() لإنشاء نص من طلب إشعار متعدد الوسائط يتضمن نصًا وصورًا متعددة:

التعرّف على كيفية اختيار نموذج Gemini ويمكنك اختياريًا تحديد موقع جغرافي المناسبة لحالة الاستخدام والتطبيق

إنشاء نص من نص وفيديو

تأكَّد من إكمال برنامج قبل البدء. هذا الدليل قبل تجربة هذا النموذج.

يمكنك طلب البيانات من Gemini API من خلال طلبات متعدّدة الوسائط تشمل نصًا وفيديو واحد (كما هو موضح في هذا المثال). لهذه الأسباب عليك استخدام نموذج يتوافق مع الطلبات المتعددة الوسائط (مثل Gemini 1.5 Pro)

تأكد من مراجعة المتطلبات والتوصيات لملفات الإدخال.

اختَر ما إذا كنت تريد بث الرد (generateContentStream) أو الانتظار. للاستجابة إلى أن يتم إنشاء النتيجة بأكملها (generateContent).

البث

ويمكنك تحقيق تفاعلات أسرع من خلال عدم انتظار النتيجة بأكملها من وإنشاء النماذج، واستخدام البث لمعالجة النتائج الجزئية بدلاً من ذلك.

يوضّح هذا المثال كيفية استخدام "generateContentStream()" لإنشاء بث مباشر. نص من طلب مطالبة متعدد الوسائط يتضمن نصًا وفيديو واحد:

بدون بث

ويمكنك بدلاً من ذلك انتظار النتيجة كاملة بدلاً من البث. الـ لا يتم عرض النتيجة إلا بعد إكمال النموذج لعملية الإنشاء الدفع.

يوضح هذا المثال كيفية استخدام generateContent() لإنشاء نص من طلب مطالبة متعدد الوسائط يتضمن نصًا وفيديو واحد:

التعرّف على كيفية اختيار نموذج Gemini ويمكنك اختياريًا تحديد موقع جغرافي المناسبة لحالة الاستخدام والتطبيق

متطلبات وتوصيات ملفات الإدخال

للتعرّف على أنواع الملفات المتوافقة وكيفية تحديد نوع MIME وكيفية إنشاء التأكد من أن ملفاتك وطلباتك المتعددة الوسائط تلبي المتطلبات وأفضل الممارسات، راجع ملفات الإدخال المتوافقة ومتطلبات واجهة Vertex AI Gemini API

ما هي الإجراءات الإضافية التي يمكنك تنفيذها؟

تجربة إمكانات أخرى لواجهة Gemini API

التعرّف على طريقة التحكّم في إنشاء المحتوى

يمكنك أيضًا تجربة الطلبات وعمليات ضبط النماذج باستخدام Vertex AI Studio:

مزيد من المعلومات حول نماذج Gemini

يمكنك معرفة المزيد عن النماذج المتوفّرة لحالات الاستخدام المختلفة و الحصص والأسعار:


تقديم ملاحظات حول تجربتك مع Vertex AI for Firebase