با استفاده از Gemini API متنی را از دستورهای چندوجهی ایجاد کنید


هنگام فراخوانی Gemini API از برنامه خود با استفاده از Vertex AI in Firebase SDK، می‌توانید از مدل Gemini بخواهید متنی را بر اساس یک ورودی چندوجهی تولید کند. اعلان‌های چندوجهی می‌توانند شامل چندین حالت (یا انواع ورودی)، مانند متن همراه با تصاویر، فایل‌های PDF، ویدئو و صدا باشند.

برای آزمایش و تکرار در اعلان‌های چندوجهی، توصیه می‌کنیم از Vertex AI Studio استفاده کنید.

قبل از شروع

اگر قبلاً این کار را نکرده‌اید، راهنمای شروع به کار برای Vertex AI in Firebase SDK را تکمیل کنید. مطمئن شوید که تمام کارهای زیر را انجام داده اید:

  1. یک پروژه Firebase جدید یا موجود راه اندازی کنید، از جمله استفاده از طرح قیمت گذاری Blaze و فعال کردن API های مورد نیاز.

  2. برنامه خود را به Firebase وصل کنید، از جمله ثبت برنامه خود و افزودن پیکربندی Firebase به برنامه خود.

  3. SDK را اضافه کنید و سرویس Vertex AI و مدل تولیدی را در برنامه خود راه اندازی کنید.

بعد از اینکه برنامه خود را به Firebase متصل کردید، SDK را اضافه کردید و سرویس Vertex AI و مدل تولیدی را راه اندازی کردید، آماده فراخوانی Gemini API هستید.

تولید متن از متن و یک تصویر واحد

قبل از امتحان کردن این نمونه، مطمئن شوید که بخش قبل از شروع این راهنما را تکمیل کرده اید.

می‌توانید Gemini API با اعلان‌های چندوجهی که هم متن و هم یک فایل واحد را شامل می‌شود (مانند یک تصویر، همانطور که در این مثال نشان داده شده است) فراخوانی کنید. برای این تماس‌ها، باید از مدلی استفاده کنید که از اعلان‌های چندوجهی پشتیبانی می‌کند (مانند Gemini 1.5 Pro).

فایل‌های پشتیبانی شده شامل تصاویر، فایل‌های PDF، ویدیو، صدا و موارد دیگر می‌شود. حتماً الزامات و توصیه‌های مربوط به فایل‌های ورودی را مرور کنید.

انتخاب کنید که آیا می‌خواهید پاسخ را پخش جریانی کنید ( generateContentStream ) یا منتظر پاسخ باشید تا کل نتیجه تولید شود ( generateContent ).

پخش جریانی

می‌توانید با منتظر ماندن برای کل نتیجه تولید مدل، به تعاملات سریع‌تری برسید و در عوض از استریم برای مدیریت نتایج جزئی استفاده کنید.

بدون پخش جریانی

از طرف دیگر، می توانید به جای پخش جریانی، منتظر کل نتیجه باشید. نتیجه تنها پس از تکمیل مدل کل فرآیند تولید برگردانده می شود.

نحوه انتخاب مدل Gemini و به صورت اختیاری مکان مناسب برای مورد استفاده و برنامه خود را بیاموزید.

تولید متن از متن و تصاویر متعدد

قبل از امتحان کردن این نمونه، مطمئن شوید که بخش قبل از شروع این راهنما را تکمیل کرده اید.

می‌توانید Gemini API با اعلان‌های چندوجهی که هم متن و هم فایل‌های متعدد (مانند تصاویر، همانطور که در این مثال نشان داده شده است) فراخوانی کنید. برای این تماس‌ها، باید از مدلی استفاده کنید که از اعلان‌های چندوجهی پشتیبانی می‌کند (مانند Gemini 1.5 Pro).

فایل‌های پشتیبانی شده شامل تصاویر، فایل‌های PDF، ویدیو، صدا و موارد دیگر می‌شود. حتماً الزامات و توصیه‌های مربوط به فایل‌های ورودی را مرور کنید.

انتخاب کنید که آیا می‌خواهید پاسخ را پخش جریانی کنید ( generateContentStream ) یا منتظر پاسخ باشید تا کل نتیجه تولید شود ( generateContent ).

پخش جریانی

می‌توانید با منتظر ماندن برای کل نتیجه تولید مدل، به تعاملات سریع‌تری برسید و در عوض از استریم برای مدیریت نتایج جزئی استفاده کنید.

بدون پخش جریانی

از طرف دیگر، می توانید به جای پخش جریانی، منتظر کل نتیجه باشید. نتیجه تنها پس از تکمیل مدل کل فرآیند تولید برگردانده می شود.

نحوه انتخاب مدل Gemini و به صورت اختیاری مکان مناسب برای مورد استفاده و برنامه خود را بیاموزید.

تولید متن از متن و ویدیو

قبل از امتحان کردن این نمونه، مطمئن شوید که بخش قبل از شروع این راهنما را تکمیل کرده اید.

می‌توانید Gemini API با اعلان‌های چندوجهی که هم متن و هم یک ویدیو را شامل می‌شود (همانطور که در این مثال نشان داده شده است) فراخوانی کنید. برای این تماس‌ها، باید از مدلی استفاده کنید که از اعلان‌های چندوجهی پشتیبانی می‌کند (مانند Gemini 1.5 Pro).

حتماً الزامات و توصیه‌های مربوط به فایل‌های ورودی را مرور کنید.

انتخاب کنید که آیا می‌خواهید پاسخ را پخش جریانی کنید ( generateContentStream ) یا منتظر پاسخ باشید تا کل نتیجه تولید شود ( generateContent ).

پخش جریانی

می‌توانید با منتظر ماندن برای کل نتیجه تولید مدل، به تعاملات سریع‌تری برسید و در عوض از استریم برای مدیریت نتایج جزئی استفاده کنید.

بدون پخش جریانی

از طرف دیگر، می توانید به جای پخش جریانی، منتظر کل نتیجه باشید. نتیجه تنها پس از تکمیل مدل کل فرآیند تولید برگردانده می شود.

نحوه انتخاب مدل Gemini و به صورت اختیاری مکان مناسب برای مورد استفاده و برنامه خود را بیاموزید.

الزامات و توصیه‌ها برای فایل‌های ورودی

برای آشنایی با انواع فایل‌های پشتیبانی‌شده، نحوه تعیین نوع MIME، و نحوه اطمینان از اینکه فایل‌ها و درخواست‌های چندوجهی شما الزامات را برآورده می‌کنند و از بهترین شیوه‌ها پیروی می‌کنند، به فایل‌های ورودی پشتیبانی شده و الزامات برای Vertex AI Gemini API مراجعه کنید.

چه کار دیگری می توانید انجام دهید؟

  • قبل از ارسال پیام های طولانی به مدل، نحوه شمارش نشانه ها را بیاموزید.
  • Cloud Storage for Firebase تنظیم کنید تا بتوانید با استفاده از URL های Cloud Storage فایل های بزرگ را در درخواست های چندوجهی خود قرار دهید. فایل‌ها می‌توانند شامل تصاویر، PDF، ویدیو و صدا باشند.
  • به فکر آماده شدن برای تولید، از جمله راه‌اندازی Firebase App Check برای محافظت از Gemini API در برابر سوء استفاده توسط مشتریان غیرمجاز باشید.

سایر قابلیت های Gemini API را امتحان کنید

یاد بگیرید چگونه تولید محتوا را کنترل کنید

همچنین می‌توانید با استفاده از Vertex AI Studio دستورات و پیکربندی‌های مدل را آزمایش کنید.

در مورد مدل های جمینی بیشتر بدانید

در مورد مدل های موجود برای موارد استفاده مختلف و سهمیه ها و قیمت آنها اطلاعات کسب کنید.


درباره تجربه خود با Vertex AI in Firebase بازخورد بدهید