هنگام فراخوانی Gemini API از برنامه خود با استفاده از Vertex AI در Firebase SDK، میتوانید از مدل Gemini بخواهید متنی را بر اساس یک ورودی چندوجهی تولید کند. اعلانهای چندوجهی میتوانند شامل چندین حالت (یا انواع ورودی)، مانند متن همراه با تصاویر، فایلهای PDF، فایلهای متن ساده، ویدئو و صدا باشند.
در هر درخواست چند وجهی، همیشه باید موارد زیر را ارائه دهید:
mimeType
فایل. با انواع MIME پشتیبانی شده هر فایل ورودی آشنا شوید.فایل. می توانید فایل را به صورت داده های درون خطی (همانطور که در این صفحه نشان داده شده است) یا با استفاده از URL یا URI آن ارائه دهید.
برای آزمایش و تکرار در اعلانهای چندوجهی، توصیه میکنیم از Vertex AI Studio استفاده کنید.
گزینه های دیگر برای کار با Gemini API
به صورت اختیاری با نسخه جایگزین « Google AI » از Gemini API آزمایش کنید
با استفاده از Google AI Studio و Google AI Client SDK، دسترسی رایگان (در محدوده و در صورت وجود) دریافت کنید. این SDK ها باید فقط برای نمونه سازی در برنامه های موبایل و وب استفاده شوند.پس از اینکه با نحوه عملکرد یک API Gemini آشنا شدید، به Vertex AI ما در Firebase SDK (این مستندات) مهاجرت کنید ، که دارای بسیاری از ویژگیهای اضافی مهم برای برنامههای تلفن همراه و وب هستند، مانند محافظت از API در برابر سوء استفاده با استفاده از Firebase App Check و پشتیبانی از فایلهای رسانه بزرگ در درخواستها .
به صورت اختیاری Vertex AI Gemini API سمت سرور را فراخوانی کنید (مانند Python، Node.js یا Go)
برای Gemini Firebase Extensions از Vertex AI SDK، Genkit یا Firebase Extensions سمت سرور استفاده کنید.
قبل از شروع
اگر قبلاً این کار را نکردهاید، راهنمای شروع را کامل کنید، که نحوه راهاندازی پروژه Firebase را توضیح میدهد، برنامه خود را به Firebase متصل کنید، SDK را اضافه کنید، سرویس Vertex AI را راهاندازی کنید، و یک نمونه GenerativeModel
ایجاد کنید.
تولید متن از متن و یک تصویر واحد تولید متن از متن و چندین تصویر تولید متن از متن و یک ویدیو
نمونه فایل های رسانه ای
اگر از قبل فایل های رسانه ای ندارید، می توانید از فایل های زیر برای عموم استفاده کنید. از آنجایی که این فایلها در سطلهایی ذخیره میشوند که در پروژه Firebase شما نیستند، باید از قالب https://storage.googleapis.com/ BUCKET_NAME/PATH/TO/FILE
برای URL استفاده کنید.
تصویر :
https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg
با نوع MIMEimage/jpeg
. این تصویر را مشاهده یا دانلود کنید.PDF :
https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/2403.05530.pdf
با نوع MIMEapplication/pdf
. این پی دی اف را مشاهده یا دانلود کنید.ویدئو :
https://storage.googleapis.com/cloud-samples-data/video/animals.mp4
با نوع MIMEvideo/mp4
. این ویدیو را مشاهده یا دانلود کنید.صدا :
https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3
با نوع MIMEaudio/mp3
. این صوت را بشنوید یا دانلود کنید.
تولید متن از متن و یک تصویر واحد
قبل از امتحان کردن این نمونه، مطمئن شوید که بخش قبل از شروع این راهنما را تکمیل کرده اید.
میتوانید Gemini API را با اعلانهای چندوجهی که هم متن و هم یک فایل واحد را شامل میشود (مانند یک تصویر، همانطور که در این مثال نشان داده شده است) فراخوانی کنید. برای این تماسها، باید از مدلی استفاده کنید که از رسانه در اعلانها پشتیبانی کند (مانند Gemini 2.0 Flash ).
حتماً الزامات و توصیههای مربوط به فایلهای ورودی را مرور کنید.
انتخاب کنید که آیا میخواهید پاسخ را پخش جریانی کنید ( generateContentStream
) یا منتظر پاسخ باشید تا کل نتیجه تولید شود ( generateContent
).
میتوانید با منتظر ماندن برای کل نتیجه تولید مدل، به تعاملات سریعتری برسید و در عوض از استریم برای مدیریت نتایج جزئی استفاده کنید.
از طرف دیگر، می توانید به جای پخش جریانی، منتظر کل نتیجه باشید. نتیجه تنها پس از تکمیل مدل کل فرآیند تولید برگردانده می شود.
نحوه انتخاب یک مدل و به صورت اختیاری مکان مناسب برای مورد استفاده و برنامه خود را بیاموزید.
تولید متن از متن و تصاویر متعدد
قبل از امتحان کردن این نمونه، مطمئن شوید که بخش قبل از شروع این راهنما را تکمیل کرده اید.
میتوانید Gemini API را با اعلانهای چندوجهی که هم متن و هم فایلهای متعدد (مانند تصاویر، همانطور که در این مثال نشان داده شده است) فراخوانی کنید. برای این تماسها، باید از مدلی استفاده کنید که از رسانه در اعلانها پشتیبانی کند (مانند Gemini 2.0 Flash ).
حتماً الزامات و توصیههای مربوط به فایلهای ورودی را مرور کنید.
انتخاب کنید که آیا میخواهید پاسخ را پخش جریانی کنید ( generateContentStream
) یا منتظر پاسخ باشید تا کل نتیجه تولید شود ( generateContent
).
میتوانید با منتظر ماندن برای کل نتیجه تولید مدل، به تعاملات سریعتری برسید و در عوض از استریم برای مدیریت نتایج جزئی استفاده کنید.
از طرف دیگر، می توانید به جای پخش جریانی، منتظر کل نتیجه باشید. نتیجه تنها پس از تکمیل مدل کل فرآیند تولید برگردانده می شود.
نحوه انتخاب یک مدل و به صورت اختیاری مکان مناسب برای مورد استفاده و برنامه خود را بیاموزید.
تولید متن از متن و ویدیو
قبل از امتحان کردن این نمونه، مطمئن شوید که بخش قبل از شروع این راهنما را تکمیل کرده اید.
میتوانید Gemini API را با اعلانهای چندوجهی که شامل فایل(های) متنی و ویدیویی است (همانطور که در این مثال نشان داده شده است) فراخوانی کنید. برای این تماسها، باید از مدلی استفاده کنید که از رسانه در اعلانها پشتیبانی کند (مانند Gemini 2.0 Flash ).
حتماً الزامات و توصیههای مربوط به فایلهای ورودی را مرور کنید.
انتخاب کنید که آیا میخواهید پاسخ را پخش جریانی کنید ( generateContentStream
) یا منتظر پاسخ باشید تا کل نتیجه تولید شود ( generateContent
).
میتوانید با منتظر ماندن برای کل نتیجه تولید مدل، به تعاملات سریعتری برسید و در عوض از استریم برای مدیریت نتایج جزئی استفاده کنید.
از طرف دیگر، می توانید به جای پخش جریانی، منتظر کل نتیجه باشید. نتیجه تنها پس از تکمیل مدل کل فرآیند تولید برگردانده می شود.
نحوه انتخاب یک مدل و به صورت اختیاری مکان مناسب برای مورد استفاده و برنامه خود را بیاموزید.
الزامات و توصیهها برای فایلهای ورودی
فایلهای ورودی پشتیبانیشده و الزامات Vertex AI Gemini API را ببینید تا با موارد زیر آشنا شوید:
- گزینه های مختلف برای ارائه فایل در یک درخواست
- انواع فایل های پشتیبانی شده
- انواع MIME پشتیبانی شده و نحوه تعیین آنها
- الزامات و بهترین شیوه ها برای فایل ها و درخواست های چندوجهی
چه کار دیگری می توانید انجام دهید؟
- قبل از ارسال پیام های طولانی به مدل، نحوه شمارش نشانه ها را بیاموزید.
- Cloud Storage for Firebase راهاندازی کنید تا بتوانید فایلهای حجیم را در درخواستهای چندوجهی خود بگنجانید و راهحل مدیریتشدهتری برای ارائه فایلها در درخواستها داشته باشید. فایلها میتوانند شامل تصاویر، PDF، ویدیو و صدا باشند.
- به فکر آماده شدن برای تولید، از جمله راهاندازی Firebase App Check برای محافظت از Gemini API در برابر سوء استفاده توسط مشتریان غیرمجاز باشید. همچنین، حتماً چک لیست تولید را مرور کنید.
قابلیت های دیگر را امتحان کنید
- مکالمات چند نوبتی (چت) بسازید.
- متن را از اعلانهای فقط متنی ایجاد کنید.
- خروجی ساختاریافته (مانند JSON) را هم از دستورات متنی و هم از چند وجهی ایجاد کنید.
- تولید تصاویر از پیام های متنی
- از فراخوانی تابع برای اتصال مدل های مولد به سیستم ها و اطلاعات خارجی استفاده کنید.
یاد بگیرید چگونه تولید محتوا را کنترل کنید
- طراحی سریع، از جمله بهترین شیوهها، استراتژیها و درخواستهای نمونه را درک کنید .
- پارامترهای مدل مانند دما و نشانههای حداکثر خروجی (برای Gemini ) یا نسبت ابعاد و تولید شخص (برای Imagen ) را پیکربندی کنید.
- از تنظیمات ایمنی برای تنظیم احتمال دریافت پاسخ هایی که ممکن است مضر تلقی شوند استفاده کنید .
درباره مدل های پشتیبانی شده بیشتر بدانید
در مورد مدل های موجود برای موارد استفاده مختلف و سهمیه ها و قیمت آنها اطلاعات کسب کنید.درباره تجربه خود با Vertex AI در Firebase بازخورد بدهید
هنگام فراخوانی Gemini API از برنامه خود با استفاده از Vertex AI در Firebase SDK، میتوانید از مدل Gemini بخواهید متنی را بر اساس یک ورودی چندوجهی تولید کند. اعلانهای چندوجهی میتوانند شامل چندین حالت (یا انواع ورودی)، مانند متن همراه با تصاویر، فایلهای PDF، فایلهای متن ساده، ویدئو و صدا باشند.
در هر درخواست چند وجهی، همیشه باید موارد زیر را ارائه دهید:
mimeType
فایل. با انواع MIME پشتیبانی شده هر فایل ورودی آشنا شوید.فایل. می توانید فایل را به صورت داده های درون خطی (همانطور که در این صفحه نشان داده شده است) یا با استفاده از URL یا URI آن ارائه دهید.
برای آزمایش و تکرار در اعلانهای چندوجهی، توصیه میکنیم از Vertex AI Studio استفاده کنید.
گزینه های دیگر برای کار با Gemini API
به صورت اختیاری با نسخه جایگزین « Google AI » از Gemini API آزمایش کنید
با استفاده از Google AI Studio و Google AI Client SDK، دسترسی رایگان (در محدوده و در صورت وجود) دریافت کنید. این SDK ها باید فقط برای نمونه سازی در برنامه های موبایل و وب استفاده شوند.پس از اینکه با نحوه عملکرد یک API Gemini آشنا شدید، به Vertex AI ما در Firebase SDK (این مستندات) مهاجرت کنید ، که دارای بسیاری از ویژگیهای اضافی مهم برای برنامههای تلفن همراه و وب هستند، مانند محافظت از API در برابر سوء استفاده با استفاده از Firebase App Check و پشتیبانی از فایلهای رسانه بزرگ در درخواستها .
به صورت اختیاری Vertex AI Gemini API سمت سرور را فراخوانی کنید (مانند Python، Node.js یا Go)
برای Gemini Firebase Extensions از Vertex AI SDK، Genkit یا Firebase Extensions سمت سرور استفاده کنید.
قبل از شروع
اگر قبلاً این کار را نکردهاید، راهنمای شروع را کامل کنید، که نحوه راهاندازی پروژه Firebase را توضیح میدهد، برنامه خود را به Firebase متصل کنید، SDK را اضافه کنید، سرویس Vertex AI را راهاندازی کنید، و یک نمونه GenerativeModel
ایجاد کنید.
تولید متن از متن و یک تصویر واحد تولید متن از متن و چندین تصویر تولید متن از متن و یک ویدیو
نمونه فایل های رسانه ای
اگر از قبل فایل های رسانه ای ندارید، می توانید از فایل های زیر برای عموم استفاده کنید. از آنجایی که این فایلها در سطلهایی ذخیره میشوند که در پروژه Firebase شما نیستند، باید از قالب https://storage.googleapis.com/ BUCKET_NAME/PATH/TO/FILE
برای URL استفاده کنید.
تصویر :
https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg
با نوع MIMEimage/jpeg
. این تصویر را مشاهده یا دانلود کنید.PDF :
https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/2403.05530.pdf
با نوع MIMEapplication/pdf
. این پی دی اف را مشاهده یا دانلود کنید.ویدئو :
https://storage.googleapis.com/cloud-samples-data/video/animals.mp4
با نوع MIMEvideo/mp4
. این ویدیو را مشاهده یا دانلود کنید.صدا :
https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3
با نوع MIMEaudio/mp3
. این صوت را بشنوید یا دانلود کنید.
تولید متن از متن و یک تصویر واحد
قبل از امتحان کردن این نمونه، مطمئن شوید که بخش قبل از شروع این راهنما را تکمیل کرده اید.
میتوانید Gemini API را با اعلانهای چندوجهی که هم متن و هم یک فایل واحد را شامل میشود (مانند یک تصویر، همانطور که در این مثال نشان داده شده است) فراخوانی کنید. برای این تماسها، باید از مدلی استفاده کنید که از رسانه در اعلانها پشتیبانی کند (مانند Gemini 2.0 Flash ).
حتماً الزامات و توصیههای مربوط به فایلهای ورودی را مرور کنید.
انتخاب کنید که آیا میخواهید پاسخ را پخش جریانی کنید ( generateContentStream
) یا منتظر پاسخ باشید تا کل نتیجه تولید شود ( generateContent
).
میتوانید با منتظر ماندن برای کل نتیجه تولید مدل، به تعاملات سریعتری برسید و در عوض از استریم برای مدیریت نتایج جزئی استفاده کنید.
از طرف دیگر، می توانید به جای پخش جریانی، منتظر کل نتیجه باشید. نتیجه تنها پس از تکمیل مدل کل فرآیند تولید برگردانده می شود.
نحوه انتخاب یک مدل و به صورت اختیاری مکان مناسب برای مورد استفاده و برنامه خود را بیاموزید.
تولید متن از متن و تصاویر متعدد
قبل از امتحان کردن این نمونه، مطمئن شوید که بخش قبل از شروع این راهنما را تکمیل کرده اید.
میتوانید Gemini API را با اعلانهای چندوجهی که هم متن و هم فایلهای متعدد (مانند تصاویر، همانطور که در این مثال نشان داده شده است) فراخوانی کنید. برای این تماسها، باید از مدلی استفاده کنید که از رسانه در اعلانها پشتیبانی کند (مانند Gemini 2.0 Flash ).
حتماً الزامات و توصیههای مربوط به فایلهای ورودی را مرور کنید.
انتخاب کنید که آیا میخواهید پاسخ را پخش جریانی کنید ( generateContentStream
) یا منتظر پاسخ باشید تا کل نتیجه تولید شود ( generateContent
).
میتوانید با منتظر ماندن برای کل نتیجه تولید مدل، به تعاملات سریعتری برسید و در عوض از استریم برای مدیریت نتایج جزئی استفاده کنید.
از طرف دیگر، می توانید به جای پخش جریانی، منتظر کل نتیجه باشید. نتیجه تنها پس از تکمیل مدل کل فرآیند تولید برگردانده می شود.
نحوه انتخاب یک مدل و به صورت اختیاری مکان مناسب برای مورد استفاده و برنامه خود را بیاموزید.
تولید متن از متن و ویدیو
قبل از امتحان کردن این نمونه، مطمئن شوید که بخش قبل از شروع این راهنما را تکمیل کرده اید.
میتوانید Gemini API را با اعلانهای چندوجهی که شامل فایل(های) متنی و ویدیویی است (همانطور که در این مثال نشان داده شده است) فراخوانی کنید. برای این تماسها، باید از مدلی استفاده کنید که از رسانه در اعلانها پشتیبانی کند (مانند Gemini 2.0 Flash ).
حتماً الزامات و توصیههای مربوط به فایلهای ورودی را مرور کنید.
انتخاب کنید که آیا میخواهید پاسخ را پخش جریانی کنید ( generateContentStream
) یا منتظر پاسخ باشید تا کل نتیجه تولید شود ( generateContent
).
میتوانید با منتظر ماندن برای کل نتیجه تولید مدل، به تعاملات سریعتری برسید و در عوض از استریم برای مدیریت نتایج جزئی استفاده کنید.
از طرف دیگر، می توانید به جای پخش جریانی، منتظر کل نتیجه باشید. نتیجه تنها پس از تکمیل مدل کل فرآیند تولید برگردانده می شود.
نحوه انتخاب یک مدل و به صورت اختیاری مکان مناسب برای مورد استفاده و برنامه خود را بیاموزید.
الزامات و توصیهها برای فایلهای ورودی
فایلهای ورودی پشتیبانیشده و الزامات Vertex AI Gemini API را ببینید تا با موارد زیر آشنا شوید:
- گزینه های مختلف برای ارائه فایل در یک درخواست
- انواع فایل های پشتیبانی شده
- انواع MIME پشتیبانی شده و نحوه تعیین آنها
- الزامات و بهترین شیوه ها برای فایل ها و درخواست های چندوجهی
چه کار دیگری می توانید انجام دهید؟
- قبل از ارسال پیام های طولانی به مدل، نحوه شمارش نشانه ها را بیاموزید.
- Cloud Storage for Firebase راهاندازی کنید تا بتوانید فایلهای حجیم را در درخواستهای چندوجهی خود بگنجانید و راهحل مدیریتشدهتری برای ارائه فایلها در درخواستها داشته باشید. فایلها میتوانند شامل تصاویر، PDF، ویدیو و صدا باشند.
- به فکر آماده شدن برای تولید، از جمله راهاندازی Firebase App Check برای محافظت از Gemini API در برابر سوء استفاده توسط مشتریان غیرمجاز باشید. همچنین، حتماً چک لیست تولید را مرور کنید.
قابلیت های دیگر را امتحان کنید
- مکالمات چند نوبتی (چت) بسازید.
- متن را از اعلانهای فقط متنی ایجاد کنید.
- خروجی ساختاریافته (مانند JSON) را هم از دستورات متنی و هم از چند وجهی ایجاد کنید.
- تولید تصاویر از پیام های متنی
- از فراخوانی تابع برای اتصال مدل های مولد به سیستم ها و اطلاعات خارجی استفاده کنید.
یاد بگیرید چگونه تولید محتوا را کنترل کنید
- طراحی سریع، از جمله بهترین شیوهها، استراتژیها و درخواستهای نمونه را درک کنید .
- پارامترهای مدل مانند دما و نشانههای حداکثر خروجی (برای Gemini ) یا نسبت ابعاد و تولید شخص (برای Imagen ) را پیکربندی کنید.
- از تنظیمات ایمنی برای تنظیم احتمال دریافت پاسخ هایی که ممکن است مضر تلقی شوند استفاده کنید .
درباره مدل های پشتیبانی شده بیشتر بدانید
در مورد مدل های موجود برای موارد استفاده مختلف و سهمیه ها و قیمت آنها اطلاعات کسب کنید.درباره تجربه خود با Vertex AI در Firebase بازخورد بدهید
هنگام فراخوانی Gemini API از برنامه خود با استفاده از Vertex AI در Firebase SDK، میتوانید از مدل Gemini بخواهید متنی را بر اساس یک ورودی چندوجهی تولید کند. اعلانهای چندوجهی میتوانند شامل چندین حالت (یا انواع ورودی)، مانند متن همراه با تصاویر، فایلهای PDF، فایلهای متن ساده، ویدئو و صدا باشند.
در هر درخواست چند وجهی، همیشه باید موارد زیر را ارائه دهید:
mimeType
فایل. با انواع MIME پشتیبانی شده هر فایل ورودی آشنا شوید.فایل. می توانید فایل را به صورت داده های درون خطی (همانطور که در این صفحه نشان داده شده است) یا با استفاده از URL یا URI آن ارائه دهید.
برای آزمایش و تکرار در اعلانهای چندوجهی، توصیه میکنیم از Vertex AI Studio استفاده کنید.
گزینه های دیگر برای کار با Gemini API
به صورت اختیاری با نسخه جایگزین « Google AI » از Gemini API آزمایش کنید
با استفاده از Google AI Studio و Google AI Client SDK، دسترسی رایگان (در محدوده و در صورت وجود) دریافت کنید. این SDK ها باید فقط برای نمونه سازی در برنامه های موبایل و وب استفاده شوند.پس از اینکه با نحوه عملکرد یک API Gemini آشنا شدید، به Vertex AI ما در Firebase SDK (این مستندات) مهاجرت کنید ، که دارای بسیاری از ویژگیهای اضافی مهم برای برنامههای تلفن همراه و وب هستند، مانند محافظت از API در برابر سوء استفاده با استفاده از Firebase App Check و پشتیبانی از فایلهای رسانه بزرگ در درخواستها .
به صورت اختیاری Vertex AI Gemini API سمت سرور را فراخوانی کنید (مانند Python، Node.js یا Go)
برای Gemini Firebase Extensions از Vertex AI SDK، Genkit یا Firebase Extensions سمت سرور استفاده کنید.
قبل از شروع
اگر قبلاً این کار را نکردهاید، راهنمای شروع را کامل کنید، که نحوه راهاندازی پروژه Firebase را توضیح میدهد، برنامه خود را به Firebase متصل کنید، SDK را اضافه کنید، سرویس Vertex AI را راهاندازی کنید، و یک نمونه GenerativeModel
ایجاد کنید.
متن را از متن تولید کنید و یک تصویر واحد از متن متن تولید کنید و چندین تصویر متن را از متن و یک فیلم تولید کنید
نمونه فایل های رسانه ای
اگر قبلاً پرونده های رسانه ای ندارید ، می توانید از پرونده های موجود در زیر استفاده کنید. از آنجا که این پرونده ها در سطل هایی که در پروژه Firebase شما نیستند ذخیره می شوند ، باید از https://storage.googleapis.com/ BUCKET_NAME/PATH/TO/FILE
for url استفاده کنید.
تصویر :
https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg
با نوع mime ازimage/jpeg
. مشاهده یا بارگیری این تصویر.PDF :
https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/2403.05530.pdf
با نوعapplication/pdf
. مشاهده یا بارگیری این PDF.ویدئو :
https://storage.googleapis.com/cloud-samples-data/video/animals.mp4
با نوع تقلیدvideo/mp4
. مشاهده یا بارگیری این فیلم.صدا :
https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3
با یک نوع mime ازaudio/mp3
. این صدا را گوش دهید یا بارگیری کنید.
متن را از متن و یک تصویر واحد تولید کنید
قبل از امتحان کردن این نمونه ، اطمینان حاصل کنید که بخش قبل از شروع این راهنما را تکمیل کرده اید.
شما می توانید API Gemini را با مطالب چند مدلی که شامل متن و یک فایل واحد است (مانند یک تصویر ، همانطور که در این مثال نشان داده شده است) تماس بگیرید. برای این تماس ها ، شما باید از مدلی استفاده کنید که از رسانه ها در اعلان ها پشتیبانی می کند (مانند فلش جمینی 2.0 ).
حتماً الزامات و توصیه های پرونده های ورودی را مرور کنید.
انتخاب کنید که آیا می خواهید پاسخ ( generateContentStream
) را پخش کنید یا منتظر پاسخ باشید تا زمانی که کل نتیجه ( generateContent
) تولید شود.
میتوانید با منتظر ماندن برای کل نتیجه تولید مدل، به تعاملات سریعتری برسید و در عوض از استریم برای مدیریت نتایج جزئی استفاده کنید.
از طرف دیگر، می توانید به جای پخش جریانی، منتظر کل نتیجه باشید. نتیجه تنها پس از تکمیل مدل کل فرآیند تولید برگردانده می شود.
نحوه انتخاب یک مدل و به صورت اختیاری مکان مناسب برای مورد استفاده و برنامه خود را بیاموزید.
متن را از متن و چندین تصویر ایجاد کنید
قبل از امتحان کردن این نمونه ، اطمینان حاصل کنید که بخش قبل از شروع این راهنما را تکمیل کرده اید.
شما می توانید با API Gemini با پیش نویس های چند حالته تماس بگیرید که شامل متن و چندین پرونده (مانند تصاویر ، همانطور که در این مثال نشان داده شده است). برای این تماس ها ، شما باید از مدلی استفاده کنید که از رسانه ها در اعلان ها پشتیبانی می کند (مانند فلش جمینی 2.0 ).
حتماً الزامات و توصیه های پرونده های ورودی را مرور کنید.
انتخاب کنید که آیا می خواهید پاسخ ( generateContentStream
) را پخش کنید یا منتظر پاسخ باشید تا زمانی که کل نتیجه ( generateContent
) تولید شود.
میتوانید با منتظر ماندن برای کل نتیجه تولید مدل، به تعاملات سریعتری برسید و در عوض از استریم برای مدیریت نتایج جزئی استفاده کنید.
از طرف دیگر ، می توانید به جای جریان ، منتظر کل نتیجه باشید. نتیجه تنها پس از تکمیل مدل کل فرآیند تولید برگردانده می شود.
نحوه انتخاب یک مدل و به صورت اختیاری مکان مناسب برای مورد استفاده و برنامه خود را بیاموزید.
متن را از متن و یک فیلم تولید کنید
قبل از امتحان کردن این نمونه ، اطمینان حاصل کنید که بخش قبل از شروع این راهنما را تکمیل کرده اید.
شما می توانید با API Gemini با مطالب چندمدی تماس بگیرید که شامل هر دو فایل (متن) متن و تصویری (همانطور که در این مثال نشان داده شده است). برای این تماس ها ، شما باید از مدلی استفاده کنید که از رسانه ها در اعلان ها پشتیبانی می کند (مانند فلش جمینی 2.0 ).
حتماً الزامات و توصیه های پرونده های ورودی را مرور کنید.
انتخاب کنید که آیا می خواهید پاسخ ( generateContentStream
) را پخش کنید یا منتظر پاسخ باشید تا زمانی که کل نتیجه ( generateContent
) تولید شود.
میتوانید با منتظر ماندن برای کل نتیجه تولید مدل، به تعاملات سریعتری برسید و در عوض از استریم برای مدیریت نتایج جزئی استفاده کنید.
از طرف دیگر، می توانید به جای پخش جریانی، منتظر کل نتیجه باشید. نتیجه تنها پس از تکمیل مدل کل فرآیند تولید برگردانده می شود.
نحوه انتخاب یک مدل و به صورت اختیاری مکان مناسب برای مورد استفاده و برنامه خود را بیاموزید.
مورد نیاز و توصیه های پرونده های ورودی
به پرونده های ورودی پشتیبانی شده و الزامات مربوط به vertex ai gemini api مراجعه کنید تا در مورد موارد زیر بیاموزید:
- گزینه های مختلف برای ارائه پرونده در یک درخواست
- انواع فایل های پشتیبانی شده
- از انواع MIME پشتیبانی شده و نحوه مشخص کردن آنها
- الزامات و بهترین روشها برای پرونده ها و درخواست های چند حالته
چه کار دیگری می توانید انجام دهید؟
- قبل از ارسال پیام های طولانی به مدل، نحوه شمارش نشانه ها را بیاموزید.
- Cloud Storage for Firebase راهاندازی کنید تا بتوانید فایلهای حجیم را در درخواستهای چندوجهی خود بگنجانید و راهحل مدیریتشدهتری برای ارائه فایلها در درخواستها داشته باشید. فایلها میتوانند شامل تصاویر، PDF، ویدیو و صدا باشند.
- به فکر آماده شدن برای تولید، از جمله راهاندازی Firebase App Check برای محافظت از Gemini API در برابر سوء استفاده توسط مشتریان غیرمجاز باشید. همچنین، حتماً چک لیست تولید را مرور کنید.
قابلیت های دیگر را امتحان کنید
- مکالمه های چند چرخش (گپ) بسازید.
- متن را از اعلانهای فقط متنی ایجاد کنید.
- خروجی ساختاریافته (مانند JSON) را هم از دستورات متنی و هم از چند وجهی ایجاد کنید.
- تولید تصاویر از پیام های متنی
- از فراخوانی تابع برای اتصال مدل های مولد به سیستم ها و اطلاعات خارجی استفاده کنید.
یاد بگیرید چگونه تولید محتوا را کنترل کنید
- طراحی سریع، از جمله بهترین شیوهها، استراتژیها و درخواستهای نمونه را درک کنید .
- پارامترهای مدل مانند دما و نشانههای حداکثر خروجی (برای Gemini ) یا نسبت ابعاد و تولید شخص (برای Imagen ) را پیکربندی کنید.
- از تنظیمات ایمنی برای تنظیم احتمال دریافت پاسخ هایی که ممکن است مضر تلقی شوند استفاده کنید .
درباره مدل های پشتیبانی شده بیشتر بدانید
در مورد مدل های موجود برای موارد استفاده مختلف و سهمیه ها و قیمت آنها اطلاعات کسب کنید.درباره تجربه خود با Vertex AI در Firebase بازخورد بدهید
هنگام فراخوانی API Gemini از برنامه خود با استفاده از AI Vertex در Firebase SDK ، می توانید مدل Gemini را برای تولید متن بر اساس یک ورودی چندمودال وادار کنید. مطالب چندمودال می تواند شامل چندین روش (یا انواع ورودی) باشد ، مانند متن به همراه تصاویر ، PDF ها ، پرونده های متن ساده ، فیلم و صوتی.
در هر درخواست چند وجهی، همیشه باید موارد زیر را ارائه دهید:
mimeType
فایل. در مورد انواع پشتیبانی شده از هر پرونده ورودی اطلاعات کسب کنید.فایل. شما می توانید پرونده را به صورت داده درون خطی (همانطور که در این صفحه نشان داده شده است) تهیه کنید یا از URL یا URI آن استفاده کنید.
برای آزمایش و تکرار در مورد پیشبرد های چند حالته ، توصیه می کنیم از استودیوی Vertex AI استفاده کنید.
گزینه های دیگر برای کار با Gemini API
به صورت اختیاری با نسخه جایگزین « Google AI » از Gemini API آزمایش کنید
با استفاده از Google AI Studio و Google AI Client SDK، دسترسی رایگان (در محدوده و در صورت وجود) دریافت کنید. این SDK ها باید فقط برای نمونه سازی در برنامه های موبایل و وب استفاده شوند.پس از اینکه با نحوه عملکرد یک API Gemini آشنا شدید، به Vertex AI ما در Firebase SDK (این مستندات) مهاجرت کنید ، که دارای بسیاری از ویژگیهای اضافی مهم برای برنامههای تلفن همراه و وب هستند، مانند محافظت از API در برابر سوء استفاده با استفاده از Firebase App Check و پشتیبانی از فایلهای رسانه بزرگ در درخواستها .
به صورت اختیاری Vertex AI Gemini API سمت سرور را فراخوانی کنید (مانند Python، Node.js یا Go)
برای Gemini Firebase Extensions از Vertex AI SDK، Genkit یا Firebase Extensions سمت سرور استفاده کنید.
قبل از شروع
اگر قبلاً این کار را نکردهاید، راهنمای شروع را کامل کنید، که نحوه راهاندازی پروژه Firebase را توضیح میدهد، برنامه خود را به Firebase متصل کنید، SDK را اضافه کنید، سرویس Vertex AI را راهاندازی کنید، و یک نمونه GenerativeModel
ایجاد کنید.
متن را از متن تولید کنید و یک تصویر واحد از متن متن تولید کنید و چندین تصویر متن را از متن و یک فیلم تولید کنید
نمونه فایل های رسانه ای
اگر قبلاً پرونده های رسانه ای ندارید ، می توانید از پرونده های موجود در زیر استفاده کنید. از آنجا که این پرونده ها در سطل هایی که در پروژه Firebase شما نیستند ذخیره می شوند ، باید از https://storage.googleapis.com/ BUCKET_NAME/PATH/TO/FILE
for url استفاده کنید.
تصویر :
https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg
با نوع mime ازimage/jpeg
. مشاهده یا بارگیری این تصویر.PDF :
https://storage.googleapis.com/cloud-samples-data/generative-ai/pdf/2403.05530.pdf
با نوعapplication/pdf
. مشاهده یا بارگیری این PDF.ویدئو :
https://storage.googleapis.com/cloud-samples-data/video/animals.mp4
با نوع تقلیدvideo/mp4
. مشاهده یا بارگیری این فیلم.صدا :
https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3
با یک نوع mime ازaudio/mp3
. این صدا را گوش دهید یا بارگیری کنید.
متن را از متن و یک تصویر واحد تولید کنید
قبل از امتحان کردن این نمونه ، اطمینان حاصل کنید که بخش قبل از شروع این راهنما را تکمیل کرده اید.
شما می توانید API Gemini را با مطالب چند مدلی که شامل متن و یک فایل واحد است (مانند یک تصویر ، همانطور که در این مثال نشان داده شده است) تماس بگیرید. برای این تماس ها ، شما باید از مدلی استفاده کنید که از رسانه ها در اعلان ها پشتیبانی می کند (مانند فلش جمینی 2.0 ).
حتماً الزامات و توصیه های پرونده های ورودی را مرور کنید.
انتخاب کنید که آیا می خواهید پاسخ ( generateContentStream
) را پخش کنید یا منتظر پاسخ باشید تا زمانی که کل نتیجه ( generateContent
) تولید شود.
میتوانید با منتظر ماندن برای کل نتیجه تولید مدل، به تعاملات سریعتری برسید و در عوض از استریم برای مدیریت نتایج جزئی استفاده کنید.
از طرف دیگر، می توانید به جای پخش جریانی، منتظر کل نتیجه باشید. نتیجه تنها پس از تکمیل مدل کل فرآیند تولید برگردانده می شود.
نحوه انتخاب یک مدل و به صورت اختیاری مکان مناسب برای مورد استفاده و برنامه خود را بیاموزید.
متن را از متن و چندین تصویر ایجاد کنید
قبل از امتحان کردن این نمونه ، اطمینان حاصل کنید که بخش قبل از شروع این راهنما را تکمیل کرده اید.
شما می توانید با API Gemini با پیش نویس های چند حالته تماس بگیرید که شامل متن و چندین پرونده (مانند تصاویر ، همانطور که در این مثال نشان داده شده است). برای این تماس ها ، شما باید از مدلی استفاده کنید که از رسانه ها در اعلان ها پشتیبانی می کند (مانند فلش جمینی 2.0 ).
حتماً الزامات و توصیه های پرونده های ورودی را مرور کنید.
انتخاب کنید که آیا می خواهید پاسخ ( generateContentStream
) را پخش کنید یا منتظر پاسخ باشید تا زمانی که کل نتیجه ( generateContent
) تولید شود.
میتوانید با منتظر ماندن برای کل نتیجه تولید مدل، به تعاملات سریعتری برسید و در عوض از استریم برای مدیریت نتایج جزئی استفاده کنید.
از طرف دیگر ، می توانید به جای جریان ، منتظر کل نتیجه باشید. نتیجه تنها پس از تکمیل مدل کل فرآیند تولید برگردانده می شود.
نحوه انتخاب یک مدل و به صورت اختیاری مکان مناسب برای مورد استفاده و برنامه خود را بیاموزید.
متن را از متن و یک فیلم تولید کنید
قبل از امتحان کردن این نمونه ، اطمینان حاصل کنید که بخش قبل از شروع این راهنما را تکمیل کرده اید.
شما می توانید با API Gemini با مطالب چندمدی تماس بگیرید که شامل هر دو فایل (متن) متن و تصویری (همانطور که در این مثال نشان داده شده است). برای این تماس ها ، شما باید از مدلی استفاده کنید که از رسانه ها در اعلان ها پشتیبانی می کند (مانند فلش جمینی 2.0 ).
حتماً الزامات و توصیه های پرونده های ورودی را مرور کنید.
انتخاب کنید که آیا می خواهید پاسخ ( generateContentStream
) را پخش کنید یا منتظر پاسخ باشید تا زمانی که کل نتیجه ( generateContent
) تولید شود.
میتوانید با منتظر ماندن برای کل نتیجه تولید مدل، به تعاملات سریعتری برسید و در عوض از استریم برای مدیریت نتایج جزئی استفاده کنید.
از طرف دیگر، می توانید به جای پخش جریانی، منتظر کل نتیجه باشید. نتیجه تنها پس از تکمیل مدل کل فرآیند تولید برگردانده می شود.
نحوه انتخاب یک مدل و به صورت اختیاری مکان مناسب برای مورد استفاده و برنامه خود را بیاموزید.
مورد نیاز و توصیه های پرونده های ورودی
به پرونده های ورودی پشتیبانی شده و الزامات مربوط به vertex ai gemini api مراجعه کنید تا در مورد موارد زیر بیاموزید:
- گزینه های مختلف برای ارائه پرونده در یک درخواست
- انواع فایل های پشتیبانی شده
- از انواع MIME پشتیبانی شده و نحوه مشخص کردن آنها
- الزامات و بهترین روشها برای پرونده ها و درخواست های چند حالته
چه کار دیگری می توانید انجام دهید؟
- قبل از ارسال پیام های طولانی به مدل، نحوه شمارش نشانه ها را بیاموزید.
- Cloud Storage for Firebase راهاندازی کنید تا بتوانید فایلهای حجیم را در درخواستهای چندوجهی خود بگنجانید و راهحل مدیریتشدهتری برای ارائه فایلها در درخواستها داشته باشید. فایلها میتوانند شامل تصاویر، PDF، ویدیو و صدا باشند.
- به فکر آماده شدن برای تولید، از جمله راهاندازی Firebase App Check برای محافظت از Gemini API در برابر سوء استفاده توسط مشتریان غیرمجاز باشید. همچنین، حتماً چک لیست تولید را مرور کنید.
قابلیت های دیگر را امتحان کنید
- مکالمه های چند چرخش (گپ) بسازید.
- متن را از اعلانهای فقط متنی ایجاد کنید.
- خروجی ساختاریافته (مانند JSON) را هم از دستورات متنی و هم از چند وجهی ایجاد کنید.
- تولید تصاویر از پیام های متنی
- از فراخوانی تابع برای اتصال مدل های مولد به سیستم ها و اطلاعات خارجی استفاده کنید.
یاد بگیرید چگونه تولید محتوا را کنترل کنید
- طراحی سریع، از جمله بهترین شیوهها، استراتژیها و درخواستهای نمونه را درک کنید .
- پارامترهای مدل مانند دما و نشانههای حداکثر خروجی (برای Gemini ) یا نسبت ابعاد و تولید شخص (برای Imagen ) را پیکربندی کنید.
- از تنظیمات ایمنی برای تنظیم احتمال دریافت پاسخ هایی که ممکن است مضر تلقی شوند استفاده کنید .
درباره مدل های پشتیبانی شده بیشتر بدانید
در مورد مدل های موجود برای موارد استفاده مختلف و سهمیه ها و قیمت آنها اطلاعات کسب کنید.درباره تجربه خود با Vertex AI در Firebase بازخورد بدهید