هنگام فراخوانی Vertex AI Gemini API از برنامه خود با استفاده از Vertex AI in Firebase SDK، می توانید از مدل Gemini بخواهید متنی را بر اساس یک ورودی چندوجهی تولید کند. اعلانهای چندوجهی میتوانند شامل چندین حالت (یا انواع ورودی)، مانند متن همراه با تصاویر، فایلهای PDF، ویدئو و صدا باشند.
برای بخشهای غیر متنی ورودی (مانند فایلهای رسانه)، باید از انواع فایلهای پشتیبانیشده استفاده کنید، نوع MIME پشتیبانیشده را مشخص کنید، و مطمئن شوید که فایلها و درخواستهای چندوجهیتان الزامات را برآورده میکنند و بهترین شیوهها را دنبال میکنند.
این صفحه انواع MIME پشتیبانی شده، بهترین شیوه ها و محدودیت ها را برای موارد زیر شرح می دهد:
الزامات خاص برای Vertex AI in Firebase SDK
برای Vertex AI in Firebase SDK، حداکثر اندازه کل درخواست 20 مگابایت است . اگر درخواست خیلی بزرگ باشد، خطای HTTP 413 دریافت می کنید.
اگر اندازه فایل باعث میشود حجم کل درخواست از 20 مگابایت بیشتر شود، از یک Cloud Storage for Firebase URL استفاده کنید تا فایل را در درخواست چندوجهی خود قرار دهید .
اگر یک فایل کوچک است، اغلب می توانید آن را مستقیماً به عنوان داده درون خطی ارسال کنید. البته توجه داشته باشید که فایلی که به عنوان داده های درون خطی ارائه می شود در حین انتقال روی base64 کدگذاری می شود که اندازه درخواست را افزایش می دهد. برای مثالهایی که نحوه گنجاندن فایلها را بهعنوان دادههای درون خطی نشان میدهند، به ایجاد متن از اعلانهای چندوجهی با استفاده از Gemini API مراجعه کنید.
تصاویر : الزامات، بهترین شیوه ها، و محدودیت ها
تصاویر: الزامات
در این بخش، با انواع MIME پشتیبانی شده و محدودیت های هر درخواست برای تصاویر آشنا شوید.
پشتیبانی از انواع MIME
مدلهای چند وجهی Gemini از انواع MIME تصویر زیر پشتیبانی میکنند:
نوع MIME تصویر | فلش جمینی 1.5 | جمینی 1.5 پرو | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png | |||
JPEG - image/jpeg | |||
WebP - image/webp |
محدودیت در هر درخواست
محدودیت خاصی برای تعداد پیکسل های یک تصویر وجود ندارد. با این حال، تصاویر بزرگتر کوچکتر میشوند و برای قرار دادن حداکثر وضوح 3072×3072 در حالی که نسبت تصویر اصلی خود را حفظ میکنند، بالشتک میشوند.
در اینجا حداکثر تعداد فایل های تصویری مجاز در یک درخواست فوری آمده است:
- Gemini 1.0 Pro Vision : 16 تصویر
- Gemini 1.5 Flash و Gemini 1.5 Pro : 3000 تصویر
تصاویر: توکن سازی
در اینجا نحوه محاسبه نشانه ها برای تصاویر آمده است:
- Gemini 1.0 Pro Vision : هر تصویر دارای 258 توکن است.
- Gemini 1.5 Flash و Gemini 1.5 Pro :
- اگر هر دو بعد یک تصویر کمتر یا مساوی 384 پیکسل باشد، از 258 توکن استفاده می شود.
- اگر یک بعد یک تصویر بزرگتر از 384 پیکسل باشد، آنگاه تصویر به کاشی برش داده می شود. هر اندازه کاشی به طور پیش فرض کوچکترین بعد (عرض یا ارتفاع) تقسیم بر 1.5 است. در صورت لزوم، هر کاشی طوری تنظیم می شود که کوچکتر از 256 پیکسل و بزرگتر از 768 پیکسل نباشد. سپس اندازه هر کاشی به 768x768 تغییر می کند و از 258 توکن استفاده می کند.
تصاویر: بهترین شیوه ها
هنگام استفاده از تصاویر، از بهترین شیوه ها و اطلاعات زیر برای بهترین نتایج استفاده کنید:
- اگر میخواهید متن را در یک تصویر تشخیص دهید، از دستورات با یک تصویر استفاده کنید تا نتایج بهتری نسبت به پیامهای چند تصویری ایجاد کنید.
- اگر درخواست شما حاوی یک تصویر واحد است، تصویر را قبل از درخواست متنی در درخواست خود قرار دهید.
- اگر درخواست شما حاوی چندین تصویر است، و میخواهید بعداً در درخواست خود به آنها مراجعه کنید یا مدل را در پاسخ مدل به آنها ارجاع دهید، میتوانید به هر تصویر یک شاخص قبل از تصویر بدهید. استفاده کنید
a
b
c
یاimage 1
image 2
image 3
برای نمایه شما. مثال زیر نمونه ای از استفاده از تصاویر ایندکس شده در یک اعلان است:image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - استفاده از تصاویر با وضوح بالاتر. آنها نتایج بهتری می دهند.
- چند مثال را در اعلان قرار دهید.
- قبل از افزودن تصاویر به دستور، آنها را در جهت مناسب خود بچرخانید.
- از تصاویر تار خودداری کنید.
تصاویر: محدودیت ها
در حالی که مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای مدلها مهم است:
- تعدیل محتوا : مدلها از ارائه پاسخ به تصاویری که خطمشیهای ایمنی ما را نقض میکنند، خودداری میکنند.
- استدلال فضایی : مدل ها در مکان یابی متن یا اشیاء در تصاویر دقیق نیستند. آنها فقط ممکن است تعداد تقریبی اشیاء را برگردانند.
- کاربردهای پزشکی : مدل ها برای تفسیر تصاویر پزشکی (مثلاً اشعه ایکس و سی تی اسکن) یا ارائه توصیه های پزشکی مناسب نیستند.
- تشخیص افراد : این مدلها برای شناسایی افرادی که افراد مشهور نیستند در تصاویر استفاده نمیشوند.
- دقت : مدلها ممکن است هنگام تفسیر تصاویر با کیفیت پایین، چرخانده یا بسیار کم وضوح دچار توهم شوند یا اشتباه کنند. این مدل ها همچنین ممکن است هنگام تفسیر متن دست نویس در اسناد تصویری دچار توهم شوند.
ویدئو : الزامات، بهترین شیوهها و محدودیتها
ویدئو: الزامات
در این بخش، با انواع MIME پشتیبانی شده و محدودیتهای هر درخواست برای ویدیو آشنا شوید.
پشتیبانی از انواع MIME
مدلهای چندوجهی Gemini از انواع MIME ویدیویی زیر پشتیبانی میکنند:
نوع MIME ویدیویی | فلش جمینی 1.5 | جمینی 1.5 پرو | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv | |||
MOV - video/quicktime | |||
MPEG - video/mpeg | |||
MPEGPS - video/mpegps | |||
MPG - video/mpg | |||
MP4 - video/mp4 | |||
WEBM - video/webm | |||
WMV - video/wmv | |||
3GPP - video/3gpp |
محدودیت در هر درخواست
در اینجا حداکثر تعداد فایل های ویدئویی مجاز در یک درخواست فوری آمده است:
- Gemini 1.0 Pro Vision : 1 فایل ویدیویی
- Gemini 1.5 Flash و Gemini 1.5 Pro : 10 فایل ویدیویی
ویدئو: توکن سازی
در اینجا نحوه محاسبه توکن ها برای ویدیو آمده است:
- همه مدلهای چند وجهی Gemini : ویدیوها با سرعت
1 فریم در ثانیه (فریم در ثانیه) نمونهبرداری میشوند. هر فریم ویدئو 258 توکن را شامل می شود. - Gemini 1.5 Flash و Gemini 1.5 Pro : آهنگ صوتی با فریم های ویدیویی کدگذاری شده است. تراک صوتی نیز به
ترانک های 1 ثانیه ای تقسیم می شود که هر کدام 32 توکن را تشکیل می دهند. قاب های ویدئویی و نشانه های صوتی با مهرهای زمانی خود در هم آمیخته می شوند. مهرهای زمانی به صورت 7 توکن نشان داده می شوند.
ویدئو: بهترین شیوه ها
هنگام استفاده از ویدئو، از بهترین روش ها و اطلاعات زیر برای بهترین نتایج استفاده کنید:
- اگر درخواست شما حاوی یک ویدیو است، ویدیو را قبل از درخواست متنی قرار دهید.
- اگر به محلی سازی مهر زمانی در یک ویدیو با صدا نیاز دارید، از مدل بخواهید مهر زمانی را در قالب
MM:SS
ایجاد کند که در آن دو رقم اول نشان دهنده دقیقه و دو رقم آخر نشان دهنده ثانیه است. از همان قالب برای سؤالاتی که درباره مهر زمانی می پرسند استفاده کنید. اگر از Gemini 1.0 Pro Vision استفاده می کنید به نکات زیر توجه کنید:
- در هر درخواست بیش از یک ویدیو استفاده نکنید.
- مدل فقط در دو دقیقه اول ویدیو اطلاعات را پردازش می کند.
- این مدل فیلمها را بهعنوان فریمهای تصویر غیرهمجوار از ویدیو پردازش میکند. صدا گنجانده نشده است. اگر متوجه شدید که مدل مقداری از محتوای ویدیو را از دست داده است، سعی کنید ویدیو را کوتاهتر کنید تا مدل بخش بیشتری از محتوای ویدیو را بگیرد.
- این مدل هیچ گونه اطلاعات صوتی یا ابرداده مهر زمانی را پردازش نمی کند. به همین دلیل، این مدل ممکن است در موارد استفاده ای که نیاز به ورودی صوتی دارند، مانند زیرنویس صوتی، یا اطلاعات مربوط به زمان، مانند سرعت یا ریتم، عملکرد خوبی نداشته باشد.
ویدئو: محدودیت ها
در حالی که مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای مدلها مهم است:
- تعدیل محتوا : مدلها از ارائه پاسخ در مورد ویدیوهایی که خطمشیهای ایمنی ما را نقض میکنند، خودداری میکنند.
- تشخیص صدای غیرگفتاری : مدلهایی که از صدا پشتیبانی میکنند ممکن است در تشخیص صدایی که گفتار نیست اشتباه کنند.
- حرکت با سرعت بالا : مدلها ممکن است در درک حرکت با سرعت بالا در ویدیو به دلیل نرخ نمونهگیری ثابت
1 فریم در ثانیه (fps) اشتباه کنند. - نشانهگذاری رونویسی : (در صورت استفاده از Gemini 1.5 Flash) مدلها ممکن است رونویسیهایی را برگردانند که شامل علائم نگارشی نیستند.
صدا : الزامات و محدودیت ها
صدا: الزامات
در این بخش، با انواع MIME پشتیبانی شده و محدودیت های هر درخواست برای صدا آشنا شوید.
پشتیبانی از انواع MIME
مدلهای چند وجهی Gemini از انواع MIME صوتی زیر پشتیبانی میکنند:
نوع MIME صوتی | فلش جمینی 1.5 | جمینی 1.5 پرو |
---|---|---|
AAC - audio/aac | ||
FLAC - audio/flac | ||
MP3 - audio/mp3 | ||
MPA - audio/m4a | ||
MPEG - audio/mpeg | ||
MPGA - audio/mpga | ||
MP4 - audio/mp4 | ||
OPUS - audio/opus | ||
PCM - audio/pcm | ||
WAV - audio/wav | ||
WEBM - audio/webm |
محدودیت در هر درخواست
شما می توانید حداکثرصدا: محدودیت ها
در حالی که مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای مدلها مهم است:
- تشخیص صدای غیرگفتاری : مدلهایی که از صدا پشتیبانی میکنند ممکن است در تشخیص صدایی که گفتار نیست اشتباه کنند.
- مهرهای زمانی فقط صوتی : برای ایجاد دقیق مهر زمانی برای فایلهای فقط صوتی، باید پارامتر
audio_timestamp
را درgeneration_config
پیکربندی کنید. - نشانهگذاری رونویسی : (در صورت استفاده از Gemini 1.5 Flash) مدلها ممکن است رونویسیهایی را برگردانند که شامل علائم نگارشی نیستند.
اسناد (مانند فایلهای PDF) : الزامات، بهترین شیوهها و محدودیتها
مدارک: الزامات
در این بخش، با انواع MIME پشتیبانی شده و محدودیتهای هر درخواست برای اسناد (مانند فایلهای PDF) آشنا شوید.
پشتیبانی از انواع MIME
مدلهای چندوجهی Gemini از انواع سند MIME زیر پشتیبانی میکنند:
نوع MIME سند | فلش جمینی 1.5 | جمینی 1.5 پرو | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf | |||
متن - text/plain |
محدودیت در هر درخواست
PDFها به عنوان تصویر در نظر گرفته می شوند، بنابراین یک صفحه از یک PDF به عنوان یک تصویر در نظر گرفته می شود. تعداد صفحات مجاز در یک درخواست محدود به تعداد تصاویری است که مدل می تواند پشتیبانی کند:
- Gemini 1.0 Pro Vision : 16 صفحه
- Gemini 1.5 Pro و Gemini 1.5 Flash : 1000 صفحه
اسناد: توکن سازی
توکن سازی PDF
فایلهای PDF بهعنوان تصویر در نظر گرفته میشوند، بنابراین هر صفحه از یک پیدیاف به روشی مشابه یک تصویر توکنسازی میشود.
همچنین، هزینه فایل های PDF از قیمت گذاری تصویر Gemini تبعیت می کند. به عنوان مثال، اگر یک PDF دو صفحه ای را در تماس Gemini API قرار دهید، هزینه ورودی پردازش دو تصویر را متحمل خواهید شد.
توکن سازی متن ساده
اسناد متنی ساده به صورت متن نشانه گذاری می شوند. به عنوان مثال، اگر یک سند متنی 100 کلمه ای را در یک تماس API Gemini قرار دهید، هزینه ورودی پردازش 100 کلمه را متحمل خواهید شد.
اسناد: بهترین شیوه ها
هنگام استفاده از PDF، از بهترین روش ها و اطلاعات زیر برای بهترین نتایج استفاده کنید:
- اگر درخواست شما حاوی یک PDF واحد است، PDF را قبل از درخواست متنی در درخواست خود قرار دهید.
- اگر سند طولانی دارید، برای پردازش آن، آن را به چندین فایل PDF تقسیم کنید.
- به جای استفاده از متن در تصاویر اسکن شده از فایل های PDF ایجاد شده با متن ارائه شده به عنوان متن استفاده کنید. این قالب تضمین میکند متن قابل خواندن توسط ماشین است، بنابراین ویرایش، جستجو و دستکاری مدل در مقایسه با فایلهای PDF تصویر اسکن شده آسانتر است. این عمل هنگام کار با اسناد متن سنگین مانند قراردادها نتایج بهینه را ارائه می دهد.
اسناد: محدودیت ها
در حالی که مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای مدلها مهم است:
- استدلال فضایی : مدل ها در مکان یابی متن یا اشیاء در فایل های PDF دقیق نیستند. آنها فقط ممکن است تعداد تقریبی اشیاء را برگردانند.
- دقت : ممکن است مدل ها هنگام تفسیر متن دست نویس در اسناد PDF دچار توهم شوند.