فایل های ورودی پشتیبانی شده و الزامات برای Vertex AI Gemini API

هنگام فراخوانی Vertex AI Gemini API از برنامه خود با استفاده از Vertex AI in Firebase SDK، می توانید از مدل Gemini بخواهید متنی را بر اساس یک ورودی چندوجهی تولید کند. اعلان‌های چندوجهی می‌توانند شامل چندین حالت (یا انواع ورودی)، مانند متن همراه با تصاویر، فایل‌های PDF، ویدئو و صدا باشند.

برای بخش‌های غیر متنی ورودی (مانند فایل‌های رسانه)، باید از انواع فایل‌های پشتیبانی‌شده استفاده کنید، نوع MIME پشتیبانی‌شده را مشخص کنید، و مطمئن شوید که فایل‌ها و درخواست‌های چندوجهی‌تان الزامات را برآورده می‌کنند و بهترین شیوه‌ها را دنبال می‌کنند.

این صفحه انواع MIME پشتیبانی شده، بهترین شیوه ها و محدودیت ها را برای موارد زیر شرح می دهد:

الزامات خاص برای Vertex AI in Firebase SDK

برای Vertex AI in Firebase SDK، حداکثر اندازه کل درخواست 20 مگابایت است . اگر درخواست خیلی بزرگ باشد، خطای HTTP 413 دریافت می کنید.



تصاویر : الزامات، بهترین شیوه ها، و محدودیت ها

تصاویر: نیازمندی ها

در این بخش، با انواع MIME پشتیبانی شده و محدودیت های هر درخواست برای تصاویر آشنا شوید.

پشتیبانی از انواع MIME

مدل‌های چند وجهی Gemini از انواع MIME تصویر زیر پشتیبانی می‌کنند:

نوع MIME تصویر فلش جمینی 1.5 جمینی 1.5 پرو Gemini 1.0 Pro Vision
PNG - image/png
JPEG - image/jpeg

محدودیت در هر درخواست

محدودیت خاصی برای تعداد پیکسل های یک تصویر وجود ندارد. با این حال، تصاویر بزرگ‌تر کوچک‌تر می‌شوند و برای قرار دادن حداکثر وضوح 3072×3072 در حالی که نسبت تصویر اصلی خود را حفظ می‌کنند، بالشتک می‌شوند.

در اینجا حداکثر تعداد فایل های تصویری مجاز در یک درخواست فوری آمده است:

  • Gemini 1.0 Pro Vision : 16 تصویر
  • Gemini 1.5 Flash و Gemini 1.5 Pro : 3000 تصویر

تصاویر: توکن سازی

در اینجا نحوه محاسبه نشانه ها برای تصاویر آمده است:

  • Gemini 1.0 Pro Vision : هر تصویر دارای 258 توکن است.
  • Gemini 1.5 Flash و Gemini 1.5 Pro :
    • اگر هر دو بعد یک تصویر کمتر یا مساوی 384 پیکسل باشد، از 258 توکن استفاده می شود.
    • اگر یک بعد یک تصویر بزرگتر از 384 پیکسل باشد، آنگاه تصویر به کاشی برش داده می شود. هر اندازه کاشی به طور پیش فرض کوچکترین بعد (عرض یا ارتفاع) تقسیم بر 1.5 است. در صورت لزوم، هر کاشی طوری تنظیم می شود که کوچکتر از 256 پیکسل و بزرگتر از 768 پیکسل نباشد. سپس اندازه هر کاشی به 768x768 تغییر می کند و از 258 توکن استفاده می کند.

تصاویر: بهترین شیوه ها

هنگام استفاده از تصاویر، از بهترین شیوه ها و اطلاعات زیر برای بهترین نتایج استفاده کنید:

  • اگر می‌خواهید متن را در یک تصویر تشخیص دهید، از دستورات با یک تصویر استفاده کنید تا نتایج بهتری نسبت به پیام‌های چند تصویری ایجاد کنید.
  • اگر درخواست شما حاوی یک تصویر واحد است، تصویر را قبل از درخواست متنی در درخواست خود قرار دهید.
  • اگر درخواست شما حاوی چندین تصویر است، و می‌خواهید بعداً در درخواست خود به آنها مراجعه کنید یا مدل را در پاسخ مدل به آنها ارجاع دهید، می‌توانید به هر تصویر یک شاخص قبل از تصویر بدهید. استفاده کنید a b c یا image 1 image 2 image 3 برای نمایه شما. مثال زیر نمونه ای از استفاده از تصاویر ایندکس شده در یک اعلان است:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • استفاده از تصاویر با وضوح بالاتر. آنها نتایج بهتری می دهند.
  • چند مثال را در اعلان قرار دهید.
  • قبل از افزودن تصاویر به دستور، آنها را در جهت مناسب خود بچرخانید.
  • از تصاویر تار خودداری کنید.

تصاویر: محدودیت ها

در حالی که مدل‌های چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیت‌های مدل‌ها مهم است:

  • تعدیل محتوا : مدل‌ها از ارائه پاسخ به تصاویری که خط‌مشی‌های ایمنی ما را نقض می‌کنند، خودداری می‌کنند.
  • استدلال فضایی : مدل ها در مکان یابی متن یا اشیاء در تصاویر دقیق نیستند. آنها فقط ممکن است تعداد تقریبی اشیاء را برگردانند.
  • کاربردهای پزشکی : مدل ها برای تفسیر تصاویر پزشکی (مثلاً اشعه ایکس و سی تی اسکن) یا ارائه توصیه های پزشکی مناسب نیستند.
  • تشخیص افراد : این مدل‌ها برای شناسایی افرادی که افراد مشهور نیستند در تصاویر استفاده نمی‌شوند.
  • دقت : مدل‌ها ممکن است هنگام تفسیر تصاویر با کیفیت پایین، چرخانده یا بسیار کم وضوح دچار توهم شوند یا اشتباه کنند. این مدل ها همچنین ممکن است هنگام تفسیر متن دست نویس در اسناد تصویری دچار توهم شوند.



ویدئو : الزامات، بهترین شیوه‌ها و محدودیت‌ها

ویدئو: الزامات

در این بخش، با انواع MIME پشتیبانی شده و محدودیت‌های هر درخواست برای ویدیو آشنا شوید.

پشتیبانی از انواع MIME

مدل‌های چندوجهی Gemini از انواع MIME ویدیویی زیر پشتیبانی می‌کنند:

نوع MIME ویدیویی فلش جمینی 1.5 جمینی 1.5 پرو Gemini 1.0 Pro Vision
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

محدودیت در هر درخواست

در اینجا حداکثر تعداد فایل های ویدئویی مجاز در یک درخواست فوری آمده است:

  • Gemini 1.0 Pro Vision : 1 فایل ویدیویی
  • Gemini 1.5 Flash و Gemini 1.5 Pro : 10 فایل ویدیویی

ویدئو: توکن سازی

در اینجا نحوه محاسبه توکن ها برای ویدیو آمده است:

  • همه مدل‌های چند وجهی Gemini : ویدیوها با سرعت 1 فریم در ثانیه (فریم در ثانیه) نمونه‌برداری می‌شوند. هر فریم ویدئو 258 توکن را شامل می شود.
  • Gemini 1.5 Flash و Gemini 1.5 Pro : آهنگ صوتی با فریم های ویدیویی کدگذاری شده است. تراک صوتی نیز به ترانک های 1 ثانیه ای تقسیم می شود که هر کدام 32 توکن را تشکیل می دهند. قاب های ویدئویی و نشانه های صوتی با مهرهای زمانی خود در هم آمیخته می شوند. مهرهای زمانی به صورت 7 توکن نشان داده می شوند.

ویدئو: بهترین شیوه ها

هنگام استفاده از ویدئو، از بهترین روش ها و اطلاعات زیر برای بهترین نتایج استفاده کنید:

  • اگر درخواست شما حاوی یک ویدیو است، ویدیو را قبل از درخواست متنی قرار دهید.
  • اگر به محلی سازی مهر زمانی در یک ویدیو با صدا نیاز دارید، از مدل بخواهید مهر زمانی را در قالب MM:SS ایجاد کند که در آن دو رقم اول نشان دهنده دقیقه و دو رقم آخر نشان دهنده ثانیه است. از همان قالب برای سؤالاتی که درباره مهر زمانی می پرسند استفاده کنید.
  • اگر از Gemini 1.0 Pro Vision استفاده می کنید به نکات زیر توجه کنید:

    • در هر درخواست بیش از یک ویدیو استفاده نکنید.
    • مدل فقط در دو دقیقه اول ویدیو اطلاعات را پردازش می کند.
    • این مدل فیلم‌ها را به‌عنوان فریم‌های تصویر غیرهمجوار از ویدیو پردازش می‌کند. صدا گنجانده نشده است. اگر متوجه شدید که مدل مقداری از محتوای ویدیو را از دست داده است، سعی کنید ویدیو را کوتاه‌تر کنید تا مدل بخش بیشتری از محتوای ویدیو را بگیرد.
    • این مدل هیچ گونه اطلاعات صوتی یا ابرداده مهر زمانی را پردازش نمی کند. به همین دلیل، این مدل ممکن است در موارد استفاده ای که نیاز به ورودی صوتی دارند، مانند زیرنویس صوتی، یا اطلاعات مربوط به زمان، مانند سرعت یا ریتم، عملکرد خوبی نداشته باشد.

ویدئو: محدودیت ها

در حالی که مدل‌های چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیت‌های مدل‌ها مهم است:

  • تعدیل محتوا : مدل‌ها از ارائه پاسخ در مورد ویدیوهایی که خط‌مشی‌های ایمنی ما را نقض می‌کنند، خودداری می‌کنند.
  • تشخیص صدای غیرگفتاری : مدل‌هایی که از صدا پشتیبانی می‌کنند ممکن است در تشخیص صدایی که گفتار نیست اشتباه کنند.
  • حرکت با سرعت بالا : مدل‌ها ممکن است در درک حرکت با سرعت بالا در ویدیو به دلیل نرخ نمونه‌گیری ثابت 1 فریم در ثانیه (fps) اشتباه کنند.
  • نشانه‌گذاری رونویسی : (در صورت استفاده از Gemini 1.5 Flash) مدل‌ها ممکن است رونویسی‌هایی را برگردانند که شامل علائم نگارشی نیستند.



صدا : الزامات و محدودیت ها

صدا: الزامات

در این بخش، با انواع MIME پشتیبانی شده و محدودیت های هر درخواست برای صدا آشنا شوید.

پشتیبانی از انواع MIME

مدل‌های چند وجهی Gemini از انواع MIME صوتی زیر پشتیبانی می‌کنند:

نوع MIME صوتی فلش جمینی 1.5 جمینی 1.5 پرو
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

محدودیت در هر درخواست

شما می توانید حداکثر 1 فایل صوتی را در یک درخواست سریع اضافه کنید.

صدا: محدودیت ها

در حالی که مدل‌های چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیت‌های مدل‌ها مهم است:

  • تشخیص صدای غیرگفتاری : مدل‌هایی که از صدا پشتیبانی می‌کنند ممکن است در تشخیص صدایی که گفتار نیست اشتباه کنند.
  • مهر زمانی فقط صوتی : مدل‌هایی که صدا را پشتیبانی می‌کنند نمی‌توانند به‌طور دقیق برای درخواست‌های فایل‌های صوتی مهر زمانی ایجاد کنند. این شامل بخش بندی و مهرهای زمانی محلی سازی زمانی می شود. مُهرهای زمانی را می‌توان برای ورودی‌هایی که شامل ویدیویی حاوی صدا می‌شود، با دقت ایجاد کرد.
  • نشانه‌گذاری رونویسی : (در صورت استفاده از Gemini 1.5 Flash) مدل‌ها ممکن است رونویسی‌هایی را برگردانند که شامل علائم نگارشی نیستند.



اسناد (مانند فایل‌های PDF) : الزامات، بهترین شیوه‌ها و محدودیت‌ها

مدارک: الزامات

در این بخش، با انواع MIME پشتیبانی شده و محدودیت‌های هر درخواست برای اسناد (مانند فایل‌های PDF) آشنا شوید.

پشتیبانی از انواع MIME

مدل‌های چندوجهی Gemini از انواع سند MIME زیر پشتیبانی می‌کنند:

نوع MIME سند فلش جمینی 1.5 جمینی 1.5 پرو Gemini 1.0 Pro Vision
PDF - application/pdf

محدودیت در هر درخواست

PDFها به عنوان تصویر در نظر گرفته می شوند، بنابراین یک صفحه از یک PDF به عنوان یک تصویر در نظر گرفته می شود. تعداد صفحات مجاز در یک درخواست محدود به تعداد تصاویری است که مدل می تواند پشتیبانی کند:

  • Gemini 1.0 Pro Vision : 16 صفحه
  • Gemini 1.5 Pro و Gemini 1.5 Flash : 1000 صفحه

اسناد: توکنیزاسیون

فایل‌های PDF به‌عنوان تصویر در نظر گرفته می‌شوند، بنابراین هر صفحه از یک پی‌دی‌اف به روشی مشابه یک تصویر توکن‌سازی می‌شود.

همچنین، هزینه فایل های PDF از قیمت گذاری تصویر Gemini تبعیت می کند. به عنوان مثال، اگر یک PDF دو صفحه ای را در تماس Gemini API قرار دهید، هزینه ورودی پردازش دو تصویر را متحمل خواهید شد.

اسناد: بهترین شیوه ها

هنگام استفاده از PDF، از بهترین روش ها و اطلاعات زیر برای بهترین نتایج استفاده کنید:

  • اگر درخواست شما حاوی یک PDF واحد است، PDF را قبل از درخواست متنی در درخواست خود قرار دهید.
  • اگر سند طولانی دارید، برای پردازش آن، آن را به چندین فایل PDF تقسیم کنید.
  • به جای استفاده از متن در تصاویر اسکن شده از فایل های PDF ایجاد شده با متن ارائه شده به عنوان متن استفاده کنید. این قالب تضمین می‌کند که متن قابل خواندن توسط ماشین است، بنابراین ویرایش، جستجو و دستکاری مدل در مقایسه با فایل‌های PDF تصاویر اسکن شده آسان‌تر است. این عمل هنگام کار با اسناد متن سنگین مانند قراردادها نتایج بهینه را ارائه می دهد.

اسناد: محدودیت ها

در حالی که مدل‌های چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیت‌های مدل‌ها مهم است:

  • استدلال فضایی : مدل ها در مکان یابی متن یا اشیاء در فایل های PDF دقیق نیستند. آنها فقط ممکن است تعداد تقریبی اشیاء را برگردانند.
  • دقت : ممکن است مدل ها هنگام تفسیر متن دست نویس در اسناد PDF دچار توهم شوند.