مدلهای جمینی ورودی و خروجی را در واحدهایی به نام توکن پردازش میکنند.
توکنها میتوانند کاراکترهای تکی مانند z یا کلمات کاملی مانند cat باشند. کلمات طولانی به چندین توکن تقسیم میشوند. مجموعه تمام توکنهای مورد استفاده توسط مدل، واژگان نامیده میشود و فرآیند تقسیم متن به توکنها، توکنسازی نامیده میشود.
برای مدلهای Gemini ، یک توکن معادل حدود ۴ کاراکتر است. ۱۰۰ توکن معادل حدود ۶۰ تا ۸۰ کلمه انگلیسی است.
هر مدل حداکثر تعداد توکنهایی را دارد که میتواند در یک اعلان و پاسخ مدیریت کند. دانستن تعداد توکنهای اعلان به شما این امکان را میدهد که متوجه شوید آیا از این محدودیت عبور کردهاید یا خیر. علاوه بر این، هزینه یک درخواست تا حدودی توسط تعداد توکنهای ورودی و خروجی تعیین میشود، بنابراین دانستن نحوه شمارش توکنها میتواند مفید باشد.
توجه داشته باشید که مدلهای Gemini 1.0 و 1.5 نیز از تعداد و قیمت «کاراکترهای قابل پرداخت» پشتیبانی میکردند، اما از آنجایی که این مدلها یا بازنشسته شدهاند یا به زودی بازنشسته میشوند، این صفحه چیزی در مورد کاراکترهای قابل پرداخت توضیح نمیدهد.
مدلهای پشتیبانیشده
-
gemini-2.5-pro -
gemini-2.5-flash -
gemini-2.5-flash-lite -
gemini-2.0-flash-001(و نام مستعار بهروزرسانیشده خودکار آنgemini-2.0-flash) -
gemini-2.0-flash-lite-001(و نام مستعار بهروزرسانیشده خودکار آنgemini-2.0-flash-lite) -
gemini-2.0-flash-preview-image-generation
گزینههایی برای شمارش توکنها
تمام ورودیها و خروجیهای رابط برنامهنویسی نرمافزار Gemini ، شامل متن، فایلهای تصویری و سایر دادههای غیرمتنی، توکنسازی شدهاند. در اینجا گزینههایی برای شمارش توکنها ارائه شده است:
- تعداد توکنها را فقط برای درخواستهای خود بررسی کنید (قبل از ارسال آنها به مدل).
- قبل از ارسال درخواست به مدل،
countTokensبا ورودی آن فراخوانی کنید. این تابع مقدار زیر را برمیگرداند:-
total_tokens: تعداد توکنهای ورودی
-
- تعداد توکنها را هم برای درخواستها و هم برای پاسخهایتان بررسی کنید.
- از ویژگی
usageMetadataدر شیء پاسخ استفاده کنید. این شامل موارد زیر است:-
prompt_token_count: تعداد توکنهای ورودی -
candidates_token_count: تعداد توکنهای خروجی فقط (شامل توکنهای تفکر نمیشود) -
thoughts_token_count: تعداد توکنهای تفکر مورد استفاده برای تولید پاسخ -
total_token_count: تعداد کل توکنها برای ورودی و خروجی (شامل هر توکن متفکر)
هنگام پخش خروجی، ویژگی
usageMetadataفقط در آخرین بخش از جریان ظاهر میشود و برای بخشهای میانیnilاست. -
در مورد گزینههای بالا به نکات زیر توجه کنید:
- آنها تعداد تصاویر ورودی یا تعداد ثانیهها در فایلهای ورودی ویدیویی یا صوتی را نمیشمارند . با این حال، تعداد توکنها برای هر یک از این روشها با این مقادیر مرتبط خواهد بود.
- تعداد توکنهای ورودی شامل اعلان (متن و هرگونه فایل ورودی) و همچنین هرگونه دستورالعمل و ابزار سیستم میشود.
- تعداد توکنهای خروجی شامل هیچ توکن تفکری نمیشود؛ آنها در یک فیلد جداگانه ارائه میشوند.
- اطلاعات تکمیلی مربوط به هر نوع درخواست را بعداً در همین صفحه مرور کنید.
قیمت گذاری برای این گزینه ها
فراخوانی
countTokens: هیچ هزینهای برای فراخوانیcountTokens(رابط برنامهنویسی کاربردی Count Tokens) وجود ندارد. حداکثر سهمیه برای Count Tokens API، ۳۰۰۰ درخواست در دقیقه (RPM) است.استفاده از ویژگی
usageMetadata: این ویژگی همیشه به عنوان بخشی از پاسخ برگردانده میشود و هیچ توکن یا هزینهای را به خود اختصاص نمیدهد.
اطلاعات تکمیلی
در اینجا اطلاعات بیشتری در مورد کار با انواع خاصی از درخواستها ارائه شده است.
شمارش توکنهای ورودی متن
اطلاعات اضافی وجود ندارد.
شمارش توکنهای چند نوبتی (چت)
برای فراخوانی countTokens هنگام استفاده از چت، به نکات زیر توجه کنید:
- اگر
countTokensبا سابقه چت فراخوانی کنید، تعداد کل توکنها را از هر دو نقش در چت (total_tokens) برمیگرداند. - برای اینکه بفهمید نوبت مکالمه بعدی شما چقدر بزرگ خواهد بود، باید هنگام فراخوانی
countTokensآن را به تاریخچه اضافه کنید.
شمارش توکنهای ورودی چندوجهی
به نکات زیر در مورد شمارش توکنها با ورودی چندوجهی توجه کنید:
- شما میتوانید به صورت اختیاری
countTokensروی متن و فایل به صورت جداگانه فراخوانی کنید. - برای هر دو گزینه شمارش توکن، چه فایل را به عنوان داده درونخطی ارائه دهید و چه از URL آن استفاده کنید، تعداد توکن یکسانی دریافت خواهید کرد.
فایلهای ورودی تصویر
فایلهای ورودی تصویر بر اساس ابعادشان به توکن تبدیل میشوند:
- ورودیهای تصویر با هر دو بُعد کمتر یا مساوی ۳۸۴ پیکسل: هر تصویر به عنوان ۲۵۸ توکن شمارش میشود.
- ورودیهای تصویری که در یک یا هر دو بعد بزرگتر هستند: هر تصویر در صورت نیاز به کاشیهای ۷۶۸x۷۶۸ پیکسل برش داده شده و مقیاسبندی میشود و سپس هر کاشی به عنوان ۲۵۸ توکن شمارش میشود.
فایلهای ورودی ویدئو و صدا
فایلهای ورودی ویدیویی و صوتی با نرخهای ثابت زیر به توکن تبدیل میشوند:
- ویدیو: ۲۶۳ توکن در ثانیه
- صدا: ۳۲ توکن در ثانیه
فایلهای ورودی سند (مانند PDF)
فایلهای ورودی PDF به عنوان تصویر در نظر گرفته میشوند، بنابراین هر صفحه از یک PDF به همان روش یک تصویر توکنگذاری میشود.