برای مدل های جمینی توکن ها را بشمارید

مدل‌های جمینی ورودی و خروجی را در واحدهایی به نام توکن پردازش می‌کنند.

توکن‌ها می‌توانند کاراکترهای تکی مانند z یا کلمات کاملی مانند cat باشند. کلمات طولانی به چندین توکن تقسیم می‌شوند. مجموعه تمام توکن‌های مورد استفاده توسط مدل، واژگان نامیده می‌شود و فرآیند تقسیم متن به توکن‌ها، توکن‌سازی نامیده می‌شود.

برای مدل‌های Gemini ، یک توکن معادل حدود ۴ کاراکتر است. ۱۰۰ توکن معادل حدود ۶۰ تا ۸۰ کلمه انگلیسی است.

هر مدل حداکثر تعداد توکن‌هایی را دارد که می‌تواند در یک اعلان و پاسخ مدیریت کند. دانستن تعداد توکن‌های اعلان به شما این امکان را می‌دهد که متوجه شوید آیا از این محدودیت عبور کرده‌اید یا خیر. علاوه بر این، هزینه یک درخواست تا حدودی توسط تعداد توکن‌های ورودی و خروجی تعیین می‌شود، بنابراین دانستن نحوه شمارش توکن‌ها می‌تواند مفید باشد.

توجه داشته باشید که مدل‌های Gemini 1.0 و 1.5 نیز از تعداد و قیمت «کاراکترهای قابل پرداخت» پشتیبانی می‌کردند، اما از آنجایی که این مدل‌ها یا بازنشسته شده‌اند یا به زودی بازنشسته می‌شوند، این صفحه چیزی در مورد کاراکترهای قابل پرداخت توضیح نمی‌دهد.

مدل‌های پشتیبانی‌شده

  • gemini-2.5-pro
  • gemini-2.5-flash
  • gemini-2.5-flash-lite
  • gemini-2.0-flash-001 (و نام مستعار به‌روزرسانی‌شده خودکار آن gemini-2.0-flash )
  • gemini-2.0-flash-lite-001 (و نام مستعار به‌روزرسانی‌شده خودکار آن gemini-2.0-flash-lite )
  • gemini-2.0-flash-preview-image-generation

گزینه‌هایی برای شمارش توکن‌ها

تمام ورودی‌ها و خروجی‌های رابط برنامه‌نویسی نرم‌افزار Gemini ، شامل متن، فایل‌های تصویری و سایر داده‌های غیرمتنی، توکن‌سازی شده‌اند. در اینجا گزینه‌هایی برای شمارش توکن‌ها ارائه شده است:

تعداد توکن‌ها را فقط برای درخواست‌های خود بررسی کنید (قبل از ارسال آنها به مدل).
قبل از ارسال درخواست به مدل، countTokens با ورودی آن فراخوانی کنید. این تابع مقدار زیر را برمی‌گرداند:
  • total_tokens : تعداد توکن‌های ورودی
تعداد توکن‌ها را هم برای درخواست‌ها و هم برای پاسخ‌هایتان بررسی کنید.
از ویژگی usageMetadata در شیء پاسخ استفاده کنید. این شامل موارد زیر است:
  • prompt_token_count : تعداد توکن‌های ورودی
  • candidates_token_count : تعداد توکن‌های خروجی فقط (شامل توکن‌های تفکر نمی‌شود)
  • thoughts_token_count : تعداد توکن‌های تفکر مورد استفاده برای تولید پاسخ
  • total_token_count : تعداد کل توکن‌ها برای ورودی و خروجی (شامل هر توکن متفکر)

هنگام پخش خروجی، ویژگی usageMetadata فقط در آخرین بخش از جریان ظاهر می‌شود و برای بخش‌های میانی nil است.

در مورد گزینه‌های بالا به نکات زیر توجه کنید:

  • آنها تعداد تصاویر ورودی یا تعداد ثانیه‌ها در فایل‌های ورودی ویدیویی یا صوتی را نمی‌شمارند . با این حال، تعداد توکن‌ها برای هر یک از این روش‌ها با این مقادیر مرتبط خواهد بود.
  • تعداد توکن‌های ورودی شامل اعلان (متن و هرگونه فایل ورودی) و همچنین هرگونه دستورالعمل و ابزار سیستم می‌شود.
  • تعداد توکن‌های خروجی شامل هیچ توکن تفکری نمی‌شود؛ آنها در یک فیلد جداگانه ارائه می‌شوند.
  • اطلاعات تکمیلی مربوط به هر نوع درخواست را بعداً در همین صفحه مرور کنید.

قیمت گذاری برای این گزینه ها

  • فراخوانی countTokens : هیچ هزینه‌ای برای فراخوانی countTokens (رابط برنامه‌نویسی کاربردی Count Tokens) وجود ندارد. حداکثر سهمیه برای Count Tokens API، ۳۰۰۰ درخواست در دقیقه (RPM) است.

  • استفاده از ویژگی usageMetadata : این ویژگی همیشه به عنوان بخشی از پاسخ برگردانده می‌شود و هیچ توکن یا هزینه‌ای را به خود اختصاص نمی‌دهد.

اطلاعات تکمیلی

در اینجا اطلاعات بیشتری در مورد کار با انواع خاصی از درخواست‌ها ارائه شده است.

شمارش توکن‌های ورودی متن

اطلاعات اضافی وجود ندارد.

شمارش توکن‌های چند نوبتی (چت)

برای فراخوانی countTokens هنگام استفاده از چت، به نکات زیر توجه کنید:

  • اگر countTokens با سابقه چت فراخوانی کنید، تعداد کل توکن‌ها را از هر دو نقش در چت ( total_tokens ) برمی‌گرداند.
  • برای اینکه بفهمید نوبت مکالمه بعدی شما چقدر بزرگ خواهد بود، باید هنگام فراخوانی countTokens آن را به تاریخچه اضافه کنید.

شمارش توکن‌های ورودی چندوجهی

به نکات زیر در مورد شمارش توکن‌ها با ورودی چندوجهی توجه کنید:

  • شما می‌توانید به صورت اختیاری countTokens روی متن و فایل به صورت جداگانه فراخوانی کنید.
  • برای هر دو گزینه شمارش توکن، چه فایل را به عنوان داده درون‌خطی ارائه دهید و چه از URL آن استفاده کنید، تعداد توکن یکسانی دریافت خواهید کرد.

فایل‌های ورودی تصویر

فایل‌های ورودی تصویر بر اساس ابعادشان به توکن تبدیل می‌شوند:

  • ورودی‌های تصویر با هر دو بُعد کمتر یا مساوی ۳۸۴ پیکسل: هر تصویر به عنوان ۲۵۸ توکن شمارش می‌شود.
  • ورودی‌های تصویری که در یک یا هر دو بعد بزرگتر هستند: هر تصویر در صورت نیاز به کاشی‌های ۷۶۸x۷۶۸ پیکسل برش داده شده و مقیاس‌بندی می‌شود و سپس هر کاشی به عنوان ۲۵۸ توکن شمارش می‌شود.

فایل‌های ورودی ویدئو و صدا

فایل‌های ورودی ویدیویی و صوتی با نرخ‌های ثابت زیر به توکن تبدیل می‌شوند:

  • ویدیو: ۲۶۳ توکن در ثانیه
  • صدا: ۳۲ توکن در ثانیه

فایل‌های ورودی سند (مانند PDF)

فایل‌های ورودی PDF به عنوان تصویر در نظر گرفته می‌شوند، بنابراین هر صفحه از یک PDF به همان روش یک تصویر توکن‌گذاری می‌شود.