Gemini 모델의 토큰 수 계산

Gemini 모델은 토큰이라는 단위로 입력과 출력을 처리합니다.

토큰은 단일 문자(예: z) 또는 전체 단어(예: cat)일 수 있습니다. 긴 단어는 여러 토큰으로 나뉩니다. 모델에서 사용하는 모든 토큰 집합을 어휘라고 하며, 텍스트를 토큰으로 분할하는 프로세스를 토큰화라고 합니다.

Gemini 모델의 경우 토큰은 약 4자와 같습니다. 토큰 100개는 영어 단어 약 60~80개에 해당합니다.

각 모델에는 프롬프트 및 대답에서 처리할 수 있는 최대 토큰 수가 있습니다. 프롬프트의 토큰 수를 알면 이 한도를 초과했는지 알 수 있습니다. 또한 요청 비용은 입력 및 출력 토큰 수에 따라 일부 결정되므로 토큰 수를 계산하는 방법을 알면 도움이 될 수 있습니다.

Gemini 1.0 및 1.5 모델도 '청구 가능한 문자' 수와 가격을 지원했지만 이러한 모델은 모두 지원이 종료되었거나 곧 종료될 예정이므로 이 페이지에서는 청구 가능한 문자에 관해 설명하지 않습니다.

지원되는 모델

  • gemini-2.5-pro
  • gemini-2.5-flash
  • gemini-2.5-flash-lite
  • gemini-2.0-flash-001 (및 자동 업데이트된 별칭 gemini-2.0-flash)
  • gemini-2.0-flash-lite-001 (및 자동 업데이트된 별칭 gemini-2.0-flash-lite)
  • gemini-2.0-flash-preview-image-generation

토큰 수 계산 옵션

텍스트, 이미지 파일, 기타 비텍스트 모달리티를 비롯한 Gemini API의 모든 입력과 출력이 토큰화됩니다. 토큰을 계산하는 옵션은 다음과 같습니다.

요청의 토큰 수를 확인합니다 (모델에 전송하기 전).
모델에 전송하기 에 요청의 입력으로 countTokens를 호출합니다. 그러면 다음이 반환됩니다.
  • total_tokens: 입력만의 토큰 수
요청과 응답 모두의 토큰 수를 확인합니다.
응답 객체에서 usageMetadata 속성을 사용합니다. 여기에는 다음이 포함됩니다.
  • prompt_token_count: 입력의 토큰 수만
  • candidates_token_count: 출력의 토큰 수만 해당합니다(생각 토큰은 포함되지 않음).
  • thoughts_token_count: 대답을 생성하는 데 사용된 사고 토큰의 토큰 수
  • total_token_count: 입력과 출력의 총 토큰 수입니다 (사고 토큰 포함).

스트리밍 출력 시 usageMetadata 속성은 스트림의 마지막 청크에만 표시됩니다. 중간 청크의 경우 nil입니다.

위 옵션에 관한 다음 사항을 참고하세요.

  • 입력 이미지 수 또는 동영상이나 오디오 입력 파일의 초 수는 계산하지 않습니다. 하지만 이러한 각 모달리티의 토큰 수는 이러한 값과 상관관계가 있습니다.
  • 입력 토큰 수에는 프롬프트 (텍스트 및 입력 파일)와 시스템 지침 및 도구가 포함됩니다.
  • 출력 토큰 수에는 사고 토큰이 포함되지 않습니다. 사고 토큰은 별도의 필드에 제공됩니다.
  • 이 페이지의 뒷부분에 있는 요청 유형별 추가 정보를 검토하세요.

이러한 옵션의 가격

  • countTokens 호출: countTokens(토큰 수 API) 호출에는 요금이 부과되지 않습니다. Count Tokens API의 최대 할당량은 분당 요청 수 (RPM) 3,000개입니다.

  • usageMetadata 속성 사용: 이 속성은 항상 응답의 일부로 반환되며 토큰이나 요금이 발생하지 않습니다.

추가 정보

특정 유형의 요청을 처리할 때 참고할 추가 정보는 다음과 같습니다.

텍스트 입력 토큰 수 집계

추가 정보 없음

멀티턴 (채팅) 토큰 수 계산

채팅을 사용할 때 countTokens를 호출하는 경우 다음 사항에 유의하세요.

  • 채팅 기록으로 countTokens를 호출하면 채팅의 두 역할 (total_tokens)에서 총 토큰 수가 반환됩니다.
  • 다음 대화 턴이 얼마나 클지 이해하려면 countTokens를 호출할 때 기록에 추가해야 합니다.

멀티모달 입력 토큰 수 계산

멀티모달 입력으로 토큰을 계산할 때 다음 사항에 유의하세요.

  • 선택적으로 텍스트와 파일에서 countTokens를 별도로 호출할 수 있습니다.
  • 두 토큰 수 계산 옵션 모두 파일을 인라인 데이터로 제공하든 URL을 사용하여 제공하든 동일한 토큰 수가 표시됩니다.

이미지 입력 파일

이미지 입력 파일은 크기에 따라 토큰으로 변환됩니다.

  • 크기가 모두 384픽셀 이하인 이미지 입력: 각 이미지가 258개의 토큰으로 계산됩니다.
  • 한쪽 또는 양쪽 크기가 더 큰 이미지 입력: 각 이미지는 필요에 따라 768x768픽셀 타일로 잘리고 크기가 조정되며, 각 타일은 258개의 토큰으로 계산됩니다.

동영상 및 오디오 입력 파일

동영상 및 오디오 입력 파일은 다음 고정된 비율로 토큰으로 변환됩니다.

  • 동영상: 초당 토큰 263개
  • 오디오: 초당 토큰 32개

문서 (예: PDF) 입력 파일

PDF 입력 파일은 이미지로 취급되므로 PDF의 각 페이지가 이미지와 동일한 방식으로 토큰화됩니다.