비율 제한 및 할당량

Vertex AI in Firebase에는 두 가지 API (각각 고유한 비율 제한 및 할당량이 있음)인 Vertex AI API와 Vertex AI in Firebase API가 필요합니다.

이러한 각 API에는 분당 요청 수 (RPM)로 측정되는 할당량 (비율 제한이라고도 함)이 있습니다. 특히 '콘텐츠 생성' 요청(스트리밍 여부와 관계없음)이 여기에 해당합니다. Vertex AI API에는 분당 입력 토큰 할당량도 있습니다.

이 페이지에서는 다음 사항을 설명합니다.

각 모델 및 리전의 할당량 (비율 제한)
Vertex AI API 및 Vertex AI in Firebase API의 할당량 이해
Google Cloud 콘솔에서 할당량 보기
할당량 수정 또는 할당량 상향 요청

할당량 및 Google Cloud에 관한 일반적인 정보는 Cloud 할당량 문서를 참고하세요.

각 모델 및 리전의 할당량 (비율 제한)

Google Cloud 문서에서 각 모델 및 리전의 세부 할당량 (비율 제한)을 확인할 수 있습니다.

할당량은 모델별 지역별로 적용되므로 모델에 액세스하는 위치를 설정하여 비정상적으로 비율 한도에 도달하는 것을 방지하는 것이 좋습니다.

각 API의 할당량 이해하기

각 API의 할당량은 약간 다르게 측정되므로 다양한 목적으로 사용할 수 있습니다.

Vertex AI API 할당량 이해

Vertex AI API 할당량은 모델별, 리전별, 분당 '콘텐츠 생성 요청'을 기준으로 합니다.

다음은 이러한 할당량 (특히 분당 요청 수 및 분당 입력 토큰 수)에 관한 몇 가지 중요한 세부정보입니다.

이러한 제한사항은 프로젝트 수준에서 적용되며 해당 Firebase 프로젝트를 사용하는 모든 애플리케이션과 IP 주소 전반에 공유됩니다.
이는 Vertex AI in Firebase 클라이언트 SDK, Vertex AI 서버 SDK, Firebase Genkit, Gemini Firebase Extensions, REST 호출, Vertex AI Studio 또는 기타 API 클라이언트를 사용하는지와 관계없이 Vertex AI Gemini API 호출 전체에 적용됩니다.
기본 모델과 해당 모델의 모든 버전, 식별자, 조정된 버전에 적용됩니다. 예를 들면 다음과 같습니다.
- gemini-1.0-pro에 대한 요청과 gemini-1.0-pro-001에 대한 요청은 기본 모델 gemini-1.0 pro의 RPM 할당량에 대한 요청 2개로 계산됩니다.
- gemini-1.0-pro-001에 대한 요청과 gemini-1.0-pro-001을 기반으로 하는 조정된 모델에 대한 요청은 기본 모델 gemini-1.0-pro의 RPM 할당량에 대한 요청 2개로 계산됩니다.
기본 모델 및 지역별 할당량은 Google Cloud 문서에서 확인할 수 있습니다.

이러한 할당량은 특정 모델을 사용하는 AI 기능에 액세스할 수 있는 특정 지역의 총 최종 사용자 수를 적절하게 수용할 만큼 충분히 높아야 합니다. 분당 할당량이므로 한 지역의 모든 사용자가 동일한 기능을 동시에 사용하고 할당량을 소진할 가능성은 비교적 낮습니다. 하지만 앱마다 다르므로 이러한 할당량을 적절하게 조정하세요.

Vertex AI in Firebase API 할당량 이해하기

Vertex AI in Firebase API 할당량은 사용자별, 리전별, 분당 '콘텐츠 생성 요청'을 기준으로 합니다.

다음은 이 할당량 (특히 분당 요청 수)에 관한 몇 가지 중요한 세부정보입니다.

이 정책은 프로젝트 수준에서 적용되며 해당 Firebase 프로젝트를 사용하는 모든 애플리케이션과 IP 주소에 적용됩니다.
특히 Vertex AI in Firebase SDK를 통과하는 모든 호출에 적용됩니다.
기본 할당량은 사용자당 100RPM입니다.
Vertex AI API의 할당량 한도는 여전히 고려해야 합니다. 특히 이 100RPM보다 낮은 경우 더욱 그렇습니다.

이 할당량은 Vertex AI in Firebase를 사용하는 AI 기능에 액세스하는 단일 사용자를 적절하게 수용할 만큼 충분히 커야 합니다. 이 API는 Vertex AI API의 게이트웨이 역할을 하므로 Vertex AI in Firebase API 할당량을 사용하여 단일 사용자가 Vertex AI API 할당량 (모든 사용자가 공유해야 함)을 소진하지 않도록 할 수 있습니다.

각 API의 할당량 보기

Google Cloud 콘솔에서 각 API의 할당량을 확인할 수 있습니다.

Google Cloud 콘솔에서 관심 있는 API의 페이지(Vertex AI API 또는 Vertex AI in Firebase API)로 이동합니다.
관리를 클릭합니다.
페이지 하단에서 할당량 및 시스템 한도 탭을 클릭합니다.
표를 필터링하여 관심 있는 할당량을 표시합니다.

Dimension 필터를 만들려면 다음 예의 값을 복사하여 붙여넣는 대신 필터 도구를 사용해야 합니다.
- Vertex AI API: 기능(콘텐츠 생성 요청), 모델 이름, 리전을 지정합니다.
  
  예를 들어 지원되는 EU 지역에서 Gemini 2.0 Flash로 콘텐츠 요청을 생성하기 위한 할당량을 보려면 필터가 다음과 같이 표시됩니다.
  Generate content requests + Dimension:base_model:gemini-2.0-flash + Dimension:region:eu
- Vertex AI in Firebase API: 기능(콘텐츠 생성 요청) 및 리전을 지정합니다.
  
  예를 들어 지원되는 아시아 지역에서 콘텐츠 요청을 생성하기 위한 사용자별 할당량을 보려면 다음과 같은 필터를 사용합니다.
  Generate content requests + Dimension:region:asia
  
  Vertex AI in Firebase API 할당량은 특정 모델을 기반으로 하지 않습니다. 또한 (default) 할당량 행은 Vertex AI in Firebase에 적용되지 않습니다.

할당량 수정 또는 할당량 증가 요청하기

프로덕션으로 전환하기 전에 또는 429 할당량 초과 오류가 발생하는 경우 할당량을 수정하거나 할당량 증가를 요청해야 할 수 있습니다. 각 API의 할당량을 적절하게 조정해야 합니다 (이 페이지 앞부분의 각 API의 할당량 이해 참고).

할당량을 수정하려면 serviceusage.quotas.update 권한이 있어야 하며 이 권한은 소유자 및 편집자 역할에 기본적으로 포함되어 있습니다.

할당량을 수정하거나 할당량 증가를 요청하는 방법은 다음과 같습니다.

이전 하위 섹션의 안내에 따라 각 API의 할당량을 확인합니다.
관심 있는 각 할당량 왼쪽에 있는 체크박스를 선택합니다.
할당량 행 끝에 있는 점 3개로 된 메뉴를 클릭한 다음 할당량 수정을 선택합니다.
할당량 변경 양식에서 다음을 수행합니다.
1. 새 값 필드에 증가된 할당량을 입력합니다.
  
  이 할당량은 프로젝트 수준에서 적용되며 해당 Firebase 프로젝트를 사용하는 모든 애플리케이션과 IP 주소 전반에 공유됩니다.
2. 양식의 추가 필드를 작성한 후 완료를 클릭합니다.
3. 요청 제출을 클릭합니다.