할당량 이해 및 관리

Vertex AI in Firebase에는 두 가지 서로 다른 API (각각 자체 할당량 있음)인 Vertex AI API와 Vertex AI in Firebase API가 필요합니다.

이러한 각 API에는 분당 요청 (RPM)으로 측정되는 할당량이 있습니다. 특히 '콘텐츠 생성' 요청 (스트리밍 여부와 관계없음)이 여기에 해당합니다. Vertex AI API에는 분당 입력 토큰에 대한 할당량도 있습니다.

이 페이지에서는 다음 사항을 설명합니다.

Google Cloud 문서에서 할당량에 관한 일반적인 정보를 확인할 수 있습니다.

각 API의 할당량 이해하기

각 API의 할당량은 약간 다르게 측정되므로 다양한 목적으로 사용할 수 있습니다.

Vertex AI API 할당량 이해하기

Vertex AI API 할당량은 모델별 리전별 분당 '콘텐츠 생성 요청'을 기준으로 합니다.

다음은 이러한 할당량 (특히 분당 요청 수 및 분당 입력 토큰 수)에 관한 몇 가지 중요한 세부정보입니다.

  • 프로젝트 수준에서 적용되며 해당 Firebase 프로젝트를 사용하는 모든 애플리케이션과 IP 주소에서 공유됩니다.

  • 이는 Vertex AI in Firebase 클라이언트 SDK, Vertex AI 서버 SDK, Firebase Genkit, Gemini Firebase Extensions, REST 호출, Vertex AI Studio 또는 기타 API 클라이언트를 사용하는지와 관계없이 Vertex AI Gemini API에 대한 모든 호출에 적용됩니다.

  • 기본 모델과 해당 모델의 모든 버전, 식별자, 조정된 버전에 적용됩니다. 예를 들면 다음과 같습니다.

    • gemini-1.0-pro에 대한 요청과 gemini-1.0-pro-001에 대한 요청은 기본 모델 gemini-1.0 pro의 RPM 할당량에서 2개의 요청으로 계산됩니다.

    • gemini-1.0-pro-001에 대한 요청과 gemini-1.0-pro-001를 기반으로 하는 조정된 모델에 대한 요청은 기본 모델의 RPM 할당량 gemini-1.0-pro에 대한 요청 2개로 계산됩니다.

  • 기본 모델 및 지역별 할당량Google Cloud 문서에서 확인할 수 있습니다.

기본적으로 이 API의 할당량은 특정 모델을 기반으로 앱의 AI 기능을 사용하는 모든 사용자 (특정 리전에서)의 '총' 할당량으로 간주할 수 있습니다.

이러한 할당량은 특정 모델을 사용하는 AI 기능에 액세스할 수 있는 특정 리전의 총 최종 사용자 수를 합리적으로 수용할 수 있을 만큼 높아야 합니다. 분당 할당량이므로 한 지역의 모든 사용자가 동일한 기능을 동시에 사용하고 할당량을 소진할 가능성은 비교적 낮습니다. 하지만 앱마다 다르므로 이러한 할당량을 적절하게 조정하세요.

Vertex AI in Firebase API 할당량 이해

Vertex AI in Firebase API 할당량은 사용자별, 리전별, 분당 '콘텐츠 생성 요청'을 기준으로 합니다.

다음은 이 할당량 (특히 분당 요청 수)에 관한 몇 가지 중요한 세부정보입니다.

  • 프로젝트 수준에서 적용되며 해당 Firebase 프로젝트를 사용하는 모든 애플리케이션과 IP 주소에 적용됩니다.

  • 특히 Vertex AI in Firebase SDK를 통과하는 모든 호출에 적용됩니다.

  • 기본 할당량은 사용자당 100RPM입니다.
    Vertex AI API의 할당량 한도는 여전히 고려해야 합니다. 특히 이 100RPM보다 낮은 경우 더욱 그렇습니다.

기본적으로 이 API의 할당량은 Vertex AI in Firebase를 사용하는 AI 기능의 '사용자당' 할당량으로 간주할 수 있습니다.

이 할당량은 Vertex AI in Firebase를 사용하는 AI 기능에 액세스하는 단일 사용자를 적절하게 수용할 만큼 충분히 커야 합니다. 이 API는 Vertex AI API의 게이트웨이 역할을 하므로 Vertex AI in Firebase API 할당량을 사용하여 단일 사용자가 Vertex AI API 할당량 (모든 사용자가 공유해야 함)을 소진하지 않도록 할 수 있습니다.

각 API의 할당량 보기

Google Cloud 콘솔에서 각 API의 할당량을 확인할 수 있습니다.

  1. Google Cloud 콘솔에서 관심 있는 API 페이지(Vertex AI API 또는 Vertex AI in Firebase API)로 이동합니다.

  2. 관리를 클릭합니다.

  3. 페이지 하단에서 할당량 및 시스템 한도 탭을 클릭합니다.

  4. 표를 필터링하여 원하는 할당량을 표시합니다.

    Dimension 필터를 만들려면 다음 예의 값을 복사하여 붙여넣는 대신 필터 도구를 사용해야 합니다.

    • Vertex AI API: 기능(콘텐츠 생성 요청), 모델 이름, 리전을 지정합니다.

      예를 들어 지원되는 EU 지역에서 Gemini 1.5 Flash로 콘텐츠 요청을 생성하기 위한 할당량을 보려면 필터가 다음과 같이 표시됩니다.
      Generate content requests + Dimension:base_model:gemini-1.5-flash + Dimension:region:eu

    • Vertex AI in Firebase API: 기능(콘텐츠 생성 요청) 및 리전을 지정합니다.

      예를 들어 지원되는 아시아 지역에서 콘텐츠 요청을 생성하기 위한 사용자별 할당량을 보려면 다음과 같은 필터를 사용합니다.
      Generate content requests + Dimension:region:asia

      Vertex AI in Firebase API 할당량은 특정 모델을 기반으로 하지 않습니다. 또한 (default) 할당량 행은 Vertex AI in Firebase에 적용되지 않습니다.

할당량 수정 또는 할당량 상향 요청

프로덕션으로 이동하기 전 또는 429개의 할당량 초과 오류가 발생하는 경우 할당량을 수정하거나 할당량 증가를 요청해야 할 수 있습니다. 각 API의 할당량을 적절하게 조정해야 합니다 (이 페이지 앞부분의 각 API의 할당량 이해를 참고하세요).

할당량을 수정하려면 serviceusage.quotas.update 권한이 있어야 하며 이 권한은 소유자 및 편집자 역할에 기본적으로 포함되어 있습니다.

할당량을 수정하거나 할당량 증가를 요청하는 방법은 다음과 같습니다.

  1. 이전 하위 섹션의 안내에 따라 각 API의 할당량을 확인합니다.

  2. 관심 있는 각 할당량 왼쪽에 있는 체크박스를 선택합니다.

  3. 할당량 행 끝에 있는 점 3개로 된 메뉴를 클릭한 다음 할당량 수정을 선택합니다.

  4. 할당량 변경 양식에서 다음을 수행합니다.

    1. 새 값 입력란에 증가된 할당량을 입력합니다.

      이 할당량은 프로젝트 수준에서 적용되며 해당 Firebase 프로젝트를 사용하는 모든 애플리케이션과 IP 주소 전반에 공유됩니다.

    2. 양식의 추가 필드를 작성한 후 완료를 클릭합니다.

    3. 요청 제출을 클릭합니다.