Tìm hiểu và quản lý hạn mức

Vertex AI in Firebase yêu cầu hai API khác nhau (mỗi API có hạn mức riêng): API Vertex AI và API Vertex AI in Firebase.

Mỗi API này có một hạn mức được đo lường bằng số yêu cầu mỗi phút (RPM) — cụ thể là các yêu cầu "tạo nội dung" (cả phát trực tuyến và không phát trực tuyến). API Vertex AI cũng có hạn mức cho mã thông báo đầu vào mỗi phút.

Trang này mô tả những nội dung sau:

Bạn có thể tìm hiểu thông tin chung về hạn mức trong tài liệu về Google Cloud.

Tìm hiểu về hạn mức cho mỗi API

Mỗi API có hạn mức được đo lường theo cách hơi khác nhau, nghĩa là các API này có thể được sử dụng cho nhiều mục đích.

Tìm hiểu về hạn mức API Vertex AI

Hạn mức API Vertex AI dựa trên "Tạo yêu cầu nội dung" trên mỗi mô hình, mỗi khu vực và mỗi phút.

Dưới đây là một số thông tin quan trọng về các hạn mức này (cụ thể là số yêu cầu mỗi phút và mã thông báo nhập mỗi phút):

  • Các chính sách này áp dụng ở cấp dự án và được chia sẻ trên tất cả ứng dụng và địa chỉ IP sử dụng dự án Firebase đó.

  • Các chế độ này áp dụng cho bất kỳ lệnh gọi nào đến Vertex AI Gemini API, cho dù là sử dụng SDK ứng dụng Vertex AI in Firebase, SDK máy chủ Vertex AI, Firebase Genkit, Gemini Firebase Extensions, lệnh gọi REST, Vertex AI Studio hay các ứng dụng API khác.

  • Các quy tắc này áp dụng cho mô hình cơ sở và tất cả phiên bản, giá trị nhận dạng và các phiên bản được điều chỉnh của mô hình đó. Sau đây là một số ví dụ:

    • Một yêu cầu đến gemini-1.0-pro và một yêu cầu đến gemini-1.0-pro-001 được tính là hai yêu cầu đối với hạn mức RPM của mô hình cơ sở, gemini-1.0 pro.

    • Một yêu cầu đến gemini-1.0-pro-001 và một yêu cầu đối với mô hình được điều chỉnh dựa trên gemini-1.0-pro-001 sẽ được tính là 2 yêu cầu trong hạn mức RPM của mô hình cơ sở gemini-1.0-pro.

  • Bạn có thể xem hạn mức mặc định cho từng mẫu và từng khu vực trong tài liệu về Google Cloud.

Về cơ bản, bạn có thể coi hạn mức của API này là hạn mức "tổng" cho tất cả người dùng (những người sử dụng các tính năng AI trong ứng dụng của bạn dựa trên một mô hình cụ thể và ở một khu vực cụ thể).

Các hạn mức này cần đủ cao để đáp ứng một cách hợp lý tổng số người dùng cuối ở một khu vực cụ thể có thể sử dụng các tính năng AI dựa trên một mô hình cụ thể. Vì đây là hạn mức theo phút, nên khả năng tất cả người dùng của bạn ở một khu vực sẽ sử dụng cùng một bộ tính năng cùng một lúc và sử dụng hết hạn mức này là tương đối thấp. Tuy nhiên, mỗi ứng dụng đều khác nhau, vì vậy, hãy điều chỉnh các hạn mức này cho phù hợp.

Tìm hiểu về hạn mức API Vertex AI in Firebase

Hạn mức API Vertex AI in Firebase dựa trên "Số yêu cầu tạo nội dung" trên mỗi người dùng, mỗi khu vực và mỗi phút.

Dưới đây là một số thông tin chi tiết quan trọng về hạn mức này (cụ thể là số yêu cầu mỗi phút):

  • Chính sách này áp dụng ở cấp dự án và áp dụng cho tất cả ứng dụng và địa chỉ IP sử dụng dự án Firebase đó.

  • Phương thức này áp dụng cho mọi lệnh gọi cụ thể đi qua bất kỳ SDK Vertex AI in Firebase nào.

  • Hạn mức mặc định là 100 RPM/người dùng.
    Xin lưu ý rằng bạn vẫn cần xem xét các giới hạn hạn mức cho API Vertex AI, đặc biệt là nếu các giới hạn đó thấp hơn 100 RPM này.

Về cơ bản, bạn có thể coi hạn mức của API này là hạn mức "trên mỗi người dùng" cho các tính năng AI dựa trên Vertex AI in Firebase.

Hạn mức này cần đủ cao để đáp ứng một cách hợp lý cho một người dùng truy cập vào các tính năng AI dựa trên Vertex AI in Firebase. Vì API này đóng vai trò là cổng vào API Vertex AI, bạn có thể sử dụng hạn mức API Vertex AI in Firebase để đảm bảo rằng không có người dùng nào làm hết hạn mức API Vertex AI của bạn (hạn mức mà tất cả người dùng của bạn dùng chung).

Xem hạn mức cho mỗi API

Bạn có thể xem hạn mức cho từng API trong bảng điều khiển Google Cloud.

  1. Trong bảng điều khiển của Google Cloud, hãy truy cập trang cho API bạn quan tâm: API Vertex AI hoặc Vertex AI in Firebase API.

  2. Nhấp vào Quản lý.

  3. Ở phía dưới trang, hãy nhấp vào thẻ Hạn mức và giới hạn hệ thống.

  4. Lọc bảng để hiển thị các hạn mức mà bạn quan tâm.

    Xin lưu ý rằng để tạo bộ lọc Dimension, bạn cần sử dụng công cụ bộ lọc thay vì chỉ sao chép và dán các giá trị trong các ví dụ sau.

    • Đối với API Vertex AI: Chỉ định chức năng (yêu cầu tạo nội dung), tên mô hình và khu vực.

      Ví dụ: để xem hạn mức tạo yêu cầu nội dung bằng Gemini 1.5 Flash ở bất kỳ khu vực nào được hỗ trợ ở Liên minh Châu Âu, bộ lọc của bạn sẽ có dạng như sau:
      Generate content requests + Dimension:base_model:gemini-1.5-flash + Dimension:region:eu

    • Đối với API Vertex AI in Firebase: Chỉ định chức năng (yêu cầu tạo nội dung) và khu vực.

      Ví dụ: để xem hạn mức cho mỗi người dùng để tạo yêu cầu nội dung ở bất kỳ khu vực Châu Á được hỗ trợ nào, bộ lọc sẽ có dạng như sau:
      Generate content requests + Dimension:region:asia

      Xin lưu ý rằng hạn mức API Vertex AI in Firebase không dựa trên một mô hình cụ thể. Ngoài ra, hàng hạn mức (default) không áp dụng cho Vertex AI in Firebase.

Chỉnh sửa hạn mức hoặc yêu cầu tăng hạn mức

Trước khi chuyển sang phiên bản phát hành công khai hoặc nếu bạn gặp lỗi vượt quá hạn mức 429, có thể bạn cần chỉnh sửa hạn mức hoặc yêu cầu tăng hạn mức. Hãy nhớ điều chỉnh hạn mức của từng API cho phù hợp (xem phần Tìm hiểu hạn mức của từng API ở đầu trang này để biết những điều cần cân nhắc).

Để chỉnh sửa một hạn mức, bạn phải có quyền serviceusage.quotas.update. Theo mặc định, quyền này sẽ có trong vai trò Chủ sở hữu và Người chỉnh sửa.

Dưới đây là cách chỉnh sửa hạn mức hoặc yêu cầu tăng hạn mức:

  1. Làm theo hướng dẫn trong tiểu mục trước để xem hạn mức của từng API.

  2. Chọn hộp đánh dấu ở bên trái của từng hạn mức quan tâm.

  3. Ở cuối hàng hạn mức, hãy nhấp vào trình đơn có biểu tượng ba dấu chấm, sau đó chọn Chỉnh sửa hạn mức.

  4. Trong biểu mẫu Thay đổi hạn mức, hãy làm như sau:

    1. Nhập hạn mức tăng lên trong trường Giá trị mới.

      Hạn mức này áp dụng ở cấp dự án và được chia sẻ trên tất cả ứng dụng và địa chỉ IP sử dụng dự án Firebase đó.

    2. Điền vào mọi trường bổ sung trong biểu mẫu, rồi nhấp vào Xong.

    3. Nhấp vào Gửi yêu cầu.