Tiến hành thử nghiệm A/B trên hai phiên bản của một mô hình

Sau khi huấn luyện một mô hình tuỳ chỉnh mới hoặc mô hình AutoML Vision Edge, bạn có thể sử dụng Thử nghiệm A/B để xem mô hình mới hoạt động hiệu quả như thế nào trong điều kiện thực tế, so với mô hình bạn đã sử dụng. Sau khi bạn xác nhận rằng mô hình mới của mình cải tiến, bạn có thể dễ dàng triển khai mô hình mới cho tất cả người dùng, mà không cần cập nhật ứng dụng.

Trang này cho biết cách bạn có thể tiến hành một thử nghiệm A/B để đánh giá hai phiên bản về một mô hình hỗ trợ tính năng tìm kiếm thực vật bằng hình ảnh giả định. Tính năng này sử dụng mô hình gắn nhãn hình ảnh tuỳ chỉnh để giúp người dùng xác định các loài thực vật hình ảnh của chúng.

Giả sử bạn vừa xuất bản một mô hình gắn nhãn cây mới, plant_labeler_v2, và bạn muốn chạy một thử nghiệm để so sánh nó với mô hình hiện tại của bạn, có tên là plant_labeler_v1. Các bước dưới đây cho biết cách thiết lập, chạy thử nghiệm và thực hiện hành động dựa trên kết quả.

1. Giúp mô hình của bạn có thể định cấu hình từ xa

Bước đầu tiên để thử nghiệm A/B các mô hình là sửa đổi ứng dụng của bạn để sử dụng Cấu hình từ xa để xác định mô hình sử dụng. Ban đầu, bạn sẽ đặt giá trị mặc định của thông số này làm mô hình mà ứng dụng của bạn đã sử dụng, nhưng vì tên mô hình được kiểm soát bởi tham số có thể định cấu hình của bạn, bạn có thể thay đổi và thử nghiệm với các mô hình khác nhau mà không phải luôn đẩy bản cập nhật ứng dụng cho người dùng.

Vì vậy, nếu bạn đã xuất bản mô hình hiện tại dưới tên plant_labeler_v1, trong mã khởi chạy ứng dụng của mình, bạn sẽ đặt plant_labeler_v1 làm giá trị mặc định của plant_labeler_model, như trong ví dụ sau:

Swift

let remoteConfig = RemoteConfig.remoteConfig()
let defaults = [
    "plant_labeler_model": "plant_labeler_v1" as NSObject,
    // ...
]
remoteConfig.setDefaults(defaults)
remoteConfig.fetchAndActivate()

Objective-C

FIRRemoteConfig *remoteConfig = [FIRRemoteConfig remoteConfig];
NSDictionary<NSString *, NSObject *> *defaults = @{
  @"plant_labeler_model" : (NSObject *)@"plant_labeler_v1",
  // ...
};
[remoteConfig setDefaults:defaults];
[remoteConfig fetchAndActivateWithCompletionHandler:nil];

Sau đó, thay đổi mã thiết lập mô hình của bạn để tải mô hình được chỉ định bởi Tham số plant_labeler_model:

Swift

let rcValue = remoteConfig.configValue(forKey: "plant_labeler_model")
guard let remoteModelName = rcValue.stringValue else { return }

// ...

let remoteModel = RemoteModel(
    name: remoteModelName,
    allowsModelUpdates: true,
    initialConditions: initialConditions,
    updateConditions: updateConditions
)
ModelManager.modelManager().register(remoteModel)

// Optionally configure a local model:
// https://firebase.google.com/docs/ml/ios/label-images-with-automl#configure-a-local-model-source
// https://firebase.google.com/docs/ml/ios/use-custom-models#configure_a_local_model

Objective-C

FIRRemoteConfigValue *rcValue = [remoteConfig configValueForKey:@"plant_labeler_model"];
NSString *remoteModelName = [rcValue stringValue];

// ...

FIRRemoteModel *remoteModel = [[FIRRemoteModel alloc] initWithName:remoteModelName
                                                allowsModelUpdates:YES
                                                 initialConditions:initialConditions
                                                  updateConditions:updateConditions];
[[FIRModelManager modelManager] registerRemoteModel:remoteModel];

// Optionally configure a local model:
// https://firebase.google.com/docs/ml/android/label-images-with-automl#configure-a-local-model-source
// https://firebase.google.com/docs/ml/android/use-custom-models#configure_a_local_model

Giờ đây, ứng dụng của bạn sử dụng thông số Cấu hình từ xa để xác định mô hình cần tải, bạn có thể thay đổi mô hình chỉ bằng cách xuất bản một mô hình mới và chỉ định cho thông số Cấu hình từ xa. Tính năng này cho phép Thử nghiệm A/B chỉ định các mô hình khác nhau cho những người dùng khác nhau nhằm mục đích so sánh chúng.

Trước khi tiếp tục, hãy bổ sung các nội dung sau vào tệp tải xuống mô hình của bạn mã:

Swift

NotificationCenter.default.addObserver(
    forName: .firebaseMLModelDownloadDidSucceed,
    object: nil,
    queue: nil
) { [weak self] notification in
    guard let _ = self,
        let userInfo = notification.userInfo,
        let model = userInfo[ModelDownloadUserInfoKey.remoteModel.rawValue]
            as? RemoteModel,
        model.name == remoteModelName
        else { return }
    // If the model downloaded was specified by a remote parameter, log an
    // event, which will be our experiment's activation event.
    if rcValue.source == .remote {
        Analytics.logEvent("nondefault_model_downloaded", parameters: nil)
    }
}

Objective-C

__weak typeof(self) weakSelf = self;

[NSNotificationCenter.defaultCenter
    addObserverForName:FIRModelDownloadDidSucceedNotification
                object:nil
                 queue:nil
            usingBlock:^(NSNotification *_Nonnull note) {
              if (weakSelf == nil | note.userInfo == nil) {
                return;
              }

              FIRRemoteModel *model = note.userInfo[FIRModelDownloadUserInfoKeyRemoteModel];
              if ([model.name isEqualToString:remoteModelName] &&
                  rcValue.source == FIRRemoteConfigSourceRemote) {
                // If the model downloaded was specified by a remote parameter, log an
                // event, which will be our experiment's activation event.
                [FIRAnalytics logEventWithName:@"nondefault_model_downloaded" parameters:nil];
              }
            }];

Đoạn mã ở trên ghi lại một sự kiện Analytics tuỳ chỉnh mà sau này bạn sẽ sử dụng làm sự kiện kích hoạt của thử nghiệm. Sự kiện kích hoạt là một sự kiện mà người dùng phải kích hoạt trước khi họ được xem là một phần của thử nghiệm. Chiến dịch này đảm bảo rằng người dùng sẽ không được ghi lại trong thử nghiệm A/B của bạn cho đến khi thiết bị của họ có đã tải xong mô hình học máy tuỳ chỉnh xuống.

2. Xác định chỉ số mục tiêu

Bước tiếp theo là quyết định cách đo lường thành công của mô hình, và đảm bảo ứng dụng của bạn đang thu thập dữ liệu cần thiết để kiểm thử mức độ hiệu quả các phiên bản khác nhau của mô hình hoạt động theo chỉ số đó.

Thử nghiệm A/B có sẵn một vài chỉ số, bao gồm cả doanh thu, hằng ngày mức độ tương tác và tỷ lệ giữ chân người dùng. Những chỉ số này thường hữu ích cho việc thử nghiệm các luồng UX hoặc các tham số tinh chỉnh khác nhau, nhưng có thể không phù hợp với đánh giá mô hình và trường hợp sử dụng của bạn. Trong trường hợp này, thay vào đó, bạn có thể thử tối ưu hoá cho một sự kiện Analytics tuỳ chỉnh.

Dùng tính năng tìm kiếm thực vật bằng hình ảnh giả định làm ví dụ, giả sử bạn đã trình bày kết quả tìm kiếm cho người dùng theo độ tin cậy của mô hình từng kết quả. Một cách giúp bạn có ý tưởng về độ chính xác của mô hình là bằng cách xem xét tần suất người dùng mở kết quả tìm kiếm đầu tiên.

Để thử nghiệm xem mô hình nào đạt được mục tiêu tốt nhất là tối đa hoá số lượt nhấp ở kết quả hàng đầu, bạn sẽ ghi lại một sự kiện tuỳ chỉnh mỗi khi người dùng nhấn vào mục đầu tiên trong kết quả danh sách.

Swift

Analytics.logEvent("first_result_opened", parameters: nil)

Objective-C

[FIRAnalytics logEventWithName:@"first_result_opened" parameters:nil];

Cuối cùng, chỉ số mà bạn kiểm thử phụ thuộc vào cách ứng dụng của bạn dùng model.

Tại thời điểm này, bạn có thể triển khai ứng dụng của mình lên App Store. Ứng dụng của bạn sẽ tiếp tục sử dụng mô hình ban đầu, nhưng Cấu hình từ xa và mã Analytics mà bạn đã thêm sẽ cho phép bạn thử nghiệm với các mô hình khác nhau chỉ bằng bảng điều khiển của Firebase.

3. Chạy thử nghiệm A/B

Giờ đây ứng dụng của bạn nằm trong đang thu thập dữ liệu phân tích, tạo một thử nghiệm A/B để kiểm tra hiệu quả của việc sử dụng thay vì mô hình hiện tại.

Cách tạo thử nghiệm:

  1. Trên thẻ Sự kiện của bảng điều khiển của Firebase, hãy xác minh rằng bạn đang ghi nhật ký Sự kiện Analytics: sự kiện kích hoạt và chỉ số mục tiêu.

    Ứng dụng của bạn cần ghi nhật ký từng sự kiện ít nhất một lần trước khi sự kiện đó xuất hiện trong bảng điều khiển của Firebase.

  2. Trong bảng điều khiển của Firebase, hãy mở mục Thử nghiệm A/B.

  3. Tạo thử nghiệm mới:

    1. Nhấp vào Tạo thử nghiệm > Cấu hình từ xa.

    2. Trong phần Nhắm mục tiêu:

      • Chọn ứng dụng của bạn trong danh sách
      • Chỉ định số lượng người dùng mà bạn muốn đưa vào thử nghiệm
      • Chọn sự kiện kích hoạt mà bạn đã bắt đầu ghi nhật ký (trong ví dụ này là nondefault_model_download)
    3. Trong mục Mục tiêu, hãy chọn chỉ số mục tiêu mà bạn đã xác định phần trước (trong ví dụ này là first_result_opened) từ danh sách các chỉ số mục tiêu rồi chọn bất kỳ chỉ số nào khác mà bạn muốn theo dõi, chẳng hạn như doanh thu từ giao dịch mua hàng hoặc người dùng không gặp sự cố.

    4. Trong phần Biến thể, hãy xác định 2 biến thể:

      • Nhóm đối chứng (được tạo tự động)
      • Công cụ gắn nhãn cây thử nghiệm

      Đối với Nhóm đối chứng, hãy tạo một tham số plant_labeler_model và đặt thành plant_labeler_v1. Người dùng được chỉ định vào nhóm đối chứng sẽ sử dụng mô hình cũ. (Đừng đặt tham số này thành (no change), vì trong ứng dụng, bạn đang kiểm tra xem mình có đang sử dụng giá trị từ xa).

      Đối với biến thể Trình gắn nhãn cây thử nghiệm, hãy đặt giá trị plant_labeler_model tham số đến plant_labeler_v2 (giả sử bạn đã xuất bản mô hình mới dưới tên đó). Người dùng được chỉ định cho biến thể này sẽ sử dụng phiên bản model.

    Màn hình cấu hình thử nghiệm A/B

Bắt đầu thử nghiệm và để thử nghiệm chạy trong vài ngày trở lên, cho đến Thử nghiệm A/B khai báo biến thể dẫn đầu. Nếu thử nghiệm không thể xác định biến thể dẫn đầu, bạn có thể cần mở rộng thử nghiệm cho nhiều người dùng hơn.

4. Triển khai biến thể hiệu quả nhất cho tất cả người dùng

Thẻ kết quả thử nghiệm A/B

Sau khi Thử nghiệm A/B đã thu thập đủ thông tin để tuyên bố hàng đầu—trong trường hợp này là biến thể giúp tăng tối đa kết quả tìm kiếm hàng đầu bạn có thể quyết định xem có triển khai biến thể giành chiến thắng hay không (hoặc một biến thể khác) biến thể) cho tất cả người dùng.

Trong mục Thử nghiệm A/B của bảng điều khiển của Firebase, hãy mở phần thông tin chi tiết chế độ xem của thử nghiệm đã hoàn thành. Trong chế độ xem này, bạn có thể thấy mức đóng góp của mỗi biến thể hiệu suất theo chỉ số mục tiêu của bạn và bất kỳ chỉ số phụ nào bạn đã chọn. Với thông tin này, bạn có thể quyết định nên triển khai biến thể dẫn đầu hay một biến thể khác.

Để ra mắt một biến thể cho tất cả người dùng, hãy nhấp vào Triển khai biến thể trên trang chi tiết của thử nghiệm. Sau khi bạn làm như vậy, giá trị của Thông số plant_labeler_model sẽ là plant_labeler_v2 cho tất cả người dùng.

Trong một bản cập nhật ứng dụng sau này, bạn nên thay đổi giá trị mặc định của thuộc tính Tham số plant_labeler_model thành plant_labeler_v2 và cập nhật tham số đi kèm nếu bạn sử dụng. Tuy nhiên, người dùng của bạn đang sử dụng mô hình mới nhất, vì vậy bạn có thể đưa bản cập nhật này vào ứng dụng đã xuất bản bất cứ khi nào thuận tiện, chẳng hạn như khi bạn cập nhật tính năng vào lần tới.