Oznaczanie obrazów etykietami za pomocą Firebase ML na platformach Apple

Za pomocą systemów uczących się Firebase możesz oznaczać etykietami obiekty rozpoznane na obrazie. Informacje o funkcjach tego interfejsu API znajdziesz w omówieniu.

Zanim zaczniesz

    Jeśli nie masz jeszcze w aplikacji Firebase dodanego do aplikacji, wykonaj czynności opisane w przewodniku dla początkujących.

    Użyj menedżera pakietów Swift, aby zainstalować zależności Firebase i nimi zarządzać.

    1. Po otwarciu projektu aplikacji przejdź w Xcode do File > Add Packages (Plik > Dodaj pakiety).
    2. Gdy pojawi się prośba, dodaj repozytorium SDK platform Apple Platform SDK Firebase:
    3.   https://github.com/firebase/firebase-ios-sdk.git
    4. Wybierz bibliotekę ML Firebase.
    5. Dodaj flagę -ObjC do sekcji Inne flagi łączące w ustawieniach kompilacji celu.
    6. Po zakończeniu Xcode automatycznie rozpocznie rozpoznawanie i pobieranie zależności w tle.

    Następnie skonfiguruj w aplikacji:

    1. W aplikacji zaimportuj Firebase:

      Swift

      import FirebaseMLModelDownloader

      Objective-C

      @import FirebaseMLModelDownloader;
  1. Jeśli nie masz jeszcze włączonych w swoim projekcie interfejsów API działających w chmurze, zrób to teraz:

    1. Otwórz stronę interfejsów API Firebase ML w konsoli Firebase.
    2. Jeśli w swoim projekcie nie korzystasz jeszcze z abonamentu Blaze, kliknij Przejdź na wyższą wersję. Prośba o przejście na wyższą wersję pojawi się tylko wtedy, gdy Twój projekt nie jest objęty abonamentem Blaze.

      Tylko projekty na poziomie Blaze mogą korzystać z interfejsów API działających w chmurze.

    3. Jeśli interfejsy API działające w chmurze nie są jeszcze włączone, kliknij Włącz interfejsy API działające w chmurze.

Teraz możesz dodać etykiety do obrazów.

1. Przygotowywanie obrazu wejściowego

Utwórz obiekt VisionImage za pomocą UIImage lub CMSampleBufferRef.

Aby użyć karty UIImage:

  1. W razie potrzeby obróć obraz, by jego właściwość imageOrientation miała wartość .up.
  2. Utwórz obiekt VisionImage przy użyciu prawidłowo wykonanej rotacji w UIImage. Nie określaj żadnych metadanych rotacji – należy użyć wartości domyślnej .topLeft.

    Swift

    let image = VisionImage(image: uiImage)

    Objective-C

    FIRVisionImage *image = [[FIRVisionImage alloc] initWithImage:uiImage];

Aby użyć karty CMSampleBufferRef:

  1. Utwórz obiekt VisionImageMetadata, który określa orientację danych obrazu zawartych w buforze CMSampleBufferRef.

    Aby sprawdzić orientację obrazu:

    Swift

    func imageOrientation(
        deviceOrientation: UIDeviceOrientation,
        cameraPosition: AVCaptureDevice.Position
        ) -> VisionDetectorImageOrientation {
        switch deviceOrientation {
        case .portrait:
            return cameraPosition == .front ? .leftTop : .rightTop
        case .landscapeLeft:
            return cameraPosition == .front ? .bottomLeft : .topLeft
        case .portraitUpsideDown:
            return cameraPosition == .front ? .rightBottom : .leftBottom
        case .landscapeRight:
            return cameraPosition == .front ? .topRight : .bottomRight
        case .faceDown, .faceUp, .unknown:
            return .leftTop
        }
    }

    Objective-C

    - (FIRVisionDetectorImageOrientation)
        imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
                               cameraPosition:(AVCaptureDevicePosition)cameraPosition {
      switch (deviceOrientation) {
        case UIDeviceOrientationPortrait:
          if (cameraPosition == AVCaptureDevicePositionFront) {
            return FIRVisionDetectorImageOrientationLeftTop;
          } else {
            return FIRVisionDetectorImageOrientationRightTop;
          }
        case UIDeviceOrientationLandscapeLeft:
          if (cameraPosition == AVCaptureDevicePositionFront) {
            return FIRVisionDetectorImageOrientationBottomLeft;
          } else {
            return FIRVisionDetectorImageOrientationTopLeft;
          }
        case UIDeviceOrientationPortraitUpsideDown:
          if (cameraPosition == AVCaptureDevicePositionFront) {
            return FIRVisionDetectorImageOrientationRightBottom;
          } else {
            return FIRVisionDetectorImageOrientationLeftBottom;
          }
        case UIDeviceOrientationLandscapeRight:
          if (cameraPosition == AVCaptureDevicePositionFront) {
            return FIRVisionDetectorImageOrientationTopRight;
          } else {
            return FIRVisionDetectorImageOrientationBottomRight;
          }
        default:
          return FIRVisionDetectorImageOrientationTopLeft;
      }
    }

    Następnie utwórz obiekt metadanych:

    Swift

    let cameraPosition = AVCaptureDevice.Position.back  // Set to the capture device you used.
    let metadata = VisionImageMetadata()
    metadata.orientation = imageOrientation(
        deviceOrientation: UIDevice.current.orientation,
        cameraPosition: cameraPosition
    )

    Objective-C

    FIRVisionImageMetadata *metadata = [[FIRVisionImageMetadata alloc] init];
    AVCaptureDevicePosition cameraPosition =
        AVCaptureDevicePositionBack;  // Set to the capture device you used.
    metadata.orientation =
        [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                     cameraPosition:cameraPosition];
  2. Utwórz obiekt VisionImage, używając obiektu CMSampleBufferRef i metadanych rotacji:

    Swift

    let image = VisionImage(buffer: sampleBuffer)
    image.metadata = metadata

    Objective-C

    FIRVisionImage *image = [[FIRVisionImage alloc] initWithBuffer:sampleBuffer];
    image.metadata = metadata;

2. Skonfiguruj i uruchom osobę oznaczającą obrazy

Aby oznaczyć etykietami obiekty na obrazie, przekaż obiekt VisionImage do metody processImage() interfejsu VisionImageLabeler.

  1. Najpierw pobierz instancję VisionImageLabeler:

    Swift

    let labeler = Vision.vision().cloudImageLabeler()
    
    // Or, to set the minimum confidence required:
    // let options = VisionCloudImageLabelerOptions()
    // options.confidenceThreshold = 0.7
    // let labeler = Vision.vision().cloudImageLabeler(options: options)
    

    Objective-C

    FIRVisionImageLabeler *labeler = [[FIRVision vision] cloudImageLabeler];
    
    // Or, to set the minimum confidence required:
    // FIRVisionCloudImageLabelerOptions *options =
    //         [[FIRVisionCloudImageLabelerOptions alloc] init];
    // options.confidenceThreshold = 0.7;
    // FIRVisionImageLabeler *labeler =
    //         [[FIRVision vision] cloudImageLabelerWithOptions:options];
    
  2. Następnie przekaż obraz do metody processImage():

    Swift

    labeler.process(image) { labels, error in
        guard error == nil, let labels = labels else { return }
    
        // Task succeeded.
        // ...
    }
    

    Objective-C

    [labeler processImage:image
               completion:^(NSArray<FIRVisionImageLabel *> *_Nullable labels,
                            NSError *_Nullable error) {
                   if (error != nil) { return; }
    
                   // Task succeeded.
                   // ...
               }];
    

3. Uzyskiwanie informacji o obiektach oznaczonych etykietami

Jeśli oznaczenie obrazów zostanie oznaczone etykietami, do modułu obsługi uzupełniania zostanie przekazana tablica obiektów VisionImageLabel. Z każdego z nich możesz uzyskać informacje o obiekcie rozpoznanym na obrazie.

Przykład:

Swift

for label in labels {
    let labelText = label.text
    let entityId = label.entityID
    let confidence = label.confidence
}

Objective-C

for (FIRVisionImageLabel *label in labels) {
   NSString *labelText = label.text;
   NSString *entityId = label.entityID;
   NSNumber *confidence = label.confidence;
}

Dalsze kroki