Detectar y rastrear objetos con ML Kit en iOS

Puede utilizar ML Kit para detectar y rastrear objetos en fotogramas de vídeo.

Cuando pasa imágenes de ML Kit, ML Kit devuelve, para cada imagen, una lista de hasta cinco objetos detectados y su posición en la imagen. Al detectar objetos en transmisiones de video, cada objeto tiene una identificación que puede usar para rastrear el objeto en las imágenes. Opcionalmente, también puede habilitar la clasificación aproximada de objetos, que etiqueta los objetos con descripciones de categorías amplias.

Antes de que empieces

  1. Si aún no has agregado Firebase a tu aplicación, hazlo siguiendo los pasos de la guía de introducción .
  2. Incluya las bibliotecas del kit ML en su Podfile:
    pod 'Firebase/MLVision', '6.25.0'
    pod 'Firebase/MLVisionObjectDetection', '6.25.0'
    
    Después de instalar o actualizar los Pods de su proyecto, asegúrese de abrir su proyecto Xcode usando su .xcworkspace .
  3. En tu aplicación, importa Firebase:

    Rápido

    import Firebase

    C objetivo

    @import Firebase;

1. Configurar el detector de objetos.

Para comenzar a detectar y rastrear objetos, primero cree una instancia de VisionObjectDetector y, opcionalmente, especifique cualquier configuración del detector que desee cambiar respecto a la predeterminada.

  1. Configure el detector de objetos para su caso de uso con un objeto VisionObjectDetectorOptions . Puede cambiar las siguientes configuraciones:

    Configuración del detector de objetos
    Modo de detección .stream (predeterminado) | .singleImage

    En el modo de transmisión (predeterminado), el detector de objetos se ejecuta con una latencia muy baja, pero puede producir resultados incompletos (como cuadros delimitadores o categorías no especificados) en las primeras invocaciones del detector. Además, en el modo de transmisión, el detector asigna ID de seguimiento a los objetos, que puede utilizar para rastrear objetos a través de fotogramas. Utilice este modo cuando desee realizar un seguimiento de objetos o cuando sea importante una baja latencia, como al procesar secuencias de vídeo en tiempo real.

    En el modo de imagen única, el detector de objetos espera hasta que el cuadro delimitador de un objeto detectado y la categoría (si habilitó la clasificación) estén disponibles antes de devolver un resultado. Como consecuencia, la latencia de detección es potencialmente mayor. Además, en el modo de imagen única, no se asignan ID de seguimiento. Utilice este modo si la latencia no es crítica y no desea lidiar con resultados parciales.

    Detectar y rastrear múltiples objetos false (predeterminado) | true

    Ya sea para detectar y rastrear hasta cinco objetos o solo el objeto más destacado (predeterminado).

    Clasificar objetos false (predeterminado) | true

    Si clasificar o no los objetos detectados en categorías generales. Cuando está habilitado, el detector de objetos clasifica los objetos en las siguientes categorías: artículos de moda, comida, artículos para el hogar, lugares, plantas y desconocidos.

    La API de seguimiento y detección de objetos está optimizada para estos dos casos de uso principales:

    • Detección en vivo y seguimiento del objeto más destacado en el visor de la cámara.
    • Detección de múltiples objetos en una imagen estática.

    Para configurar la API para estos casos de uso:

    Rápido

    // Live detection and tracking
    let options = VisionObjectDetectorOptions()
    options.detectorMode = .stream
    options.shouldEnableMultipleObjects = false
    options.shouldEnableClassification = true  // Optional
    
    // Multiple object detection in static images
    let options = VisionObjectDetectorOptions()
    options.detectorMode = .singleImage
    options.shouldEnableMultipleObjects = true
    options.shouldEnableClassification = true  // Optional
    

    C objetivo

    // Live detection and tracking
    FIRVisionObjectDetectorOptions *options = [[FIRVisionObjectDetectorOptions alloc] init];
    options.detectorMode = FIRVisionObjectDetectorModeStream;
    options.shouldEnableMultipleObjects = NO;
    options.shouldEnableClassification = YES;  // Optional
    
    // Multiple object detection in static images
    FIRVisionObjectDetectorOptions *options = [[FIRVisionObjectDetectorOptions alloc] init];
    options.detectorMode = FIRVisionObjectDetectorModeSingleImage;
    options.shouldEnableMultipleObjects = YES;
    options.shouldEnableClassification = YES;  // Optional
    
  2. Obtenga una instancia de FirebaseVisionObjectDetector :

    Rápido

    let objectDetector = Vision.vision().objectDetector()
    
    // Or, to change the default settings:
    let objectDetector = Vision.vision().objectDetector(options: options)
    

    C objetivo

    FIRVisionObjectDetector *objectDetector = [[FIRVision vision] objectDetector];
    
    // Or, to change the default settings:
    FIRVisionObjectDetector *objectDetector = [[FIRVision vision] objectDetectorWithOptions:options];
    

2. Ejecute el detector de objetos.

Para detectar y rastrear objetos, haga lo siguiente para cada imagen o cuadro de video. Si habilitó el modo de transmisión, debe crear objetos VisionImage a partir de CMSampleBufferRef s.

  1. Cree un objeto VisionImage utilizando UIImage o CMSampleBufferRef .

    Para usar una UIImage :

    1. Si es necesario, gire la imagen para que su propiedad imageOrientation sea .up .
    2. Cree un objeto VisionImage utilizando UIImage girado correctamente. No especifique ningún metadato de rotación; se debe utilizar el valor predeterminado, .topLeft .

      Rápido

      let image = VisionImage(image: uiImage)

      C objetivo

      FIRVisionImage *image = [[FIRVisionImage alloc] initWithImage:uiImage];

    Para utilizar CMSampleBufferRef :

    1. Cree un objeto VisionImageMetadata que especifique la orientación de los datos de la imagen contenidos en el búfer CMSampleBufferRef .

      Para obtener la orientación de la imagen:

      Rápido

      func imageOrientation(
          deviceOrientation: UIDeviceOrientation,
          cameraPosition: AVCaptureDevice.Position
          ) -> VisionDetectorImageOrientation {
          switch deviceOrientation {
          case .portrait:
              return cameraPosition == .front ? .leftTop : .rightTop
          case .landscapeLeft:
              return cameraPosition == .front ? .bottomLeft : .topLeft
          case .portraitUpsideDown:
              return cameraPosition == .front ? .rightBottom : .leftBottom
          case .landscapeRight:
              return cameraPosition == .front ? .topRight : .bottomRight
          case .faceDown, .faceUp, .unknown:
              return .leftTop
          }
      }

      C objetivo

      - (FIRVisionDetectorImageOrientation)
          imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
                                 cameraPosition:(AVCaptureDevicePosition)cameraPosition {
        switch (deviceOrientation) {
          case UIDeviceOrientationPortrait:
            if (cameraPosition == AVCaptureDevicePositionFront) {
              return FIRVisionDetectorImageOrientationLeftTop;
            } else {
              return FIRVisionDetectorImageOrientationRightTop;
            }
          case UIDeviceOrientationLandscapeLeft:
            if (cameraPosition == AVCaptureDevicePositionFront) {
              return FIRVisionDetectorImageOrientationBottomLeft;
            } else {
              return FIRVisionDetectorImageOrientationTopLeft;
            }
          case UIDeviceOrientationPortraitUpsideDown:
            if (cameraPosition == AVCaptureDevicePositionFront) {
              return FIRVisionDetectorImageOrientationRightBottom;
            } else {
              return FIRVisionDetectorImageOrientationLeftBottom;
            }
          case UIDeviceOrientationLandscapeRight:
            if (cameraPosition == AVCaptureDevicePositionFront) {
              return FIRVisionDetectorImageOrientationTopRight;
            } else {
              return FIRVisionDetectorImageOrientationBottomRight;
            }
          default:
            return FIRVisionDetectorImageOrientationTopLeft;
        }
      }

      Luego, crea el objeto de metadatos:

      Rápido

      let cameraPosition = AVCaptureDevice.Position.back  // Set to the capture device you used.
      let metadata = VisionImageMetadata()
      metadata.orientation = imageOrientation(
          deviceOrientation: UIDevice.current.orientation,
          cameraPosition: cameraPosition
      )

      C objetivo

      FIRVisionImageMetadata *metadata = [[FIRVisionImageMetadata alloc] init];
      AVCaptureDevicePosition cameraPosition =
          AVCaptureDevicePositionBack;  // Set to the capture device you used.
      metadata.orientation =
          [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                       cameraPosition:cameraPosition];
    2. Cree un objeto VisionImage utilizando el objeto CMSampleBufferRef y los metadatos de rotación:

      Rápido

      let image = VisionImage(buffer: sampleBuffer)
      image.metadata = metadata

      C objetivo

      FIRVisionImage *image = [[FIRVisionImage alloc] initWithBuffer:sampleBuffer];
      image.metadata = metadata;
  2. Pase VisionImage a uno de los métodos de procesamiento de imágenes del detector de objetos. Puede utilizar el método process(image:) o el método results() .

    Para detectar objetos de forma asincrónica:

    Rápido

    objectDetector.process(image) { detectedObjects, error in
      guard error == nil else {
        // Error.
        return
      }
      guard let detectedObjects = detectedObjects, !detectedObjects.isEmpty else {
        // No objects detected.
        return
      }
    
      // Success. Get object info here.
      // ...
    }
    

    C objetivo

    [objectDetector processImage:image
                      completion:^(NSArray<FIRVisionObject *> * _Nullable objects,
                                   NSError * _Nullable error) {
                        if (error == nil) {
                          return;
                        }
                        if (objects == nil | objects.count == 0) {
                          // No objects detected.
                          return;
                        }
    
                        // Success. Get object info here.
                        // ...
                      }];
    

    Para detectar objetos sincrónicamente:

    Rápido

    var results: [VisionObject]? = nil
    do {
      results = try objectDetector.results(in: image)
    } catch let error {
      print("Failed to detect object with error: \(error.localizedDescription).")
      return
    }
    guard let detectedObjects = results, !detectedObjects.isEmpty else {
      print("Object detector returned no results.")
      return
    }
    
    // ...
    

    C objetivo

    NSError *error;
    NSArray<FIRVisionObject *> *objects = [objectDetector resultsInImage:image
                                                                   error:&error];
    if (error == nil) {
      return;
    }
    if (objects == nil | objects.count == 0) {
      // No objects detected.
      return;
    }
    
    // Success. Get object info here.
    // ...
    
  3. Si la llamada al procesador de imágenes tiene éxito, pasa una lista de VisionObject al controlador de finalización o devuelve la lista, dependiendo de si llamó al método asíncrono o sincrónico.

    Cada VisionObject contiene las siguientes propiedades:

    frame Un CGRect que indica la posición del objeto en la imagen.
    trackingID Un número entero que identifica el objeto en las imágenes. Nulo en modo de imagen única.
    classificationCategory La categoría burda del objeto. Si el detector de objetos no tiene habilitada la clasificación, ésta siempre es .unknown .
    confidence El valor de confianza de la clasificación de objetos. Si el detector de objetos no tiene habilitada la clasificación o el objeto está clasificado como desconocido, esto es nil .

    Rápido

    // detectedObjects contains one item if multiple object detection wasn't enabled.
    for obj in detectedObjects {
      let bounds = obj.frame
      let id = obj.trackingID
    
      // If classification was enabled:
      let category = obj.classificationCategory
      let confidence = obj.confidence
    }
    

    C objetivo

    // The list of detected objects contains one item if multiple
    // object detection wasn't enabled.
    for (FIRVisionObject *obj in objects) {
      CGRect bounds = obj.frame;
      if (obj.trackingID) {
        NSInteger id = obj.trackingID.integerValue;
      }
    
      // If classification was enabled:
      FIRVisionObjectCategory category = obj.classificationCategory;
      float confidence = obj.confidence.floatValue;
    }
    

Mejora de la usabilidad y el rendimiento

Para obtener la mejor experiencia de usuario, siga estas pautas en su aplicación:

  • La detección exitosa de objetos depende de la complejidad visual del objeto. Es posible que los objetos con una pequeña cantidad de características visuales necesiten ocupar una mayor parte de la imagen para ser detectados. Debe proporcionar a los usuarios orientación sobre cómo capturar entradas que funcionen bien con el tipo de objetos que desea detectar.
  • Al utilizar la clasificación, si desea detectar objetos que no encajan claramente en las categorías admitidas, implemente un manejo especial para objetos desconocidos.

Además, consulte la [aplicación de presentación de ML Kit Material Design][showcase-link]{: .external } y la colección de funciones basadas en aprendizaje automático Patrones de diseño de materiales.

Cuando utilice el modo de transmisión en tiempo real en una aplicación, siga estas pautas para lograr las mejores velocidades de fotogramas:

  • No utilices la detección de múltiples objetos en el modo de transmisión, ya que la mayoría de los dispositivos no podrán producir velocidades de fotogramas adecuadas.

  • Desactive la clasificación si no la necesita.

  • Llamadas del acelerador al detector. Si hay un nuevo cuadro de video disponible mientras el detector está en ejecución, suelte el cuadro.
  • Si está utilizando la salida del detector para superponer gráficos en la imagen de entrada, primero obtenga el resultado del ML Kit, luego renderice la imagen y superpóngala en un solo paso. Al hacerlo, renderiza en la superficie de visualización solo una vez por cada cuadro de entrada. Consulte las clases previaOverlayView y FIRDetectionOverlayView en la aplicación de muestra de presentación para ver un ejemplo.