Puede utilizar ML Kit para detectar y rastrear objetos en fotogramas de vídeo.
Cuando pasa imágenes de ML Kit, ML Kit devuelve, para cada imagen, una lista de hasta cinco objetos detectados y su posición en la imagen. Al detectar objetos en transmisiones de video, cada objeto tiene una identificación que puede usar para rastrear el objeto en las imágenes. Opcionalmente, también puede habilitar la clasificación aproximada de objetos, que etiqueta los objetos con descripciones de categorías amplias.
Antes de que empieces
- Si aún no has agregado Firebase a tu aplicación, hazlo siguiendo los pasos de la guía de introducción .
- Incluya las bibliotecas del kit ML en su Podfile:
pod 'Firebase/MLVision', '6.25.0' pod 'Firebase/MLVisionObjectDetection', '6.25.0'
Después de instalar o actualizar los Pods de su proyecto, asegúrese de abrir su proyecto Xcode usando su.xcworkspace
. - En tu aplicación, importa Firebase:
Rápido
import Firebase
C objetivo
@import Firebase;
1. Configurar el detector de objetos.
Para comenzar a detectar y rastrear objetos, primero cree una instancia de VisionObjectDetector
y, opcionalmente, especifique cualquier configuración del detector que desee cambiar respecto a la predeterminada.
Configure el detector de objetos para su caso de uso con un objeto
VisionObjectDetectorOptions
. Puede cambiar las siguientes configuraciones:Configuración del detector de objetos Modo de detección .stream
(predeterminado) |.singleImage
En el modo de transmisión (predeterminado), el detector de objetos se ejecuta con una latencia muy baja, pero puede producir resultados incompletos (como cuadros delimitadores o categorías no especificados) en las primeras invocaciones del detector. Además, en el modo de transmisión, el detector asigna ID de seguimiento a los objetos, que puede utilizar para rastrear objetos a través de fotogramas. Utilice este modo cuando desee realizar un seguimiento de objetos o cuando sea importante una baja latencia, como al procesar secuencias de vídeo en tiempo real.
En el modo de imagen única, el detector de objetos espera hasta que el cuadro delimitador de un objeto detectado y la categoría (si habilitó la clasificación) estén disponibles antes de devolver un resultado. Como consecuencia, la latencia de detección es potencialmente mayor. Además, en el modo de imagen única, no se asignan ID de seguimiento. Utilice este modo si la latencia no es crítica y no desea lidiar con resultados parciales.
Detectar y rastrear múltiples objetos false
(predeterminado) |true
Ya sea para detectar y rastrear hasta cinco objetos o solo el objeto más destacado (predeterminado).
Clasificar objetos false
(predeterminado) |true
Si clasificar o no los objetos detectados en categorías generales. Cuando está habilitado, el detector de objetos clasifica los objetos en las siguientes categorías: artículos de moda, comida, artículos para el hogar, lugares, plantas y desconocidos.
La API de seguimiento y detección de objetos está optimizada para estos dos casos de uso principales:
- Detección en vivo y seguimiento del objeto más destacado en el visor de la cámara.
- Detección de múltiples objetos en una imagen estática.
Para configurar la API para estos casos de uso:
Rápido
// Live detection and tracking let options = VisionObjectDetectorOptions() options.detectorMode = .stream options.shouldEnableMultipleObjects = false options.shouldEnableClassification = true // Optional // Multiple object detection in static images let options = VisionObjectDetectorOptions() options.detectorMode = .singleImage options.shouldEnableMultipleObjects = true options.shouldEnableClassification = true // Optional
C objetivo
// Live detection and tracking FIRVisionObjectDetectorOptions *options = [[FIRVisionObjectDetectorOptions alloc] init]; options.detectorMode = FIRVisionObjectDetectorModeStream; options.shouldEnableMultipleObjects = NO; options.shouldEnableClassification = YES; // Optional // Multiple object detection in static images FIRVisionObjectDetectorOptions *options = [[FIRVisionObjectDetectorOptions alloc] init]; options.detectorMode = FIRVisionObjectDetectorModeSingleImage; options.shouldEnableMultipleObjects = YES; options.shouldEnableClassification = YES; // Optional
Obtenga una instancia de
FirebaseVisionObjectDetector
:Rápido
let objectDetector = Vision.vision().objectDetector() // Or, to change the default settings: let objectDetector = Vision.vision().objectDetector(options: options)
C objetivo
FIRVisionObjectDetector *objectDetector = [[FIRVision vision] objectDetector]; // Or, to change the default settings: FIRVisionObjectDetector *objectDetector = [[FIRVision vision] objectDetectorWithOptions:options];
2. Ejecute el detector de objetos.
Para detectar y rastrear objetos, haga lo siguiente para cada imagen o cuadro de video. Si habilitó el modo de transmisión, debe crear objetos VisionImage
a partir de CMSampleBufferRef
s.
Cree un objeto
VisionImage
utilizandoUIImage
oCMSampleBufferRef
.Para usar una
UIImage
:- Si es necesario, gire la imagen para que su propiedad
imageOrientation
sea.up
. - Cree un objeto
VisionImage
utilizandoUIImage
girado correctamente. No especifique ningún metadato de rotación; se debe utilizar el valor predeterminado,.topLeft
.Rápido
let image = VisionImage(image: uiImage)
C objetivo
FIRVisionImage *image = [[FIRVisionImage alloc] initWithImage:uiImage];
Para utilizar
CMSampleBufferRef
:Cree un objeto
VisionImageMetadata
que especifique la orientación de los datos de la imagen contenidos en el búferCMSampleBufferRef
.Para obtener la orientación de la imagen:
Rápido
func imageOrientation( deviceOrientation: UIDeviceOrientation, cameraPosition: AVCaptureDevice.Position ) -> VisionDetectorImageOrientation { switch deviceOrientation { case .portrait: return cameraPosition == .front ? .leftTop : .rightTop case .landscapeLeft: return cameraPosition == .front ? .bottomLeft : .topLeft case .portraitUpsideDown: return cameraPosition == .front ? .rightBottom : .leftBottom case .landscapeRight: return cameraPosition == .front ? .topRight : .bottomRight case .faceDown, .faceUp, .unknown: return .leftTop } }
C objetivo
- (FIRVisionDetectorImageOrientation) imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation cameraPosition:(AVCaptureDevicePosition)cameraPosition { switch (deviceOrientation) { case UIDeviceOrientationPortrait: if (cameraPosition == AVCaptureDevicePositionFront) { return FIRVisionDetectorImageOrientationLeftTop; } else { return FIRVisionDetectorImageOrientationRightTop; } case UIDeviceOrientationLandscapeLeft: if (cameraPosition == AVCaptureDevicePositionFront) { return FIRVisionDetectorImageOrientationBottomLeft; } else { return FIRVisionDetectorImageOrientationTopLeft; } case UIDeviceOrientationPortraitUpsideDown: if (cameraPosition == AVCaptureDevicePositionFront) { return FIRVisionDetectorImageOrientationRightBottom; } else { return FIRVisionDetectorImageOrientationLeftBottom; } case UIDeviceOrientationLandscapeRight: if (cameraPosition == AVCaptureDevicePositionFront) { return FIRVisionDetectorImageOrientationTopRight; } else { return FIRVisionDetectorImageOrientationBottomRight; } default: return FIRVisionDetectorImageOrientationTopLeft; } }
Luego, crea el objeto de metadatos:
Rápido
let cameraPosition = AVCaptureDevice.Position.back // Set to the capture device you used. let metadata = VisionImageMetadata() metadata.orientation = imageOrientation( deviceOrientation: UIDevice.current.orientation, cameraPosition: cameraPosition )
C objetivo
FIRVisionImageMetadata *metadata = [[FIRVisionImageMetadata alloc] init]; AVCaptureDevicePosition cameraPosition = AVCaptureDevicePositionBack; // Set to the capture device you used. metadata.orientation = [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation cameraPosition:cameraPosition];
- Cree un objeto
VisionImage
utilizando el objetoCMSampleBufferRef
y los metadatos de rotación:Rápido
let image = VisionImage(buffer: sampleBuffer) image.metadata = metadata
C objetivo
FIRVisionImage *image = [[FIRVisionImage alloc] initWithBuffer:sampleBuffer]; image.metadata = metadata;
- Si es necesario, gire la imagen para que su propiedad
Pase
VisionImage
a uno de los métodos de procesamiento de imágenes del detector de objetos. Puede utilizar el métodoprocess(image:)
o el métodoresults()
.Para detectar objetos de forma asincrónica:
Rápido
objectDetector.process(image) { detectedObjects, error in guard error == nil else { // Error. return } guard let detectedObjects = detectedObjects, !detectedObjects.isEmpty else { // No objects detected. return } // Success. Get object info here. // ... }
C objetivo
[objectDetector processImage:image completion:^(NSArray<FIRVisionObject *> * _Nullable objects, NSError * _Nullable error) { if (error == nil) { return; } if (objects == nil | objects.count == 0) { // No objects detected. return; } // Success. Get object info here. // ... }];
Para detectar objetos sincrónicamente:
Rápido
var results: [VisionObject]? = nil do { results = try objectDetector.results(in: image) } catch let error { print("Failed to detect object with error: \(error.localizedDescription).") return } guard let detectedObjects = results, !detectedObjects.isEmpty else { print("Object detector returned no results.") return } // ...
C objetivo
NSError *error; NSArray<FIRVisionObject *> *objects = [objectDetector resultsInImage:image error:&error]; if (error == nil) { return; } if (objects == nil | objects.count == 0) { // No objects detected. return; } // Success. Get object info here. // ...
Si la llamada al procesador de imágenes tiene éxito, pasa una lista de
VisionObject
al controlador de finalización o devuelve la lista, dependiendo de si llamó al método asíncrono o sincrónico.Cada
VisionObject
contiene las siguientes propiedades:frame
Un CGRect
que indica la posición del objeto en la imagen.trackingID
Un número entero que identifica el objeto en las imágenes. Nulo en modo de imagen única. classificationCategory
La categoría burda del objeto. Si el detector de objetos no tiene habilitada la clasificación, ésta siempre es .unknown
.confidence
El valor de confianza de la clasificación de objetos. Si el detector de objetos no tiene habilitada la clasificación o el objeto está clasificado como desconocido, esto es nil
.Rápido
// detectedObjects contains one item if multiple object detection wasn't enabled. for obj in detectedObjects { let bounds = obj.frame let id = obj.trackingID // If classification was enabled: let category = obj.classificationCategory let confidence = obj.confidence }
C objetivo
// The list of detected objects contains one item if multiple // object detection wasn't enabled. for (FIRVisionObject *obj in objects) { CGRect bounds = obj.frame; if (obj.trackingID) { NSInteger id = obj.trackingID.integerValue; } // If classification was enabled: FIRVisionObjectCategory category = obj.classificationCategory; float confidence = obj.confidence.floatValue; }
Mejora de la usabilidad y el rendimiento
Para obtener la mejor experiencia de usuario, siga estas pautas en su aplicación:
- La detección exitosa de objetos depende de la complejidad visual del objeto. Es posible que los objetos con una pequeña cantidad de características visuales necesiten ocupar una mayor parte de la imagen para ser detectados. Debe proporcionar a los usuarios orientación sobre cómo capturar entradas que funcionen bien con el tipo de objetos que desea detectar.
- Al utilizar la clasificación, si desea detectar objetos que no encajan claramente en las categorías admitidas, implemente un manejo especial para objetos desconocidos.
Además, consulte la [aplicación de presentación de ML Kit Material Design][showcase-link]{: .external } y la colección de funciones basadas en aprendizaje automático Patrones de diseño de materiales.
Cuando utilice el modo de transmisión en tiempo real en una aplicación, siga estas pautas para lograr las mejores velocidades de fotogramas:
No utilices la detección de múltiples objetos en el modo de transmisión, ya que la mayoría de los dispositivos no podrán producir velocidades de fotogramas adecuadas.
Desactive la clasificación si no la necesita.
- Llamadas del acelerador al detector. Si hay un nuevo cuadro de video disponible mientras el detector está en ejecución, suelte el cuadro.
- Si está utilizando la salida del detector para superponer gráficos en la imagen de entrada, primero obtenga el resultado del ML Kit, luego renderice la imagen y superpóngala en un solo paso. Al hacerlo, renderiza en la superficie de visualización solo una vez por cada cuadro de entrada. Consulte las clases previaOverlayView y FIRDetectionOverlayView en la aplicación de muestra de presentación para ver un ejemplo.