Você pode usar o ML Kit para reconhecer texto em imagens. O ML Kit possui uma API de uso geral adequada para reconhecer texto em imagens, como o texto de uma placa de rua, e uma API otimizada para reconhecer o texto de documentos. A API de uso geral possui modelos no dispositivo e baseados na nuvem. O reconhecimento de texto de documento está disponível apenas como modelo baseado em nuvem. Consulte a visão geral para uma comparação entre os modelos na nuvem e no dispositivo.
Antes de você começar
- Se você ainda não adicionou o Firebase ao seu aplicativo, faça isso seguindo as etapas do guia de primeiros passos .
- Inclua as bibliotecas do ML Kit em seu Podfile:
pod 'Firebase/MLVision', '6.25.0' # If using an on-device API: pod 'Firebase/MLVisionTextModel', '6.25.0'
Depois de instalar ou atualizar os pods do seu projeto, certifique-se de abrir seu projeto Xcode usando seu.xcworkspace
. - No seu aplicativo, importe o Firebase:
Rápido
import Firebase
Objetivo-C
@import Firebase;
Se você quiser usar o modelo baseado em nuvem e ainda não tiver habilitado as APIs baseadas em nuvem para o seu projeto, faça-o agora:
- Abra a página APIs do kit de ML do console do Firebase.
Se você ainda não atualizou seu projeto para um plano de preços Blaze, clique em Atualizar para fazer isso. (Você será solicitado a atualizar somente se o seu projeto não estiver no plano Blaze.)
Somente projetos no nível Blaze podem usar APIs baseadas em nuvem.
- Se as APIs baseadas em nuvem ainda não estiverem habilitadas, clique em Habilitar APIs baseadas em nuvem .
Se quiser usar apenas o modelo no dispositivo, você pode pular esta etapa.
Agora você está pronto para começar a reconhecer texto em imagens.
Diretrizes de imagem de entrada
Para que o ML Kit reconheça o texto com precisão, as imagens de entrada devem conter texto representado por dados de pixel suficientes. Idealmente, para texto latino, cada caractere deve ter pelo menos 16x16 pixels. Para texto em chinês, japonês e coreano (suportado apenas pelas APIs baseadas em nuvem), cada caractere deve ter 24 x 24 pixels. Para todos os idiomas, geralmente não há benefício de precisão se caracteres maiores que 24x24 pixels.
Assim, por exemplo, uma imagem de 640x480 pode funcionar bem para digitalizar um cartão de visita que ocupe toda a largura da imagem. Para digitalizar um documento impresso em papel tamanho carta, pode ser necessária uma imagem de 720x1280 pixels.
O foco inadequado da imagem pode prejudicar a precisão do reconhecimento de texto. Se você não estiver obtendo resultados aceitáveis, tente pedir ao usuário para recapturar a imagem.
Se você estiver reconhecendo texto em um aplicativo em tempo real, também poderá considerar as dimensões gerais das imagens de entrada. Imagens menores podem ser processadas mais rapidamente, portanto, para reduzir a latência, capture imagens em resoluções mais baixas (tendo em mente os requisitos de precisão acima) e garanta que o texto ocupe o máximo possível da imagem. Consulte também Dicas para melhorar o desempenho em tempo real .
Reconhecer texto em imagens
Para reconhecer texto em uma imagem usando um modelo no dispositivo ou baseado em nuvem, execute o reconhecedor de texto conforme descrito abaixo.
1. Execute o reconhecedor de texto
Passe a imagem como `UIImage` ou `CMSampleBufferRef` para o método `process(_:completion:)` do `VisionTextRecognizer`:- Obtenha uma instância de
VisionTextRecognizer
chamandoonDeviceTextRecognizer
oucloudTextRecognizer
:Rápido
Para usar o modelo no dispositivo:
let vision = Vision.vision() let textRecognizer = vision.onDeviceTextRecognizer()
Para usar o modelo de nuvem:
let vision = Vision.vision() let textRecognizer = vision.cloudTextRecognizer() // Or, to provide language hints to assist with language detection: // See https://cloud.google.com/vision/docs/languages for supported languages let options = VisionCloudTextRecognizerOptions() options.languageHints = ["en", "hi"] let textRecognizer = vision.cloudTextRecognizer(options: options)
Objetivo-C
Para usar o modelo no dispositivo:
FIRVision *vision = [FIRVision vision]; FIRVisionTextRecognizer *textRecognizer = [vision onDeviceTextRecognizer];
Para usar o modelo de nuvem:
FIRVision *vision = [FIRVision vision]; FIRVisionTextRecognizer *textRecognizer = [vision cloudTextRecognizer]; // Or, to provide language hints to assist with language detection: // See https://cloud.google.com/vision/docs/languages for supported languages FIRVisionCloudTextRecognizerOptions *options = [[FIRVisionCloudTextRecognizerOptions alloc] init]; options.languageHints = @[@"en", @"hi"]; FIRVisionTextRecognizer *textRecognizer = [vision cloudTextRecognizerWithOptions:options];
Crie um objeto
VisionImage
usandoUIImage
ouCMSampleBufferRef
.Para usar uma
UIImage
:- Se necessário, gire a imagem para que sua propriedade
imageOrientation
seja.up
. - Crie um objeto
VisionImage
usando oUIImage
girado corretamente. Não especifique nenhum metadado de rotação — o valor padrão,.topLeft
, deve ser usado.Rápido
let image = VisionImage(image: uiImage)
Objetivo-C
FIRVisionImage *image = [[FIRVisionImage alloc] initWithImage:uiImage];
Para usar um
CMSampleBufferRef
:Crie um objeto
VisionImageMetadata
que especifique a orientação dos dados de imagem contidos no bufferCMSampleBufferRef
.Para obter a orientação da imagem:
Rápido
func imageOrientation( deviceOrientation: UIDeviceOrientation, cameraPosition: AVCaptureDevice.Position ) -> VisionDetectorImageOrientation { switch deviceOrientation { case .portrait: return cameraPosition == .front ? .leftTop : .rightTop case .landscapeLeft: return cameraPosition == .front ? .bottomLeft : .topLeft case .portraitUpsideDown: return cameraPosition == .front ? .rightBottom : .leftBottom case .landscapeRight: return cameraPosition == .front ? .topRight : .bottomRight case .faceDown, .faceUp, .unknown: return .leftTop } }
Objetivo-C
- (FIRVisionDetectorImageOrientation) imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation cameraPosition:(AVCaptureDevicePosition)cameraPosition { switch (deviceOrientation) { case UIDeviceOrientationPortrait: if (cameraPosition == AVCaptureDevicePositionFront) { return FIRVisionDetectorImageOrientationLeftTop; } else { return FIRVisionDetectorImageOrientationRightTop; } case UIDeviceOrientationLandscapeLeft: if (cameraPosition == AVCaptureDevicePositionFront) { return FIRVisionDetectorImageOrientationBottomLeft; } else { return FIRVisionDetectorImageOrientationTopLeft; } case UIDeviceOrientationPortraitUpsideDown: if (cameraPosition == AVCaptureDevicePositionFront) { return FIRVisionDetectorImageOrientationRightBottom; } else { return FIRVisionDetectorImageOrientationLeftBottom; } case UIDeviceOrientationLandscapeRight: if (cameraPosition == AVCaptureDevicePositionFront) { return FIRVisionDetectorImageOrientationTopRight; } else { return FIRVisionDetectorImageOrientationBottomRight; } default: return FIRVisionDetectorImageOrientationTopLeft; } }
Em seguida, crie o objeto de metadados:
Rápido
let cameraPosition = AVCaptureDevice.Position.back // Set to the capture device you used. let metadata = VisionImageMetadata() metadata.orientation = imageOrientation( deviceOrientation: UIDevice.current.orientation, cameraPosition: cameraPosition )
Objetivo-C
FIRVisionImageMetadata *metadata = [[FIRVisionImageMetadata alloc] init]; AVCaptureDevicePosition cameraPosition = AVCaptureDevicePositionBack; // Set to the capture device you used. metadata.orientation = [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation cameraPosition:cameraPosition];
- Crie um objeto
VisionImage
usando o objetoCMSampleBufferRef
e os metadados de rotação:Rápido
let image = VisionImage(buffer: sampleBuffer) image.metadata = metadata
Objetivo-C
FIRVisionImage *image = [[FIRVisionImage alloc] initWithBuffer:sampleBuffer]; image.metadata = metadata;
- Se necessário, gire a imagem para que sua propriedade
- Em seguida, passe a imagem para o
process(_:completion:)
:Rápido
textRecognizer.process(visionImage) { result, error in guard error == nil, let result = result else { // ... return } // Recognized text }
Objetivo-C
[textRecognizer processImage:image completion:^(FIRVisionText *_Nullable result, NSError *_Nullable error) { if (error != nil || result == nil) { // ... return; } // Recognized text }];
2. Extraia texto de blocos de texto reconhecidos
Se a operação de reconhecimento de texto for bem-sucedida, ela retornará um objeto [`VisionText`][VisionText]. Um objeto `VisionText` contém o texto completo reconhecido na imagem e zero ou mais objetos [`VisionTextBlock`][VisionTextBlock]. Cada `VisionTextBlock` representa um bloco retangular de texto, que contém zero ou mais objetos [`VisionTextLine`][VisionTextLine]. Cada objeto `VisionTextLine` contém zero ou mais objetos [`VisionTextElement`][VisionTextElement], que representam palavras e entidades semelhantes a palavras (datas, números e assim por diante). Para cada objeto `VisionTextBlock`, `VisionTextLine` e `VisionTextElement`, você pode obter o texto reconhecido na região e as coordenadas delimitadoras da região. Por exemplo:Rápido
let resultText = result.text for block in result.blocks { let blockText = block.text let blockConfidence = block.confidence let blockLanguages = block.recognizedLanguages let blockCornerPoints = block.cornerPoints let blockFrame = block.frame for line in block.lines { let lineText = line.text let lineConfidence = line.confidence let lineLanguages = line.recognizedLanguages let lineCornerPoints = line.cornerPoints let lineFrame = line.frame for element in line.elements { let elementText = element.text let elementConfidence = element.confidence let elementLanguages = element.recognizedLanguages let elementCornerPoints = element.cornerPoints let elementFrame = element.frame } } }
Objetivo-C
NSString *resultText = result.text; for (FIRVisionTextBlock *block in result.blocks) { NSString *blockText = block.text; NSNumber *blockConfidence = block.confidence; NSArray<FIRVisionTextRecognizedLanguage *> *blockLanguages = block.recognizedLanguages; NSArray<NSValue *> *blockCornerPoints = block.cornerPoints; CGRect blockFrame = block.frame; for (FIRVisionTextLine *line in block.lines) { NSString *lineText = line.text; NSNumber *lineConfidence = line.confidence; NSArray<FIRVisionTextRecognizedLanguage *> *lineLanguages = line.recognizedLanguages; NSArray<NSValue *> *lineCornerPoints = line.cornerPoints; CGRect lineFrame = line.frame; for (FIRVisionTextElement *element in line.elements) { NSString *elementText = element.text; NSNumber *elementConfidence = element.confidence; NSArray<FIRVisionTextRecognizedLanguage *> *elementLanguages = element.recognizedLanguages; NSArray<NSValue *> *elementCornerPoints = element.cornerPoints; CGRect elementFrame = element.frame; } } }
Dicas para melhorar o desempenho em tempo real
Se você quiser usar o modelo no dispositivo para reconhecer texto em um aplicativo em tempo real, siga estas diretrizes para obter as melhores taxas de quadros:
- Limite as chamadas para o reconhecedor de texto. Se um novo quadro de vídeo ficar disponível enquanto o reconhecedor de texto estiver em execução, descarte o quadro.
- Se você estiver usando a saída do reconhecedor de texto para sobrepor gráficos na imagem de entrada, primeiro obtenha o resultado do Kit de ML e, em seguida, renderize a imagem e a sobreposição em uma única etapa. Ao fazer isso, você renderiza na superfície de exibição apenas uma vez para cada quadro de entrada. Veja as classes previewOverlayView e FIRDetectionOverlayView no aplicativo de exemplo de demonstração para ver um exemplo.
- Considere capturar imagens com uma resolução mais baixa. No entanto, lembre-se também dos requisitos de dimensão de imagem desta API.
Próximos passos
- Antes de implantar em produção um aplicativo que usa uma API do Cloud, você deve seguir algumas etapas adicionais para evitar e mitigar o efeito do acesso não autorizado à API .
Reconhecer texto em imagens de documentos
Para reconhecer o texto de um documento, configure e execute o reconhecedor de texto de documento baseado em nuvem conforme descrito abaixo.
A API de reconhecimento de texto de documentos, descrita abaixo, fornece uma interface que pretende ser mais conveniente para trabalhar com imagens de documentos. No entanto, se você preferir a interface fornecida pela API de texto esparso, poderá usá-la para digitalizar documentos configurando o reconhecedor de texto em nuvem para usar o modelo de texto denso .
Para usar a API de reconhecimento de texto de documento:
1. Execute o reconhecedor de texto
Passe a imagem comoUIImage
ou CMSampleBufferRef
para o método process(_:completion:)
do VisionDocumentTextRecognizer
:- Obtenha uma instância de
VisionDocumentTextRecognizer
chamandocloudDocumentTextRecognizer
:Rápido
let vision = Vision.vision() let textRecognizer = vision.cloudDocumentTextRecognizer() // Or, to provide language hints to assist with language detection: // See https://cloud.google.com/vision/docs/languages for supported languages let options = VisionCloudDocumentTextRecognizerOptions() options.languageHints = ["en", "hi"] let textRecognizer = vision.cloudDocumentTextRecognizer(options: options)
Objetivo-C
FIRVision *vision = [FIRVision vision]; FIRVisionDocumentTextRecognizer *textRecognizer = [vision cloudDocumentTextRecognizer]; // Or, to provide language hints to assist with language detection: // See https://cloud.google.com/vision/docs/languages for supported languages FIRVisionCloudDocumentTextRecognizerOptions *options = [[FIRVisionCloudDocumentTextRecognizerOptions alloc] init]; options.languageHints = @[@"en", @"hi"]; FIRVisionDocumentTextRecognizer *textRecognizer = [vision cloudDocumentTextRecognizerWithOptions:options];
Crie um objeto
VisionImage
usandoUIImage
ouCMSampleBufferRef
.Para usar uma
UIImage
:- Se necessário, gire a imagem para que sua propriedade
imageOrientation
seja.up
. - Crie um objeto
VisionImage
usando oUIImage
girado corretamente. Não especifique nenhum metadado de rotação — o valor padrão,.topLeft
, deve ser usado.Rápido
let image = VisionImage(image: uiImage)
Objetivo-C
FIRVisionImage *image = [[FIRVisionImage alloc] initWithImage:uiImage];
Para usar um
CMSampleBufferRef
:Crie um objeto
VisionImageMetadata
que especifique a orientação dos dados de imagem contidos no bufferCMSampleBufferRef
.Para obter a orientação da imagem:
Rápido
func imageOrientation( deviceOrientation: UIDeviceOrientation, cameraPosition: AVCaptureDevice.Position ) -> VisionDetectorImageOrientation { switch deviceOrientation { case .portrait: return cameraPosition == .front ? .leftTop : .rightTop case .landscapeLeft: return cameraPosition == .front ? .bottomLeft : .topLeft case .portraitUpsideDown: return cameraPosition == .front ? .rightBottom : .leftBottom case .landscapeRight: return cameraPosition == .front ? .topRight : .bottomRight case .faceDown, .faceUp, .unknown: return .leftTop } }
Objetivo-C
- (FIRVisionDetectorImageOrientation) imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation cameraPosition:(AVCaptureDevicePosition)cameraPosition { switch (deviceOrientation) { case UIDeviceOrientationPortrait: if (cameraPosition == AVCaptureDevicePositionFront) { return FIRVisionDetectorImageOrientationLeftTop; } else { return FIRVisionDetectorImageOrientationRightTop; } case UIDeviceOrientationLandscapeLeft: if (cameraPosition == AVCaptureDevicePositionFront) { return FIRVisionDetectorImageOrientationBottomLeft; } else { return FIRVisionDetectorImageOrientationTopLeft; } case UIDeviceOrientationPortraitUpsideDown: if (cameraPosition == AVCaptureDevicePositionFront) { return FIRVisionDetectorImageOrientationRightBottom; } else { return FIRVisionDetectorImageOrientationLeftBottom; } case UIDeviceOrientationLandscapeRight: if (cameraPosition == AVCaptureDevicePositionFront) { return FIRVisionDetectorImageOrientationTopRight; } else { return FIRVisionDetectorImageOrientationBottomRight; } default: return FIRVisionDetectorImageOrientationTopLeft; } }
Em seguida, crie o objeto de metadados:
Rápido
let cameraPosition = AVCaptureDevice.Position.back // Set to the capture device you used. let metadata = VisionImageMetadata() metadata.orientation = imageOrientation( deviceOrientation: UIDevice.current.orientation, cameraPosition: cameraPosition )
Objetivo-C
FIRVisionImageMetadata *metadata = [[FIRVisionImageMetadata alloc] init]; AVCaptureDevicePosition cameraPosition = AVCaptureDevicePositionBack; // Set to the capture device you used. metadata.orientation = [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation cameraPosition:cameraPosition];
- Crie um objeto
VisionImage
usando o objetoCMSampleBufferRef
e os metadados de rotação:Rápido
let image = VisionImage(buffer: sampleBuffer) image.metadata = metadata
Objetivo-C
FIRVisionImage *image = [[FIRVisionImage alloc] initWithBuffer:sampleBuffer]; image.metadata = metadata;
- Se necessário, gire a imagem para que sua propriedade
- Em seguida, passe a imagem para o
process(_:completion:)
:Rápido
textRecognizer.process(visionImage) { result, error in guard error == nil, let result = result else { // ... return } // Recognized text }
Objetivo-C
[textRecognizer processImage:image completion:^(FIRVisionDocumentText *_Nullable result, NSError *_Nullable error) { if (error != nil || result == nil) { // ... return; } // Recognized text }];
2. Extraia texto de blocos de texto reconhecidos
Se a operação de reconhecimento de texto for bem-sucedida, ela retornará um objetoVisionDocumentText
. Um objeto VisionDocumentText
contém o texto completo reconhecido na imagem e uma hierarquia de objetos que refletem a estrutura do documento reconhecido: Para cada objeto VisionDocumentTextBlock
, VisionDocumentTextParagraph
, VisionDocumentTextWord
e VisionDocumentTextSymbol
, você pode obter o texto reconhecido na região e as coordenadas delimitadoras da região.
Por exemplo:
Rápido
let resultText = result.text for block in result.blocks { let blockText = block.text let blockConfidence = block.confidence let blockRecognizedLanguages = block.recognizedLanguages let blockBreak = block.recognizedBreak let blockCornerPoints = block.cornerPoints let blockFrame = block.frame for paragraph in block.paragraphs { let paragraphText = paragraph.text let paragraphConfidence = paragraph.confidence let paragraphRecognizedLanguages = paragraph.recognizedLanguages let paragraphBreak = paragraph.recognizedBreak let paragraphCornerPoints = paragraph.cornerPoints let paragraphFrame = paragraph.frame for word in paragraph.words { let wordText = word.text let wordConfidence = word.confidence let wordRecognizedLanguages = word.recognizedLanguages let wordBreak = word.recognizedBreak let wordCornerPoints = word.cornerPoints let wordFrame = word.frame for symbol in word.symbols { let symbolText = symbol.text let symbolConfidence = symbol.confidence let symbolRecognizedLanguages = symbol.recognizedLanguages let symbolBreak = symbol.recognizedBreak let symbolCornerPoints = symbol.cornerPoints let symbolFrame = symbol.frame } } } }
Objetivo-C
NSString *resultText = result.text; for (FIRVisionDocumentTextBlock *block in result.blocks) { NSString *blockText = block.text; NSNumber *blockConfidence = block.confidence; NSArray<FIRVisionTextRecognizedLanguage *> *blockRecognizedLanguages = block.recognizedLanguages; FIRVisionTextRecognizedBreak *blockBreak = block.recognizedBreak; CGRect blockFrame = block.frame; for (FIRVisionDocumentTextParagraph *paragraph in block.paragraphs) { NSString *paragraphText = paragraph.text; NSNumber *paragraphConfidence = paragraph.confidence; NSArray<FIRVisionTextRecognizedLanguage *> *paragraphRecognizedLanguages = paragraph.recognizedLanguages; FIRVisionTextRecognizedBreak *paragraphBreak = paragraph.recognizedBreak; CGRect paragraphFrame = paragraph.frame; for (FIRVisionDocumentTextWord *word in paragraph.words) { NSString *wordText = word.text; NSNumber *wordConfidence = word.confidence; NSArray<FIRVisionTextRecognizedLanguage *> *wordRecognizedLanguages = word.recognizedLanguages; FIRVisionTextRecognizedBreak *wordBreak = word.recognizedBreak; CGRect wordFrame = word.frame; for (FIRVisionDocumentTextSymbol *symbol in word.symbols) { NSString *symbolText = symbol.text; NSNumber *symbolConfidence = symbol.confidence; NSArray<FIRVisionTextRecognizedLanguage *> *symbolRecognizedLanguages = symbol.recognizedLanguages; FIRVisionTextRecognizedBreak *symbolBreak = symbol.recognizedBreak; CGRect symbolFrame = symbol.frame; } } } }
Próximos passos
- Antes de implantar em produção um aplicativo que usa uma API do Cloud, você deve seguir algumas etapas adicionais para evitar e mitigar o efeito do acesso não autorizado à API .