在 Android 上使用机器学习套件识别图片中的文本

您可以使用机器学习套件识别图片中的文本。机器学习套件既具有可用于识别图片中的文本(例如街道标志的文本)的通用 API,也具有针对识别文档文本而优化的 API。通用 API 具有设备端模型和云端模型。文档文本识别只能以云端模型的形式提供。如需了解云端模型和设备端模型的比较情况,请参阅概览

如需了解此 API 的实际应用示例,请查看 GitHub 上的机器学习套件快速入门示例,您还可以试用代码实验室

准备工作

  1. 如果您尚未将 Firebase 添加到自己的应用中,请按照入门指南中的步骤执行此操作。
  2. 在您的应用级 build.gradle 文件中添加机器学习套件的依赖项:
    dependencies {
      // ...
    
      implementation 'com.google.firebase:firebase-ml-vision:17.0.1'
    }
    
  3. 可选但建议执行的操作:如果您使用基于设备的 API,请将您的应用配置成用户从 Play 商店安装您的应用后,您的应用自动将机器学习模型下载到设备上。

    为此,请将以下声明添加到应用的 AndroidManifest.xml 文件:

    <application ...>
      ...
      <meta-data
          android:name="com.google.firebase.ml.vision.DEPENDENCIES"
          android:value="ocr" />
      <!-- To use multiple models: android:value="ocr,model2,model3" -->
    </application>
    
    如果您未启用安装时模型下载,模型将在您首次运行设备上的检测器时下载。您在下载完毕之前提出的请求不会产生任何结果。
  4. 如果您想使用云端模型,并且尚未将项目升级到 Blaze 方案,请在 Firebase 控制台中执行此操作。只有 Blaze 级项目才能使用 Cloud Vision API。
  5. 如果您想使用云端模型,还需启用 Cloud Vision API:
    1. 在 Cloud Console API 库中打开 Cloud Vision API
    2. 务必在页面顶部的菜单中选择您的 Firebase 项目。
    3. 如果该 API 尚未启用,请点击启用

    如果您只想使用设备端模型,则可以跳过此步骤。

现在,您可以开始识别图片中的文本了。


识别图片中的文本

要使用设备端模型或云端模型来识别图片中的文本,请按照以下说明运行文本识别器。

1. 运行文本识别器

要识别图片中的文本,请基于设备上的以下资源创建一个 FirebaseVisionImage 对象:Bitmapmedia.ImageByteBuffer、字节数组或文件。然后,将 FirebaseVisionImage 对象传递给 FirebaseVisionTextRecognizerprocessImage 方法。

  1. 通过图片创建 FirebaseVisionImage 对象。

    • 要从 Bitmap 对象创建一个 FirebaseVisionImage 对象,请使用以下代码:
      FirebaseVisionImage image = FirebaseVisionImage.fromBitmap(bitmap);
      Bitmap 对象表示的图片必须保持竖直,不应再需要额外的旋转。
    • 要创建一个 FirebaseVisionImage 对象(基于 media.Image 对象),例如从设备的相机捕捉图片时,请首先确定图片必须旋转的角度,以便根据设备的旋转情况和相机传感器的朝向进行补偿:
      private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
      static {
          ORIENTATIONS.append(Surface.ROTATION_0, 90);
          ORIENTATIONS.append(Surface.ROTATION_90, 0);
          ORIENTATIONS.append(Surface.ROTATION_180, 270);
          ORIENTATIONS.append(Surface.ROTATION_270, 180);
      }
      
      /**
       * Get the angle by which an image must be rotated given the device's current
       * orientation.
       */
      @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
      private int getRotationCompensation(String cameraId, Activity activity, Context context)
              throws CameraAccessException {
          // Get the device's current rotation relative to its "native" orientation.
          // Then, from the ORIENTATIONS table, look up the angle the image must be
          // rotated to compensate for the device's rotation.
          int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
          int rotationCompensation = ORIENTATIONS.get(deviceRotation);
      
          // On most devices, the sensor orientation is 90 degrees, but for some
          // devices it is 270 degrees. For devices with a sensor orientation of
          // 270, rotate the image an additional 180 ((270 + 270) % 360) degrees.
          CameraManager cameraManager = (CameraManager) context.getSystemService(CAMERA_SERVICE);
          int sensorOrientation = cameraManager
                  .getCameraCharacteristics(cameraId)
                  .get(CameraCharacteristics.SENSOR_ORIENTATION);
          rotationCompensation = (rotationCompensation + sensorOrientation + 270) % 360;
      
          // Return the corresponding FirebaseVisionImageMetadata rotation value.
          int result;
          switch (rotationCompensation) {
              case 0:
                  result = FirebaseVisionImageMetadata.ROTATION_0;
                  break;
              case 90:
                  result = FirebaseVisionImageMetadata.ROTATION_90;
                  break;
              case 180:
                  result = FirebaseVisionImageMetadata.ROTATION_180;
                  break;
              case 270:
                  result = FirebaseVisionImageMetadata.ROTATION_270;
                  break;
              default:
                  result = FirebaseVisionImageMetadata.ROTATION_0;
                  Log.e(TAG, "Bad rotation value: " + rotationCompensation);
          }
          return result;
      }

      然后,将 media.Image 对象和旋转值传递给 FirebaseVisionImage.fromMediaImage()

      FirebaseVisionImage image = FirebaseVisionImage.fromMediaImage(mediaImage, rotation);
    • 要基于 ByteBuffer 或字节数组创建 FirebaseVisionImage 对象,请首先按上述方法计算图片旋转角度。

      然后,创建一个包含图片的高度、宽度、颜色编码格式和旋转角度的 FirebaseVisionImageMetadata 对象:

      FirebaseVisionImageMetadata metadata = new FirebaseVisionImageMetadata.Builder()
              .setWidth(1280)
              .setHeight(720)
              .setFormat(FirebaseVisionImageMetadata.IMAGE_FORMAT_NV21)
              .setRotation(rotation)
              .build();

      使用缓冲区(即数组)以及元数据对象来创建 FirebaseVisionImage 对象:

      FirebaseVisionImage image = FirebaseVisionImage.fromByteBuffer(buffer, metadata);
      // Or: FirebaseVisionImage image = FirebaseVisionImage.fromByteArray(byteArray, metadata);
      
    • 要从文件创建 FirebaseVisionImage 对象,请将应用上下文和文件 URI 传递给 FirebaseVisionImage.fromFilePath()
      FirebaseVisionImage image;
      try {
          image = FirebaseVisionImage.fromFilePath(context, uri);
      } catch (IOException e) {
          e.printStackTrace();
      }

  2. 获取 FirebaseVisionTextRecognizer 的一个实例。

    要使用设备端模型,请运行以下命令:

    FirebaseVisionTextRecognizer textRecognizer = FirebaseVision.getInstance()
        .getOnDeviceTextRecognizer();
    

    要使用云端模型,请运行以下命令:

    FirebaseVisionTextRecognizer textRecognizer = FirebaseVision.getInstance()
            .getCloudTextRecognizer();
    
    // Or, to provide language hints to assist with language detection:
    // See https://cloud.google.com/vision/docs/languages for supported languages
    FirebaseVisionCloudTextRecognizerOptions options =
            new FirebaseVisionCloudTextRecognizerOptions.Builder()
                    .setLanguageHints(Arrays.asList("en", "hi"))
                    .build();
    FirebaseVisionTextRecognizer textRecognizer = FirebaseVision.getInstance()
            .getCloudTextRecognizer(options);
    
  3. 最后,将图片传递给 processImage 方法:

    textRecognizer.processImage(image)
            .addOnSuccessListener(new OnSuccessListener<FirebaseVisionText>() {
                @Override
                public void onSuccess(FirebaseVisionText result) {
                    // Task completed successfully
                    // ...
                }
            })
            .addOnFailureListener(
                    new OnFailureListener() {
                        @Override
                        public void onFailure(@NonNull Exception e) {
                            // Task failed with an exception
                            // ...
                        }
                    });
    

2. 从识别出的文本块中提取文本

如果文本识别操作成功,则系统会向成功侦听器传递一个 FirebaseVisionText 对象。FirebaseVisionText 对象包含图片中识别到的完整文本以及零个或多个 TextBlock 对象。

每个 TextBlock 表示一个矩形文本块,其中包含零个或多个 Line 对象。每个 Line 对象包含零个或多个 Element 对象,这些对象表示字词和类似字词的实体(日期、数字等)。

对于每个 TextBlockLineElement 对象,您可以获取区域中识别出的文本以及该区域的边界坐标。

例如:

String resultText = result.getText();
for (TextBlock block: result.getTextBlocks()) {
    String blockText = block.getText();
    Float blockConfidence = block.getConfidence();
    List<RecognizedLanguage> blockLanguages = block.getRecognizedLanguages();
    Point[] blockCornerPoints = block.getCornerPoints();
    Rect blockFrame = block.getBoundingBox();
    for (Line line: block.getLines()) {
        String lineText = line.getText();
        Float lineConfidence = line.getConfidence();
        List<RecognizedLanguage> lineLanguages = line.getRecognizedLanguages();
        Point[] lineCornerPoints = line.getCornerPoints();
        Rect lineFrame = line.getBoundingBox();
        for (Element element: line.getElements()) {
            String elementText = element.getText();
            Float elementConfidence = element.getConfidence();
            List<RecognizedLanguage> elementLanguages = element.getRecognizedLanguages();
            Point[] elementCornerPoints = element.getCornerPoints();
            Rect elementFrame = element.getBoundingBox();
        }
    }
}

提高实时性能的相关提示

如果要在实时应用中使用设备端模型识别文本,请遵循以下准则以实现最佳帧速率:

  • 限制文本识别器的调用次数。如果在文本识别器运行时有新视频帧可用,请丢弃该帧。
  • 如果使用文本识别器的输出在输入图片上叠加图形,请先从机器学习套件获取结果,然后在一个步骤中渲染该图片并进行叠加。这样,您只为每个输入帧渲染到显示表面一次。
  • 如果您使用 Camera2 API,请以 ImageFormat.YUV_420_888 格式采集图片。

    如果您使用旧版 Camera API,请以 ImageFormat.NV21 格式采集图片。

  • 建议以较低分辨率采集图片。例如,在配有 16:9 显示器的设备上,请尝试以 640x360 像素或 1280x720 像素采集图片。

识别文档图片中的文本

要识别文档的文本,请按照以下说明配置并运行云端文档文本识别器。

下文所述的文档文本识别 API 提供了一个旨在更方便地处理文档图片的接口。但是,如果您更喜欢使用 FirebaseVisionTextRecognizer API 提供的接口,则可以改用该接口来扫描文档(只需将云端文本识别器配置为使用密集文本模型即可)。

要使用文档文本识别 API,请执行以下操作:

1. 运行文本识别器

要识别图片中的文本,请基于设备上的以下资源创建一个 FirebaseVisionImage 对象:Bitmapmedia.ImageByteBuffer、字节数组或文件。然后,将 FirebaseVisionImage 对象传递给 FirebaseVisionDocumentTextRecognizerprocessImage 方法。

  1. 通过图片创建 FirebaseVisionImage 对象。

    • 要从 Bitmap 对象创建一个 FirebaseVisionImage 对象,请使用以下代码:
      FirebaseVisionImage image = FirebaseVisionImage.fromBitmap(bitmap);
      Bitmap 对象表示的图片必须保持竖直,不应再需要额外的旋转。
    • 要创建一个 FirebaseVisionImage 对象(基于 media.Image 对象),例如从设备的相机捕捉图片时,请首先确定图片必须旋转的角度,以便根据设备的旋转情况和相机传感器的朝向进行补偿:
      private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
      static {
          ORIENTATIONS.append(Surface.ROTATION_0, 90);
          ORIENTATIONS.append(Surface.ROTATION_90, 0);
          ORIENTATIONS.append(Surface.ROTATION_180, 270);
          ORIENTATIONS.append(Surface.ROTATION_270, 180);
      }
      
      /**
       * Get the angle by which an image must be rotated given the device's current
       * orientation.
       */
      @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
      private int getRotationCompensation(String cameraId, Activity activity, Context context)
              throws CameraAccessException {
          // Get the device's current rotation relative to its "native" orientation.
          // Then, from the ORIENTATIONS table, look up the angle the image must be
          // rotated to compensate for the device's rotation.
          int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
          int rotationCompensation = ORIENTATIONS.get(deviceRotation);
      
          // On most devices, the sensor orientation is 90 degrees, but for some
          // devices it is 270 degrees. For devices with a sensor orientation of
          // 270, rotate the image an additional 180 ((270 + 270) % 360) degrees.
          CameraManager cameraManager = (CameraManager) context.getSystemService(CAMERA_SERVICE);
          int sensorOrientation = cameraManager
                  .getCameraCharacteristics(cameraId)
                  .get(CameraCharacteristics.SENSOR_ORIENTATION);
          rotationCompensation = (rotationCompensation + sensorOrientation + 270) % 360;
      
          // Return the corresponding FirebaseVisionImageMetadata rotation value.
          int result;
          switch (rotationCompensation) {
              case 0:
                  result = FirebaseVisionImageMetadata.ROTATION_0;
                  break;
              case 90:
                  result = FirebaseVisionImageMetadata.ROTATION_90;
                  break;
              case 180:
                  result = FirebaseVisionImageMetadata.ROTATION_180;
                  break;
              case 270:
                  result = FirebaseVisionImageMetadata.ROTATION_270;
                  break;
              default:
                  result = FirebaseVisionImageMetadata.ROTATION_0;
                  Log.e(TAG, "Bad rotation value: " + rotationCompensation);
          }
          return result;
      }

      然后,将 media.Image 对象和旋转值传递给 FirebaseVisionImage.fromMediaImage()

      FirebaseVisionImage image = FirebaseVisionImage.fromMediaImage(mediaImage, rotation);
    • 要基于 ByteBuffer 或字节数组创建 FirebaseVisionImage 对象,请首先按上述方法计算图片旋转角度。

      然后,创建一个包含图片的高度、宽度、颜色编码格式和旋转角度的 FirebaseVisionImageMetadata 对象:

      FirebaseVisionImageMetadata metadata = new FirebaseVisionImageMetadata.Builder()
              .setWidth(1280)
              .setHeight(720)
              .setFormat(FirebaseVisionImageMetadata.IMAGE_FORMAT_NV21)
              .setRotation(rotation)
              .build();

      使用缓冲区(即数组)以及元数据对象来创建 FirebaseVisionImage 对象:

      FirebaseVisionImage image = FirebaseVisionImage.fromByteBuffer(buffer, metadata);
      // Or: FirebaseVisionImage image = FirebaseVisionImage.fromByteArray(byteArray, metadata);
      
    • 要基于文件创建 FirebaseVisionImage 对象,请将应用上下文和文件 URI 传递给 FirebaseVisionImage.fromFilePath()
      FirebaseVisionImage image;
      try {
          image = FirebaseVisionImage.fromFilePath(context, uri);
      } catch (IOException e) {
          e.printStackTrace();
      }

  2. 获取 FirebaseVisionDocumentTextRecognizer 的一个实例:

    FirebaseVisionDocumentTextRecognizer textRecognizer = FirebaseVision.getInstance()
            .getCloudDocumentTextRecognizer();
    
    // Or, to provide language hints to assist with language detection:
    // See https://cloud.google.com/vision/docs/languages for supported languages
    FirebaseVisionCloudDocumentRecognizerOptions options =
            new FirebaseVisionCloudDocumentRecognizerOptions.Builder()
                    .setLanguageHints(Arrays.asList("en", "hi"))
                    .build();
    FirebaseVisionDocumentTextRecognizer textRecognizer = FirebaseVision.getInstance()
            .getCloudDocumentTextRecognizer(options);
    
  3. 最后,将图片传递给 processImage 方法:

    textRecognizer.processImage(image)
            .addOnSuccessListener(new OnSuccessListener<FirebaseVisionDocumentText>() {
                @Override
                public void onSuccess(FirebaseVisionDocumentText result) {
                    // Task completed successfully
                    // ...
                }
            })
            .addOnFailureListener(
                    new OnFailureListener() {
                        @Override
                        public void onFailure(@NonNull Exception e) {
                            // Task failed with an exception
                            // ...
                        }
                    });
    

2. 从识别出的文本块中提取文本

如果文本识别操作成功,它将返回一个 FirebaseVisionDocumentText 对象。FirebaseVisionDocumentText 对象包含图片中识别到的完整文本以及反映所识别的文档结构的对象层次结构:

对于每个 BlockParagraphWordSymbol 对象,您可以获取区域中识别出的文本以及该区域的边界坐标。

例如:

String resultText = result.getText();
for (Block block: result.getBlocks()) {
    String blockText = block.getText();
    Float blockConfidence = block.getConfidence();
    List<RecognizedLanguage> blockRecognizedLanguages = block.getRecognizedLanguages();
    Rect blockFrame = block.getBoundingBox();
    for (Paragraph paragraph: block.getParagraphs()) {
        String paragraphText = paragraph.getText();
        Float paragraphConfidence = paragraph.getConfidence();
        List<RecognizedLanguage> paragraphRecognizedLanguages = paragraph.getRecognizedLanguages();
        Rect paragraphFrame = paragraph.getBoundingBox();
        for (Word word: paragraph.getWords()) {
            String wordText = word.getText();
            Float wordConfidence = word.getConfidence();
            List<RecognizedLanguage> wordRecognizedLanguages = word.getRecognizedLanguages();
            Rect wordFrame = word.getBoundingBox();
            for (Symbol symbol: word.getSymbols()) {
                String symbolText = symbol.getText();
                Float symbolConfidence = symbol.getConfidence();
                List<RecognizedLanguage> symbolRecognizedLanguages = symbol.getRecognizedLanguages();
                Rect symbolFrame = symbol.getBoundingBox();
            }
        }
    }
}

后续步骤

在向生产环境中部署使用 Cloud API 的应用之前,您应该采取一些额外步骤来防止未经授权的 API 访问并减轻其造成的影响

发送以下问题的反馈:

此网页
需要帮助?请访问我们的支持页面