在 Android 上使用机器学习套件识别图片中的文本

利用机器学习套件,您可以使用基于设备的模型或云端模型识别图片中的文字。要了解每种方法的优势,请参阅概览

如需了解此 API 的实际应用示例,请查看 GitHub 上的机器学习套件快速入门示例,您还可以试用代码实验室

准备工作

  1. 如果您尚未将 Firebase 添加到自己的应用中,请按照入门指南中的步骤执行此操作。
  2. 在您的应用级 build.gradle 文件中添加机器学习套件的依赖项:
    dependencies {
      // ...
    
      implementation 'com.google.firebase:firebase-ml-vision:16.0.0'
    }
    
  3. 可选但建议执行的操作:如果您使用基于设备的 API,请将您的应用配置成用户从 Play 商店安装您的应用后,您的应用自动将机器学习模型下载到设备上。

    为此,请将以下声明添加到应用的 AndroidManifest.xml 文件:

    <application ...>
      ...
      <meta-data
          android:name="com.google.firebase.ml.vision.DEPENDENCIES"
          android:value="text" />
      <!-- To use multiple models: android:value="text,model2,model3" -->
    </application>
    
    如果您未启用安装时模型下载,模型将在您首次运行设备上的检测器时下载。您在下载完毕之前提出的请求不会产生任何结果。
  4. 如果您想使用云端模型,并且尚未将项目升级到 Blaze 方案,请在 Firebase 控制台中执行此操作。只有 Blaze 级项目才能使用 Cloud Vision API。
  5. 如果您想使用云端模型,还需启用 Cloud Vision API:
    1. 在 Cloud Console API 库中打开 Cloud Vision API
    2. 务必在页面顶部的菜单中选择您的 Firebase 项目。
    3. 如果该 API 尚未启用,请点击启用
    如果您只想使用基于设备的模型,则可以跳过此步骤。

现在,您可以开始使用基于设备的模型或云端模型来识别图片中的文字了。


基于设备的文字识别

要使用基于设备的文字识别模型,请按照以下说明运行文本检测器。

1. 运行文字检测器

要识别图片中的文本,请从设备上的以下项目创建一个 FirebaseVisionImage 对象:Bitmapmedia.ImageByteBuffer、字节数组或文件。然后,将 FirebaseVisionImage 对象传递给 FirebaseVisionTextDetectordetectInImage 方法。

  1. 从图片创建一个 FirebaseVisionImage 对象。

    • 要从 Bitmap 对象创建一个 FirebaseVisionImage 对象,请使用以下代码:
      FirebaseVisionImage image = FirebaseVisionImage.fromBitmap(bitmap);
      Bitmap 对象表示的图片必须保持竖直,不应再需要额外的旋转。
    • 要创建一个 FirebaseVisionImage 对象(从 media.Image 对象),例如在从设备的相机捕捉图片时,请首先确定图片必须旋转的角度,以便就设备的旋转和设备中相机传感器的方向进行补偿:
      private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
      static {
          ORIENTATIONS.append(Surface.ROTATION_0, 90);
          ORIENTATIONS.append(Surface.ROTATION_90, 0);
          ORIENTATIONS.append(Surface.ROTATION_180, 270);
          ORIENTATIONS.append(Surface.ROTATION_270, 180);
      }
      
      /**
       * Get the angle by which an image must be rotated given the device's current
       * orientation.
       */
      @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
      private int getRotationCompensation(String cameraId, Activity activity, Context context)
              throws CameraAccessException {
          // Get the device's current rotation relative to its "native" orientation.
          // Then, from the ORIENTATIONS table, look up the angle the image must be
          // rotated to compensate for the device's rotation.
          int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
          int rotationCompensation = ORIENTATIONS.get(deviceRotation);
      
          // On most devices, the sensor orientation is 90 degrees, but for some
          // devices it is 270 degrees. For devices with a sensor orientation of
          // 270, rotate the image an additional 180 ((270 + 270) % 360) degrees.
          CameraManager cameraManager = (CameraManager) context.getSystemService(CAMERA_SERVICE);
          int sensorOrientation = cameraManager
                  .getCameraCharacteristics(cameraId)
                  .get(CameraCharacteristics.SENSOR_ORIENTATION);
          rotationCompensation = (rotationCompensation + sensorOrientation + 270) % 360;
      
          // Return the corresponding FirebaseVisionImageMetadata rotation value.
          int result;
          switch (rotationCompensation) {
              case 0:
                  result = FirebaseVisionImageMetadata.ROTATION_0;
                  break;
              case 90:
                  result = FirebaseVisionImageMetadata.ROTATION_90;
                  break;
              case 180:
                  result = FirebaseVisionImageMetadata.ROTATION_180;
                  break;
              case 270:
                  result = FirebaseVisionImageMetadata.ROTATION_270;
                  break;
              default:
                  result = FirebaseVisionImageMetadata.ROTATION_0;
                  Log.e(TAG, "Bad rotation value: " + rotationCompensation);
          }
          return result;
      }

      然后,将 media.Image 对象和旋转值传递给 FirebaseVisionImage.fromMediaImage()

      FirebaseVisionImage image = FirebaseVisionImage.fromMediaImage(mediaImage, rotation);
    • 要从 ByteBuffer 或字节数组创建 FirebaseVisionImage 对象,请首先按上述方法计算图片旋转角度。

      然后,创建一个包含图片的高度、宽度、颜色编码格式和旋转角度的 FirebaseVisionImageMetadata 对象:

      FirebaseVisionImageMetadata metadata = new FirebaseVisionImageMetadata.Builder()
              .setWidth(1280)
              .setHeight(720)
              .setFormat(FirebaseVisionImageMetadata.IMAGE_FORMAT_NV21)
              .setRotation(rotation)
              .build();

      使用缓冲区或数组以及元数据对象来创建 FirebaseVisionImage 对象:

      FirebaseVisionImage image = FirebaseVisionImage.fromByteBuffer(buffer, metadata);
      // Or: FirebaseVisionImage image = FirebaseVisionImage.fromByteArray(byteArray, metadata);
      
    • 要从文件创建 FirebaseVisionImage 对象,请将应用上下文和文件 URI 传递给 FirebaseVisionImage.fromFilePath()
      FirebaseVisionImage image;
      try {
          image = FirebaseVisionImage.fromFilePath(context, uri);
      } catch (IOException e) {
          e.printStackTrace();
      }

  2. 获取 FirebaseVisionTextDetector 的一个实例::

    FirebaseVisionTextDetector detector = FirebaseVision.getInstance()
            .getVisionTextDetector();

  3. 最后,将图片传递给 detectInImage 方法:

    Task<FirebaseVisionText> result =
            detector.detectInImage(image)
                    .addOnSuccessListener(new OnSuccessListener<FirebaseVisionText>() {
                        @Override
                        public void onSuccess(FirebaseVisionText firebaseVisionText) {
                            // Task completed successfully
                            // ...
                        }
                    })
                    .addOnFailureListener(
                            new OnFailureListener() {
                                @Override
                                public void onFailure(@NonNull Exception e) {
                                    // Task failed with an exception
                                    // ...
                                }
                            });

2. 从识别出的文本块中提取文本

如果文本识别操作成功,则系统会向成功侦听器传递一个 FirebaseVisionText 对象。在此对象中,您可以获取识别的文本块、文本块在图片上的边界,以及文本块包含的文本。此外,对于每个文本块,您可以获取构成该文本块的文本行以及构成每行文本的元素(例如字符或标点符号):

for (FirebaseVisionText.Block block: firebaseVisionText.getBlocks()) {
    Rect boundingBox = block.getBoundingBox();
    Point[] cornerPoints = block.getCornerPoints();
    String text = block.getText();

    for (FirebaseVisionText.Line line: block.getLines()) {
        // ...
        for (FirebaseVisionText.Element element: line.getElements()) {
            // ...
        }
    }
}

云端文本识别

要使用云端文字识别模型,请按照以下说明运行文本检测器。

1. 配置文本检测器

默认情况下,Cloud 检测器使用模型的 STABLE 版本并返回最多 10 个结果。如果您想更改这两个设置中的任何一个,请使用 FirebaseVisionCloudDetectorOptions 对象进行指定。

例如,要更改这两项默认设置,请按照下面的示例构建一个 FirebaseVisionCloudDetectorOptions 对象:

FirebaseVisionCloudDetectorOptions options =
    new FirebaseVisionCloudDetectorOptions.Builder()
        .setModelType(FirebaseVisionCloudDetectorOptions.LATEST_MODEL)
        .setMaxResults(15)
        .build();

要使用默认设置,可以在下一步中使用 FirebaseVisionCloudDetectorOptions.DEFAULT

2. 运行文字检测器

要识别图片中的文本,请从设备上的以下项目创建一个 FirebaseVisionImage 对象:Bitmapmedia.ImageByteBuffer、字节数组或文件。然后,将 FirebaseVisionImage 对象传递给 FirebaseVisionCloudTextDetector 或者(如果图片是一个文档)FirebaseVisionCloudDocumentTextDetectordetectInImage 方法。

  1. 从图片创建一个 FirebaseVisionImage 对象。

    • 要从 Bitmap 对象创建一个 FirebaseVisionImage 对象,请使用以下代码:
      FirebaseVisionImage image = FirebaseVisionImage.fromBitmap(bitmap);
      Bitmap 对象表示的图片必须保持竖直,不应再需要额外的旋转。
    • 要创建一个 FirebaseVisionImage 对象(从 media.Image 对象),例如在从设备的相机捕捉图片时,请首先确定图片必须旋转的角度,以便就设备的旋转和设备中相机传感器的方向进行补偿:
      private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
      static {
          ORIENTATIONS.append(Surface.ROTATION_0, 90);
          ORIENTATIONS.append(Surface.ROTATION_90, 0);
          ORIENTATIONS.append(Surface.ROTATION_180, 270);
          ORIENTATIONS.append(Surface.ROTATION_270, 180);
      }
      
      /**
       * Get the angle by which an image must be rotated given the device's current
       * orientation.
       */
      @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
      private int getRotationCompensation(String cameraId, Activity activity, Context context)
              throws CameraAccessException {
          // Get the device's current rotation relative to its "native" orientation.
          // Then, from the ORIENTATIONS table, look up the angle the image must be
          // rotated to compensate for the device's rotation.
          int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
          int rotationCompensation = ORIENTATIONS.get(deviceRotation);
      
          // On most devices, the sensor orientation is 90 degrees, but for some
          // devices it is 270 degrees. For devices with a sensor orientation of
          // 270, rotate the image an additional 180 ((270 + 270) % 360) degrees.
          CameraManager cameraManager = (CameraManager) context.getSystemService(CAMERA_SERVICE);
          int sensorOrientation = cameraManager
                  .getCameraCharacteristics(cameraId)
                  .get(CameraCharacteristics.SENSOR_ORIENTATION);
          rotationCompensation = (rotationCompensation + sensorOrientation + 270) % 360;
      
          // Return the corresponding FirebaseVisionImageMetadata rotation value.
          int result;
          switch (rotationCompensation) {
              case 0:
                  result = FirebaseVisionImageMetadata.ROTATION_0;
                  break;
              case 90:
                  result = FirebaseVisionImageMetadata.ROTATION_90;
                  break;
              case 180:
                  result = FirebaseVisionImageMetadata.ROTATION_180;
                  break;
              case 270:
                  result = FirebaseVisionImageMetadata.ROTATION_270;
                  break;
              default:
                  result = FirebaseVisionImageMetadata.ROTATION_0;
                  Log.e(TAG, "Bad rotation value: " + rotationCompensation);
          }
          return result;
      }

      然后,将 media.Image 对象和旋转值传递给 FirebaseVisionImage.fromMediaImage()

      FirebaseVisionImage image = FirebaseVisionImage.fromMediaImage(mediaImage, rotation);
    • 要从 ByteBuffer 或字节数组创建 FirebaseVisionImage 对象,请首先按上述方法计算图片旋转角度。

      然后,创建一个包含图片的高度、宽度、颜色编码格式和旋转角度的 FirebaseVisionImageMetadata 对象:

      FirebaseVisionImageMetadata metadata = new FirebaseVisionImageMetadata.Builder()
              .setWidth(1280)
              .setHeight(720)
              .setFormat(FirebaseVisionImageMetadata.IMAGE_FORMAT_NV21)
              .setRotation(rotation)
              .build();

      使用缓冲区或数组以及元数据对象来创建 FirebaseVisionImage 对象:

      FirebaseVisionImage image = FirebaseVisionImage.fromByteBuffer(buffer, metadata);
      // Or: FirebaseVisionImage image = FirebaseVisionImage.fromByteArray(byteArray, metadata);
      
    • 要从文件创建 FirebaseVisionImage 对象,请将应用上下文和文件 URI 传递给 FirebaseVisionImage.fromFilePath()
      FirebaseVisionImage image;
      try {
          image = FirebaseVisionImage.fromFilePath(context, uri);
      } catch (IOException e) {
          e.printStackTrace();
      }

  2. 获取 FirebaseVisionCloudTextDetectorFirebaseVisionCloudDocumentTextDetector 的一个实例:

    FirebaseVisionCloudTextDetector detector = FirebaseVision.getInstance()
            .getVisionCloudTextDetector();
    // Or, to change the default settings:
    // FirebaseVisionCloudTextDetector detector = FirebaseVision.getInstance()
    //         .getVisionCloudTextDetector(options);

  3. 最后,将图片传递给 detectInImage 方法:

    Task<FirebaseVisionCloudText> result = detector.detectInImage(image)
            .addOnSuccessListener(new OnSuccessListener<FirebaseVisionCloudText>() {
                @Override
                public void onSuccess(FirebaseVisionCloudText firebaseVisionCloudText) {
                    // Task completed successfully
                    // ...
                }
            })
            .addOnFailureListener(new OnFailureListener() {
                @Override
                public void onFailure(@NonNull Exception e) {
                    // Task failed with an exception
                    // ...
                }
            });

3. 从识别出的文本块中提取文本

如果文本识别操作成功,则系统会向成功侦听器传递一个 FirebaseVisionCloudText 对象。此对象包含该图片中识别到的文本。

您还可以获取有关文本结构的信息。文本分为页面、文本块、段落、字词和符号。对于每个组织单元,您都可以获取相关信息,例如大小尺寸及其包含的语言。

例如:

String recognizedText = firebaseVisionCloudText.getText();

for (FirebaseVisionCloudText.Page page: firebaseVisionCloudText.getPages()) {
    List<FirebaseVisionCloudText.DetectedLanguage> languages =
            page.getTextProperty().getDetectedLanguages();
    int height = page.getHeight();
    int width = page.getWidth();
    float confidence = page.getConfidence();

    for (FirebaseVisionCloudText.Block block: page.getBlocks()) {
        Rect boundingBox = block.getBoundingBox();
        List<FirebaseVisionCloudText.DetectedLanguage> blockLanguages =
                block.getTextProperty().getDetectedLanguages();
        float blockConfidence = block.getConfidence();
        // And so on: Paragraph, Word, Symbol
    }
}

发送以下问题的反馈:

此网页
需要帮助?请访问我们的支持页面