使用 Firebase Auth 和 Firebase Functions 安全地通过 Cloud Vision 识别图片中的文本 (Android)

如需从应用中调用 Google Cloud API，您需要创建一个中间 REST API 来处理授权并保护 API 密钥等密钥值。然后，您需要在移动应用中编写代码，用于向此中间服务进行身份验证并与其通信。

您可以使用 Firebase Authentication 和 Firebase Functions 来创建此 REST API，这样您便有了一个连接到 Google Cloud API 的代管式无服务器网关来处理身份验证，而且您可以通过预构建的 SDK 从自己的移动应用中调用此网关。

本指南演示了如何使用此方法从应用中调用 Cloud Vision API。此方法将允许所有经过身份验证的用户通过您的 Cloud 项目访问 Cloud Vision 收费服务，因此请考虑这种身份验证机制是否满足您的使用场景，然后再继续操作。

须知事项

配置您的项目

将 Firebase 添加到您的 Android 项目（如果尚未添加）。
如果您尚未为项目启用基于 Cloud 的 API，请立即按照以下步骤启用：
1. 在 Firebase 控制台中，打开“Firebase ML API”页面。
2. 如果您尚未将项目升级为随用随付 Blaze 定价方案，请点击升级以执行此操作。（只有在您的项目未采用 Blaze 定价方案时，系统才会提示您进行升级。）
  
  只有采用 Blaze 定价方案的项目才能使用基于 Cloud 的 API。
3. 如果尚未启用基于 Cloud 的 API，请点击启用基于 Cloud 的 API。
配置您现有的 Firebase API 密钥以禁止访问 Cloud Vision API：
1. 打开 Cloud 控制台中的凭据页面。
2. 对于列表中的每个 API 密钥，打开修改视图，然后在“密钥限制”部分中，向列表中添加除了 Cloud Vision API 之外的所有可用 API。

部署 Callable 函数

接下来，部署将用于衔接您的应用与 Cloud Vision API 的 Cloud Functions 函数。functions-samples 代码库包含一个您可以使用的示例。

默认情况下，此函数将仅允许通过身份验证的应用用户访问 Cloud Vision API。您可以根据不同的要求修改该函数。

如需部署函数，请执行以下操作：

克隆或下载 functions-samples 代码库并切换到 Node-1st-gen/vision-annotate-image 目录：
```
git clone https://github.com/firebase/functions-samples
cd Node-1st-gen/vision-annotate-image
```
安装依赖项：
```
cd functions
npm install
cd ..
```
如果您没有 Firebase CLI，请进行安装。
在 vision-annotate-image 目录中初始化 Firebase 项目。收到提示时，请从列表中选择您的项目。
```
firebase init
```

部署函数：

firebase deploy --only functions:annotateImage

将 Firebase Auth 添加到您的应用

上面部署的 Callable 函数将拒绝未经身份验证的应用用户的任何请求。如果您尚未将 Firebase Auth 添加到您的应用，则需要执行此操作。

为应用添加必要的依赖项

将 Cloud Functions for Firebase（客户端）和 Gson Android 库的依赖项添加到模块（应用级）Gradle 文件（通常为 <project>/<app-module>/build.gradle.kts 或 <project>/<app-module>/build.gradle）：

implementation("com.google.firebase:firebase-functions:22.1.0")
implementation("com.google.code.gson:gson:2.8.6")

现在，您可以开始识别图片中的文本了。

1. 准备输入图片

为了调用 Cloud Vision，图片的格式必须为 base64 编码字符串。如需处理保存的文件 URI 中的图片，请执行以下操作：

以 Bitmap 对象的形式获取图片：

Kotlin

var bitmap: Bitmap = MediaStore.Images.Media.getBitmap(contentResolver, uri)

Java

Bitmap bitmap = MediaStore.Images.Media.getBitmap(getContentResolver(), uri);

（可选）缩小图片以节省带宽。请参阅 Cloud Vision 推荐的图片大小。

Kotlin

private fun scaleBitmapDown(bitmap: Bitmap, maxDimension: Int): Bitmap {
    val originalWidth = bitmap.width
    val originalHeight = bitmap.height
    var resizedWidth = maxDimension
    var resizedHeight = maxDimension
    if (originalHeight > originalWidth) {
        resizedHeight = maxDimension
        resizedWidth =
            (resizedHeight * originalWidth.toFloat() / originalHeight.toFloat()).toInt()
    } else if (originalWidth > originalHeight) {
        resizedWidth = maxDimension
        resizedHeight =
            (resizedWidth * originalHeight.toFloat() / originalWidth.toFloat()).toInt()
    } else if (originalHeight == originalWidth) {
        resizedHeight = maxDimension
        resizedWidth = maxDimension
    }
    return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false)
}

Java

private Bitmap scaleBitmapDown(Bitmap bitmap, int maxDimension) {
    int originalWidth = bitmap.getWidth();
    int originalHeight = bitmap.getHeight();
    int resizedWidth = maxDimension;
    int resizedHeight = maxDimension;

    if (originalHeight > originalWidth) {
        resizedHeight = maxDimension;
        resizedWidth = (int) (resizedHeight * (float) originalWidth / (float) originalHeight);
    } else if (originalWidth > originalHeight) {
        resizedWidth = maxDimension;
        resizedHeight = (int) (resizedWidth * (float) originalHeight / (float) originalWidth);
    } else if (originalHeight == originalWidth) {
        resizedHeight = maxDimension;
        resizedWidth = maxDimension;
    }
    return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false);
}

Kotlin

// Scale down bitmap size
bitmap = scaleBitmapDown(bitmap, 640)

Java

// Scale down bitmap size
bitmap = scaleBitmapDown(bitmap, 640);

将位图对象转换为 base64 编码的字符串：

Kotlin

// Convert bitmap to base64 encoded string
val byteArrayOutputStream = ByteArrayOutputStream()
bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream)
val imageBytes: ByteArray = byteArrayOutputStream.toByteArray()
val base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP)

Java

// Convert bitmap to base64 encoded string
ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();
bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream);
byte[] imageBytes = byteArrayOutputStream.toByteArray();
String base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP);

Bitmap

2. 调用 Callable 函数来识别文本

如需识别图片中的文本，请调用 Callable 函数，并向其传递 JSON Cloud Vision 请求。

首先，初始化 Cloud Functions 的一个实例：

Kotlin

private lateinit var functions: FirebaseFunctions
// ...
functions = Firebase.functions

Java

private FirebaseFunctions mFunctions;
// ...
mFunctions = FirebaseFunctions.getInstance();

定义调用函数的方法：

Kotlin

private fun annotateImage(requestJson: String): Task<JsonElement> {
    return functions
        .getHttpsCallable("annotateImage")
        .call(requestJson)
        .continueWith { task ->
            // This continuation runs on either success or failure, but if the task
            // has failed then result will throw an Exception which will be
            // propagated down.
            val result = task.result?.data
            JsonParser.parseString(Gson().toJson(result))
        }
}

Java

private Task<JsonElement> annotateImage(String requestJson) {
    return mFunctions
            .getHttpsCallable("annotateImage")
            .call(requestJson)
            .continueWith(new Continuation<HttpsCallableResult, JsonElement>() {
                @Override
                public JsonElement then(@NonNull Task<HttpsCallableResult> task) {
                    // This continuation runs on either success or failure, but if the task
                    // has failed then getResult() will throw an Exception which will be
                    // propagated down.
                    return JsonParser.parseString(new Gson().toJson(task.getResult().getData()));
                }
            });
}

创建 JSON 请求。Cloud Vision API 支持两种文本检测类型：TEXT_DETECTION 和 DOCUMENT_TEXT_DETECTION。如需了解这两种使用场景之间的差异，请参阅 Cloud Vision OCR 文档。

Kotlin

// Create json request to cloud vision
val request = JsonObject()
// Add image to request
val image = JsonObject()
image.add("content", JsonPrimitive(base64encoded))
request.add("image", image)
// Add features to the request
val feature = JsonObject()
feature.add("type", JsonPrimitive("TEXT_DETECTION"))
// Alternatively, for DOCUMENT_TEXT_DETECTION:
// feature.add("type", JsonPrimitive("DOCUMENT_TEXT_DETECTION"))
val features = JsonArray()
features.add(feature)
request.add("features", features)

Java

// Create json request to cloud vision
JsonObject request = new JsonObject();
// Add image to request
JsonObject image = new JsonObject();
image.add("content", new JsonPrimitive(base64encoded));
request.add("image", image);
//Add features to the request
JsonObject feature = new JsonObject();
feature.add("type", new JsonPrimitive("TEXT_DETECTION"));
// Alternatively, for DOCUMENT_TEXT_DETECTION:
//feature.add("type", new JsonPrimitive("DOCUMENT_TEXT_DETECTION"));
JsonArray features = new JsonArray();
features.add(feature);
request.add("features", features);

可以选择提供语言提示来协助检测语言（请参阅支持的语言）：

Kotlin

val imageContext = JsonObject()
val languageHints = JsonArray()
languageHints.add("en")
imageContext.add("languageHints", languageHints)
request.add("imageContext", imageContext)

Java

JsonObject imageContext = new JsonObject();
JsonArray languageHints = new JsonArray();
languageHints.add("en");
imageContext.add("languageHints", languageHints);
request.add("imageContext", imageContext);

最后，调用函数：

Kotlin

annotateImage(request.toString())
    .addOnCompleteListener { task ->
        if (!task.isSuccessful) {
            // Task failed with an exception
            // ...
        } else {
            // Task completed successfully
            // ...
        }
    }

Java

annotateImage(request.toString())
        .addOnCompleteListener(new OnCompleteListener<JsonElement>() {
            @Override
            public void onComplete(@NonNull Task<JsonElement> task) {
                if (!task.isSuccessful()) {
                    // Task failed with an exception
                    // ...
                } else {
                    // Task completed successfully
                    // ...
                }
            }
        });

3. 从识别出的文本块中提取文本

如果文本识别操作成功，任务结果中将返回一个 BatchAnnotateImagesResponse JSON 响应。文本注释可在 fullTextAnnotation 对象中找到。

您可以在 text 字段中获取字符串形式的识别出的文本。例如：

Kotlin

val annotation = task.result!!.asJsonArray[0].asJsonObject["fullTextAnnotation"].asJsonObject
System.out.format("%nComplete annotation:")
System.out.format("%n%s", annotation["text"].asString)

Java

JsonObject annotation = task.getResult().getAsJsonArray().get(0).getAsJsonObject().get("fullTextAnnotation").getAsJsonObject();
System.out.format("%nComplete annotation:%n");
System.out.format("%s%n", annotation.get("text").getAsString());

您还可以获取图片区域特有的信息。对于每个 block、paragraph、word 和 symbol，您可以获取区域中识别出的文本以及该区域的边界坐标。例如：

Kotlin

for (page in annotation["pages"].asJsonArray) {
    var pageText = ""
    for (block in page.asJsonObject["blocks"].asJsonArray) {
        var blockText = ""
        for (para in block.asJsonObject["paragraphs"].asJsonArray) {
            var paraText = ""
            for (word in para.asJsonObject["words"].asJsonArray) {
                var wordText = ""
                for (symbol in word.asJsonObject["symbols"].asJsonArray) {
                    wordText += symbol.asJsonObject["text"].asString
                    System.out.format(
                        "Symbol text: %s (confidence: %f)%n",
                        symbol.asJsonObject["text"].asString,
                        symbol.asJsonObject["confidence"].asFloat,
                    )
                }
                System.out.format(
                    "Word text: %s (confidence: %f)%n%n",
                    wordText,
                    word.asJsonObject["confidence"].asFloat,
                )
                System.out.format("Word bounding box: %s%n", word.asJsonObject["boundingBox"])
                paraText = String.format("%s%s ", paraText, wordText)
            }
            System.out.format("%nParagraph: %n%s%n", paraText)
            System.out.format("Paragraph bounding box: %s%n", para.asJsonObject["boundingBox"])
            System.out.format("Paragraph Confidence: %f%n", para.asJsonObject["confidence"].asFloat)
            blockText += paraText
        }
        pageText += blockText
    }
}

Java

for (JsonElement page : annotation.get("pages").getAsJsonArray()) {
    StringBuilder pageText = new StringBuilder();
    for (JsonElement block : page.getAsJsonObject().get("blocks").getAsJsonArray()) {
        StringBuilder blockText = new StringBuilder();
        for (JsonElement para : block.getAsJsonObject().get("paragraphs").getAsJsonArray()) {
            StringBuilder paraText = new StringBuilder();
            for (JsonElement word : para.getAsJsonObject().get("words").getAsJsonArray()) {
                StringBuilder wordText = new StringBuilder();
                for (JsonElement symbol : word.getAsJsonObject().get("symbols").getAsJsonArray()) {
                    wordText.append(symbol.getAsJsonObject().get("text").getAsString());
                    System.out.format("Symbol text: %s (confidence: %f)%n", symbol.getAsJsonObject().get("text").getAsString(), symbol.getAsJsonObject().get("confidence").getAsFloat());
                }
                System.out.format("Word text: %s (confidence: %f)%n%n", wordText.toString(), word.getAsJsonObject().get("confidence").getAsFloat());
                System.out.format("Word bounding box: %s%n", word.getAsJsonObject().get("boundingBox"));
                paraText.append(wordText.toString()).append(" ");
            }
            System.out.format("%nParagraph:%n%s%n", paraText);
            System.out.format("Paragraph bounding box: %s%n", para.getAsJsonObject().get("boundingBox"));
            System.out.format("Paragraph Confidence: %f%n", para.getAsJsonObject().get("confidence").getAsFloat());
            blockText.append(paraText);
        }
        pageText.append(blockText);
    }
}

使用 Firebase Auth 和 Firebase Functions 安全地通过 Cloud Vision 识别图片中的文本 (Android) 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

须知事项

配置您的项目

部署 Callable 函数

将 Firebase Auth 添加到您的应用

为应用添加必要的依赖项

1. 准备输入图片

Kotlin

Java

Kotlin

Java

Kotlin

Java

Kotlin

Java

2. 调用 Callable 函数来识别文本

Kotlin

Java

Kotlin

Java

Kotlin

Java

Kotlin

Java

Kotlin

Java

3. 从识别出的文本块中提取文本

Kotlin

Java

Kotlin

Java

使用 Firebase Auth 和 Firebase Functions 安全地通过 Cloud Vision 识别图片中的文本 (Android)