Ta strona została przetłumaczona przez Cloud Translation API.

Bezpieczne rozpoznawanie tekstu w obrazach dzięki Cloud Vision przy użyciu uwierzytelniania i funkcji Firebase na Androidzie

Aby wywołać interfejs Google Cloud API z aplikacji, musisz utworzyć pośredni interfejs REST API, który będzie obsługiwać autoryzację i chronić wartości tajne, takie jak klucze interfejsu API. Następnie musisz napisać kod w aplikacji mobilnej, aby uwierzytelnić się w tej usłudze pośredniczącej i komunikować z nią.

Jednym ze sposobów utworzenia tego interfejsu REST API jest użycie funkcji uwierzytelniania i funkcji Firebase, które zapewniają zarządzaną, bezserwerową bramę do interfejsów Google Cloud API, która obsługuje uwierzytelnianie i może być wywoływana z aplikacji mobilnej za pomocą gotowych pakietów SDK.

W tym przewodniku pokazujemy, jak za pomocą tej metody wywoływać interfejs Cloud Vision API z poziomu aplikacji. Ta metoda umożliwia wszystkim uwierzytelnionym użytkownikom dostęp do usług płatnych Cloud Vision za pomocą Twojego projektu Cloud. Zanim przejdziesz dalej, zastanów się, czy ten mechanizm uwierzytelniania jest wystarczający do Twojego przypadku użycia.

Zanim zaczniesz

Skonfiguruj projekt

Jeśli jeszcze tego nie zrobiono, dodaj Firebase do projektu na Androida.
Jeśli interfejsy API oparte na chmurze nie są jeszcze włączone w Twoim projekcie, zrób to teraz:
1. Otwórz stronę Firebase ML Interfejsy API w konsoli Firebase.
2. Jeśli nie przeszedłeś(-aś) jeszcze na abonament Blaze z modelem płatności „pay-as-you-go”, kliknij Przejdź na wyższy abonament. (Prośba o przejście na wyższy abonament pojawi się tylko wtedy, gdy Twój projekt nie jest objęty abonamentem Blaze).
  
  Interfejsów API w chmurze mogą używać tylko projekty korzystające z abonamentu Blaze.
3. Jeśli interfejsy API oparte na chmurze nie są jeszcze włączone, kliknij Włącz interfejsy API oparte na chmurze.
Skonfiguruj istniejące klucze interfejsu Firebase API, aby zablokować dostęp do interfejsu Cloud Vision API:
1. W konsoli Cloud otwórz stronę Dane logowania.
2. W przypadku każdego klucza interfejsu API na liście otwórz widok edycji, a w sekcji Ograniczenia klucza dodaj do listy wszystkie dostępne interfejsy API z wyjątkiem interfejsu Cloud Vision API.

Wdrażanie wywoływanej funkcji

Następnie wdrocz funkcję w Cloud Functions, której użyjesz do połączenia aplikacji z interfejsem Cloud Vision API. Repozytorium functions-samples zawiera przykład, którego możesz użyć.

Domyślnie dostęp do interfejsu Cloud Vision API za pomocą tej funkcji będą mieli tylko uwierzytelnieni użytkownicy Twojej aplikacji. Możesz zmodyfikować funkcję, aby spełniała inne wymagania.

Aby wdrożyć funkcję:

Skopiuj lub pobierz repozytorium functions-samples i przejdź do katalogu Node-1st-gen/vision-annotate-image:
```
git clone https://github.com/firebase/functions-samples
cd Node-1st-gen/vision-annotate-image
```
Zainstaluj zależności:
```
cd functions
npm install
cd ..
```
Jeśli nie masz wiersza poleceń Firebase, zainstaluj go.
Inicjalizacja projektu Firebase w katalogu vision-annotate-image Gdy pojawi się taka prośba, wybierz projekt na liście.
```
firebase init
```

Wdróż funkcję:

firebase deploy --only functions:annotateImage

Dodawanie Uwierzytelnienia Firebase do aplikacji

Funkcja wywołania zaimplementowana powyżej odrzuci każde żądanie od niezalogowanych użytkowników aplikacji. Jeśli jeszcze tego nie zrobiono, dodaj do aplikacji uwierzytelnianie Firebase.

Dodawanie do aplikacji niezbędnych zależności

Dodaj zależności bibliotek Cloud Functions dla Firebase (klient) i gson na Androida do pliku Gradle modułu (na poziomie aplikacji) (zwykle <project>/<app-module>/build.gradle.kts lub <project>/<app-module>/build.gradle):

implementation("com.google.firebase:firebase-functions:22.0.0")
implementation("com.google.code.gson:gson:2.8.6")

Możesz teraz zacząć rozpoznawać tekst na obrazach.

1. Przygotuj obraz wejściowy

Aby wywołać Cloud Vision, obraz musi być sformatowany jako ciąg tekstowy zakodowany w formacie base64. Aby przetworzyć obraz za pomocą zapisanego identyfikatora URI pliku:

Pobierz obraz jako obiekt Bitmap:

Kotlin

var bitmap: Bitmap = MediaStore.Images.Media.getBitmap(contentResolver, uri)

Java

Bitmap bitmap = MediaStore.Images.Media.getBitmap(getContentResolver(), uri);

Opcjonalnie możesz zmniejszyć rozmiar obrazu, aby zaoszczędzić na przepustowości. Zapoznaj się z zalecanymi rozmiarami obrazów w Cloud Vision.

Kotlin

private fun scaleBitmapDown(bitmap: Bitmap, maxDimension: Int): Bitmap {
    val originalWidth = bitmap.width
    val originalHeight = bitmap.height
    var resizedWidth = maxDimension
    var resizedHeight = maxDimension
    if (originalHeight > originalWidth) {
        resizedHeight = maxDimension
        resizedWidth =
            (resizedHeight * originalWidth.toFloat() / originalHeight.toFloat()).toInt()
    } else if (originalWidth > originalHeight) {
        resizedWidth = maxDimension
        resizedHeight =
            (resizedWidth * originalHeight.toFloat() / originalWidth.toFloat()).toInt()
    } else if (originalHeight == originalWidth) {
        resizedHeight = maxDimension
        resizedWidth = maxDimension
    }
    return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false)
}

Java

private Bitmap scaleBitmapDown(Bitmap bitmap, int maxDimension) {
    int originalWidth = bitmap.getWidth();
    int originalHeight = bitmap.getHeight();
    int resizedWidth = maxDimension;
    int resizedHeight = maxDimension;

    if (originalHeight > originalWidth) {
        resizedHeight = maxDimension;
        resizedWidth = (int) (resizedHeight * (float) originalWidth / (float) originalHeight);
    } else if (originalWidth > originalHeight) {
        resizedWidth = maxDimension;
        resizedHeight = (int) (resizedWidth * (float) originalHeight / (float) originalWidth);
    } else if (originalHeight == originalWidth) {
        resizedHeight = maxDimension;
        resizedWidth = maxDimension;
    }
    return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false);
}

Kotlin

// Scale down bitmap size
bitmap = scaleBitmapDown(bitmap, 640)

Java

// Scale down bitmap size
bitmap = scaleBitmapDown(bitmap, 640);

Konwertowanie obiektu bitmapy na ciąg znaków zakodowany w formacie Base64:

Kotlin

// Convert bitmap to base64 encoded string
val byteArrayOutputStream = ByteArrayOutputStream()
bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream)
val imageBytes: ByteArray = byteArrayOutputStream.toByteArray()
val base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP)

Java

// Convert bitmap to base64 encoded string
ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();
bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream);
byte[] imageBytes = byteArrayOutputStream.toByteArray();
String base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP);

Bitmap

2. Wywołanie funkcji callable do rozpoznawania tekstu

Aby rozpoznać tekst na obrazie, wywołaj funkcję wywoływalna, przekazując żądanie Cloud Vision w formacie JSON.

Najpierw zainicjuj wystąpienie Cloud Functions:

Kotlin

private lateinit var functions: FirebaseFunctions
// ...
functions = Firebase.functions

Java

private FirebaseFunctions mFunctions;
// ...
mFunctions = FirebaseFunctions.getInstance();

Zdefiniuj metodę wywołania funkcji:

Kotlin

private fun annotateImage(requestJson: String): Task<JsonElement> {
    return functions
        .getHttpsCallable("annotateImage")
        .call(requestJson)
        .continueWith { task ->
            // This continuation runs on either success or failure, but if the task
            // has failed then result will throw an Exception which will be
            // propagated down.
            val result = task.result?.data
            JsonParser.parseString(Gson().toJson(result))
        }
}

Java

private Task<JsonElement> annotateImage(String requestJson) {
    return mFunctions
            .getHttpsCallable("annotateImage")
            .call(requestJson)
            .continueWith(new Continuation<HttpsCallableResult, JsonElement>() {
                @Override
                public JsonElement then(@NonNull Task<HttpsCallableResult> task) {
                    // This continuation runs on either success or failure, but if the task
                    // has failed then getResult() will throw an Exception which will be
                    // propagated down.
                    return JsonParser.parseString(new Gson().toJson(task.getResult().getData()));
                }
            });
}

Utwórz żądanie w formacie JSON. Interfejs Cloud Vision API obsługuje 2 typy wykrywania tekstu: TEXT_DETECTION i DOCUMENT_TEXT_DETECTION. Aby poznać różnice między tymi dwoma zastosowaniami, zapoznaj się z dokumentacją OCR Cloud Vision.

Kotlin

// Create json request to cloud vision
val request = JsonObject()
// Add image to request
val image = JsonObject()
image.add("content", JsonPrimitive(base64encoded))
request.add("image", image)
// Add features to the request
val feature = JsonObject()
feature.add("type", JsonPrimitive("TEXT_DETECTION"))
// Alternatively, for DOCUMENT_TEXT_DETECTION:
// feature.add("type", JsonPrimitive("DOCUMENT_TEXT_DETECTION"))
val features = JsonArray()
features.add(feature)
request.add("features", features)

Java

// Create json request to cloud vision
JsonObject request = new JsonObject();
// Add image to request
JsonObject image = new JsonObject();
image.add("content", new JsonPrimitive(base64encoded));
request.add("image", image);
//Add features to the request
JsonObject feature = new JsonObject();
feature.add("type", new JsonPrimitive("TEXT_DETECTION"));
// Alternatively, for DOCUMENT_TEXT_DETECTION:
//feature.add("type", new JsonPrimitive("DOCUMENT_TEXT_DETECTION"));
JsonArray features = new JsonArray();
features.add(feature);
request.add("features", features);

Opcjonalnie podaj wskazówki dotyczące języka, aby ułatwić wykrywanie języka (patrz obsługiwane języki):

Kotlin

val imageContext = JsonObject()
val languageHints = JsonArray()
languageHints.add("en")
imageContext.add("languageHints", languageHints)
request.add("imageContext", imageContext)

Java

JsonObject imageContext = new JsonObject();
JsonArray languageHints = new JsonArray();
languageHints.add("en");
imageContext.add("languageHints", languageHints);
request.add("imageContext", imageContext);

Na koniec wywołaj funkcję:

Kotlin

annotateImage(request.toString())
    .addOnCompleteListener { task ->
        if (!task.isSuccessful) {
            // Task failed with an exception
            // ...
        } else {
            // Task completed successfully
            // ...
        }
    }

Java

annotateImage(request.toString())
        .addOnCompleteListener(new OnCompleteListener<JsonElement>() {
            @Override
            public void onComplete(@NonNull Task<JsonElement> task) {
                if (!task.isSuccessful()) {
                    // Task failed with an exception
                    // ...
                } else {
                    // Task completed successfully
                    // ...
                }
            }
        });

3. Wyodrębnianie tekstu z bloków rozpoznanego tekstu

Jeśli operacja rozpoznawania tekstu się powiedzie, w wyniku zadania zostanie zwrócona odpowiedź JSON BatchAnnotateImagesResponse. Adnotacje tekstowe znajdziesz w obiekcie fullTextAnnotation.

Rozpoznany tekst jest dostępny jako ciąg znaków w polu text. Przykład:

Kotlin

val annotation = task.result!!.asJsonArray[0].asJsonObject["fullTextAnnotation"].asJsonObject
System.out.format("%nComplete annotation:")
System.out.format("%n%s", annotation["text"].asString)

Java

JsonObject annotation = task.getResult().getAsJsonArray().get(0).getAsJsonObject().get("fullTextAnnotation").getAsJsonObject();
System.out.format("%nComplete annotation:%n");
System.out.format("%s%n", annotation.get("text").getAsString());

Możesz też uzyskać informacje dotyczące konkretnych obszarów obrazu. W przypadku każdego pola block, paragraph, word i symbol możesz uzyskać tekst rozpoznany w regionie oraz współrzędne graniczne tego regionu. Przykład:

Kotlin

for (page in annotation["pages"].asJsonArray) {
    var pageText = ""
    for (block in page.asJsonObject["blocks"].asJsonArray) {
        var blockText = ""
        for (para in block.asJsonObject["paragraphs"].asJsonArray) {
            var paraText = ""
            for (word in para.asJsonObject["words"].asJsonArray) {
                var wordText = ""
                for (symbol in word.asJsonObject["symbols"].asJsonArray) {
                    wordText += symbol.asJsonObject["text"].asString
                    System.out.format(
                        "Symbol text: %s (confidence: %f)%n",
                        symbol.asJsonObject["text"].asString,
                        symbol.asJsonObject["confidence"].asFloat,
                    )
                }
                System.out.format(
                    "Word text: %s (confidence: %f)%n%n",
                    wordText,
                    word.asJsonObject["confidence"].asFloat,
                )
                System.out.format("Word bounding box: %s%n", word.asJsonObject["boundingBox"])
                paraText = String.format("%s%s ", paraText, wordText)
            }
            System.out.format("%nParagraph: %n%s%n", paraText)
            System.out.format("Paragraph bounding box: %s%n", para.asJsonObject["boundingBox"])
            System.out.format("Paragraph Confidence: %f%n", para.asJsonObject["confidence"].asFloat)
            blockText += paraText
        }
        pageText += blockText
    }
}

Java

for (JsonElement page : annotation.get("pages").getAsJsonArray()) {
    StringBuilder pageText = new StringBuilder();
    for (JsonElement block : page.getAsJsonObject().get("blocks").getAsJsonArray()) {
        StringBuilder blockText = new StringBuilder();
        for (JsonElement para : block.getAsJsonObject().get("paragraphs").getAsJsonArray()) {
            StringBuilder paraText = new StringBuilder();
            for (JsonElement word : para.getAsJsonObject().get("words").getAsJsonArray()) {
                StringBuilder wordText = new StringBuilder();
                for (JsonElement symbol : word.getAsJsonObject().get("symbols").getAsJsonArray()) {
                    wordText.append(symbol.getAsJsonObject().get("text").getAsString());
                    System.out.format("Symbol text: %s (confidence: %f)%n", symbol.getAsJsonObject().get("text").getAsString(), symbol.getAsJsonObject().get("confidence").getAsFloat());
                }
                System.out.format("Word text: %s (confidence: %f)%n%n", wordText.toString(), word.getAsJsonObject().get("confidence").getAsFloat());
                System.out.format("Word bounding box: %s%n", word.getAsJsonObject().get("boundingBox"));
                paraText.append(wordText.toString()).append(" ");
            }
            System.out.format("%nParagraph:%n%s%n", paraText);
            System.out.format("Paragraph bounding box: %s%n", para.getAsJsonObject().get("boundingBox"));
            System.out.format("Paragraph Confidence: %f%n", para.getAsJsonObject().get("confidence").getAsFloat());
            blockText.append(paraText);
        }
        pageText.append(blockText);
    }
}