Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Bezpieczne rozpoznawanie tekstu w obrazach dzięki Cloud Vision przy użyciu uwierzytelniania i funkcji Firebase na Androidzie

Aby wywołać interfejs Google Cloud API z poziomu aplikacji, musisz utworzyć pośredni interfejs REST API, który będzie obsługiwał autoryzację i chronił tajne wartości, takie jak klucze interfejsu API. Następnie musisz napisać kod w aplikacji mobilnej, aby uwierzytelnić się w tej usłudze pośredniej i komunikować się z nią.

Jednym ze sposobów utworzenia tego interfejsu REST API jest użycie uwierzytelniania Firebase i funkcji, które zapewniają zarządzaną, bezserwerową bramę do interfejsów Google Cloud API, która obsługuje uwierzytelnianie i może być wywoływana z aplikacji mobilnej za pomocą gotowych pakietów SDK.

Z tego przewodnika dowiesz się, jak używać tej techniki do wywoływania interfejsu Cloud Vision API z poziomu aplikacji. Ta metoda umożliwi wszystkim uwierzytelnionym użytkownikom dostęp do płatnych usług Cloud Vision za pomocą Twojego projektu w chmurze, więc zanim przejdziesz dalej, zastanów się, czy ten mechanizm uwierzytelniania jest wystarczający w Twoim przypadku.

Zanim zaczniesz

Skonfiguruj projekt

Dodaj Firebase do projektu aplikacji na Androida, jeśli nie korzystasz w nim jeszcze z tej usługi.
Jeśli nie masz jeszcze włączonych interfejsów API w chmurze w swoim projekcie, zrób to teraz:
1. W konsoli Firebase otwórz stronę Firebase ML APIs.
2. Jeśli nie masz jeszcze projektu w planie taryfowym Blaze z płatnością według zużycia, kliknij Upgrade (Uaktualnij). (Prośba o uaktualnienie pojawi się tylko wtedy, gdy Twój projekt nie jest objęty planem taryfowym Blaze).
  
  Tylko projekty objęte planem taryfowym Blaze mogą korzystać z interfejsów API w chmurze.
3. Jeśli interfejsy API w chmurze nie są jeszcze włączone, kliknij Enable Cloud-based APIs (Włącz interfejsy API w chmurze).
Skonfiguruj dotychczasowe klucze interfejsu Firebase API, aby uniemożliwić dostęp do interfejsu Cloud Vision API:
1. Otwórz stronę Dane logowania w konsoli Cloud.
2. W przypadku każdego klucza interfejsu API na liście otwórz widok edycji i w sekcji Ograniczenia klucza dodaj do listy wszystkie dostępne interfejsy API z wyjątkiem interfejsu Cloud Vision API.

Wdrażanie funkcji, którą można wywołać

Następnie wdróż funkcję w Cloud Functions, która będzie służyć jako pomost między Twoją aplikacją a interfejsem Cloud Vision API. W repozy0toryum functions-samples znajdziesz przykład , z którego możesz skorzystać.

Domyślnie dostęp do interfejsu Cloud Vision API za pomocą tej funkcji będzie możliwy tylko dla uwierzytelnionych użytkowników Twojej aplikacji. Możesz zmodyfikować funkcję, aby spełniała inne wymagania.

Aby wdrożyć funkcję:

Sklonuj lub pobierz repozytorium functions-samples i przejdź do katalogu Node-1st-gen/vision-annotate-image:
```
git clone https://github.com/firebase/functions-samples
cd Node-1st-gen/vision-annotate-image
```
Zainstaluj zależności:
```
cd functions
npm install
cd ..
```
Jeśli nie masz wiersza poleceń Firebase, zainstaluj go.
Zainicjuj projekt Firebase w vision-annotate-image katalogu. Gdy pojawi się taka prośba, wybierz projekt z listy.
```
firebase init
```

Wdróż funkcję:

firebase deploy --only functions:annotateImage

Dodawanie uwierzytelniania Firebase do aplikacji

Wdrożona powyżej funkcja, którą można wywołać, odrzuci każde żądanie od nieuwierzytelnionych użytkowników Twojej aplikacji. Jeśli jeszcze tego nie zrobisz, musisz dodać uwierzytelnianie Firebase do swojej aplikacji.

Dodawanie niezbędnych zależności do aplikacji

Dodaj zależności do bibliotek Cloud Functions for Firebase (klient) i gson na Androida do pliku Gradle na poziomie modułu (aplikacji) (zwykle <project>/<app-module>/build.gradle.kts lub <project>/<app-module>/build.gradle):

implementation("com.google.firebase:firebase-functions:22.1.1")
implementation("com.google.code.gson:gson:2.8.6")

Możesz teraz zacząć rozpoznawać tekst na obrazach.

1. Przygotowywanie obrazu wejściowego

Aby wywołać Cloud Vision, obraz musi być sformatowany jako ciąg tekstowy zakodowany w base64. Aby przetworzyć obraz z zapisanego identyfikatora URI pliku:

Pobierz obraz jako obiekt Bitmap:

Kotlin

var bitmap: Bitmap = MediaStore.Images.Media.getBitmap(contentResolver, uri)

Java

Bitmap bitmap = MediaStore.Images.Media.getBitmap(getContentResolver(), uri);

Opcjonalnie zmniejsz obraz, aby zaoszczędzić przepustowość. Zobacz zalecane rozmiary obrazów w Cloud Vision.

Kotlin

private fun scaleBitmapDown(bitmap: Bitmap, maxDimension: Int): Bitmap {
    val originalWidth = bitmap.width
    val originalHeight = bitmap.height
    var resizedWidth = maxDimension
    var resizedHeight = maxDimension
    if (originalHeight > originalWidth) {
        resizedHeight = maxDimension
        resizedWidth =
            (resizedHeight * originalWidth.toFloat() / originalHeight.toFloat()).toInt()
    } else if (originalWidth > originalHeight) {
        resizedWidth = maxDimension
        resizedHeight =
            (resizedWidth * originalHeight.toFloat() / originalWidth.toFloat()).toInt()
    } else if (originalHeight == originalWidth) {
        resizedHeight = maxDimension
        resizedWidth = maxDimension
    }
    return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false)
}

Java

private Bitmap scaleBitmapDown(Bitmap bitmap, int maxDimension) {
    int originalWidth = bitmap.getWidth();
    int originalHeight = bitmap.getHeight();
    int resizedWidth = maxDimension;
    int resizedHeight = maxDimension;

    if (originalHeight > originalWidth) {
        resizedHeight = maxDimension;
        resizedWidth = (int) (resizedHeight * (float) originalWidth / (float) originalHeight);
    } else if (originalWidth > originalHeight) {
        resizedWidth = maxDimension;
        resizedHeight = (int) (resizedWidth * (float) originalHeight / (float) originalWidth);
    } else if (originalHeight == originalWidth) {
        resizedHeight = maxDimension;
        resizedWidth = maxDimension;
    }
    return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false);
}

Kotlin

// Scale down bitmap size
bitmap = scaleBitmapDown(bitmap, 640)

Java

// Scale down bitmap size
bitmap = scaleBitmapDown(bitmap, 640);

Przekonwertuj obiekt bitmapy na ciąg tekstowy zakodowany w base64:

Kotlin

// Convert bitmap to base64 encoded string
val byteArrayOutputStream = ByteArrayOutputStream()
bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream)
val imageBytes: ByteArray = byteArrayOutputStream.toByteArray()
val base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP)

Java

// Convert bitmap to base64 encoded string
ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();
bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream);
byte[] imageBytes = byteArrayOutputStream.toByteArray();
String base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP);

Bitmap

2. Wywoływanie funkcji, którą można wywołać, w celu rozpoznania tekstu

Aby rozpoznać tekst na obrazie, wywołaj funkcję, którą można wywołać, przekazując a żądanie JSON Cloud Vision.

Najpierw zainicjuj instancję Cloud Functions:

Kotlin

private lateinit var functions: FirebaseFunctions
// ...
functions = Firebase.functions

Java

private FirebaseFunctions mFunctions;
// ...
mFunctions = FirebaseFunctions.getInstance();

Zdefiniuj metodę wywoływania funkcji:

Kotlin

private fun annotateImage(requestJson: String): Task<JsonElement> {
    return functions
        .getHttpsCallable("annotateImage")
        .call(requestJson)
        .continueWith { task ->
            // This continuation runs on either success or failure, but if the task
            // has failed then result will throw an Exception which will be
            // propagated down.
            val result = task.result?.data
            JsonParser.parseString(Gson().toJson(result))
        }
}

Java

private Task<JsonElement> annotateImage(String requestJson) {
    return mFunctions
            .getHttpsCallable("annotateImage")
            .call(requestJson)
            .continueWith(new Continuation<HttpsCallableResult, JsonElement>() {
                @Override
                public JsonElement then(@NonNull Task<HttpsCallableResult> task) {
                    // This continuation runs on either success or failure, but if the task
                    // has failed then getResult() will throw an Exception which will be
                    // propagated down.
                    return JsonParser.parseString(new Gson().toJson(task.getResult().getData()));
                }
            });
}

Utwórz żądanie JSON. Interfejs Cloud Vision API obsługuje 2 typy wykrywania tekstu: TEXT_DETECTION i DOCUMENT_TEXT_DETECTION. Różnice między tymi 2 przypadkami użycia znajdziesz w dokumentacji OCR Cloud Vision.

Kotlin

// Create json request to cloud vision
val request = JsonObject()
// Add image to request
val image = JsonObject()
image.add("content", JsonPrimitive(base64encoded))
request.add("image", image)
// Add features to the request
val feature = JsonObject()
feature.add("type", JsonPrimitive("TEXT_DETECTION"))
// Alternatively, for DOCUMENT_TEXT_DETECTION:
// feature.add("type", JsonPrimitive("DOCUMENT_TEXT_DETECTION"))
val features = JsonArray()
features.add(feature)
request.add("features", features)

Java

// Create json request to cloud vision
JsonObject request = new JsonObject();
// Add image to request
JsonObject image = new JsonObject();
image.add("content", new JsonPrimitive(base64encoded));
request.add("image", image);
//Add features to the request
JsonObject feature = new JsonObject();
feature.add("type", new JsonPrimitive("TEXT_DETECTION"));
// Alternatively, for DOCUMENT_TEXT_DETECTION:
//feature.add("type", new JsonPrimitive("DOCUMENT_TEXT_DETECTION"));
JsonArray features = new JsonArray();
features.add(feature);
request.add("features", features);

Opcjonalnie możesz podać wskazówki dotyczące języka aby ułatwić wykrywanie języka (zobacz obsługiwane języki):

Kotlin

val imageContext = JsonObject()
val languageHints = JsonArray()
languageHints.add("en")
imageContext.add("languageHints", languageHints)
request.add("imageContext", imageContext)

Java

JsonObject imageContext = new JsonObject();
JsonArray languageHints = new JsonArray();
languageHints.add("en");
imageContext.add("languageHints", languageHints);
request.add("imageContext", imageContext);

Na koniec wywołaj funkcję:

Kotlin

annotateImage(request.toString())
    .addOnCompleteListener { task ->
        if (!task.isSuccessful) {
            // Task failed with an exception
            // ...
        } else {
            // Task completed successfully
            // ...
        }
    }

Java

annotateImage(request.toString())
        .addOnCompleteListener(new OnCompleteListener<JsonElement>() {
            @Override
            public void onComplete(@NonNull Task<JsonElement> task) {
                if (!task.isSuccessful()) {
                    // Task failed with an exception
                    // ...
                } else {
                    // Task completed successfully
                    // ...
                }
            }
        });

3. Wyodrębnianie tekstu z bloków rozpoznanego tekstu

Jeśli operacja rozpoznawania tekstu się powiedzie, w wyniku zadania zostanie zwrócona odpowiedź JSON w formacie BatchAnnotateImagesResponse. Adnotacje tekstowe znajdziesz w obiekcie fullTextAnnotation.

Rozpoznany tekst możesz uzyskać jako ciąg tekstowy w polu text. Przykład:

Kotlin

val annotation = task.result!!.asJsonArray[0].asJsonObject["fullTextAnnotation"].asJsonObject
System.out.format("%nComplete annotation:")
System.out.format("%n%s", annotation["text"].asString)

Java

JsonObject annotation = task.getResult().getAsJsonArray().get(0).getAsJsonObject().get("fullTextAnnotation").getAsJsonObject();
System.out.format("%nComplete annotation:%n");
System.out.format("%s%n", annotation.get("text").getAsString());

Możesz też uzyskać informacje dotyczące konkretnych regionów obrazu. W przypadku każdego elementu block, paragraph, word i symbol możesz uzyskać tekst rozpoznany w regionie oraz współrzędne ograniczające region. Przykład:

Kotlin

for (page in annotation["pages"].asJsonArray) {
    var pageText = ""
    for (block in page.asJsonObject["blocks"].asJsonArray) {
        var blockText = ""
        for (para in block.asJsonObject["paragraphs"].asJsonArray) {
            var paraText = ""
            for (word in para.asJsonObject["words"].asJsonArray) {
                var wordText = ""
                for (symbol in word.asJsonObject["symbols"].asJsonArray) {
                    wordText += symbol.asJsonObject["text"].asString
                    System.out.format(
                        "Symbol text: %s (confidence: %f)%n",
                        symbol.asJsonObject["text"].asString,
                        symbol.asJsonObject["confidence"].asFloat,
                    )
                }
                System.out.format(
                    "Word text: %s (confidence: %f)%n%n",
                    wordText,
                    word.asJsonObject["confidence"].asFloat,
                )
                System.out.format("Word bounding box: %s%n", word.asJsonObject["boundingBox"])
                paraText = String.format("%s%s ", paraText, wordText)
            }
            System.out.format("%nParagraph: %n%s%n", paraText)
            System.out.format("Paragraph bounding box: %s%n", para.asJsonObject["boundingBox"])
            System.out.format("Paragraph Confidence: %f%n", para.asJsonObject["confidence"].asFloat)
            blockText += paraText
        }
        pageText += blockText
    }
}

Java

for (JsonElement page : annotation.get("pages").getAsJsonArray()) {
    StringBuilder pageText = new StringBuilder();
    for (JsonElement block : page.getAsJsonObject().get("blocks").getAsJsonArray()) {
        StringBuilder blockText = new StringBuilder();
        for (JsonElement para : block.getAsJsonObject().get("paragraphs").getAsJsonArray()) {
            StringBuilder paraText = new StringBuilder();
            for (JsonElement word : para.getAsJsonObject().get("words").getAsJsonArray()) {
                StringBuilder wordText = new StringBuilder();
                for (JsonElement symbol : word.getAsJsonObject().get("symbols").getAsJsonArray()) {
                    wordText.append(symbol.getAsJsonObject().get("text").getAsString());
                    System.out.format("Symbol text: %s (confidence: %f)%n", symbol.getAsJsonObject().get("text").getAsString(), symbol.getAsJsonObject().get("confidence").getAsFloat());
                }
                System.out.format("Word text: %s (confidence: %f)%n%n", wordText.toString(), word.getAsJsonObject().get("confidence").getAsFloat());
                System.out.format("Word bounding box: %s%n", word.getAsJsonObject().get("boundingBox"));
                paraText.append(wordText.toString()).append(" ");
            }
            System.out.format("%nParagraph:%n%s%n", paraText);
            System.out.format("Paragraph bounding box: %s%n", para.getAsJsonObject().get("boundingBox"));
            System.out.format("Paragraph Confidence: %f%n", para.getAsJsonObject().get("confidence").getAsFloat());
            blockText.append(paraText);
        }
        pageText.append(blockText);
    }
}

Bezpieczne rozpoznawanie tekstu w obrazach dzięki Cloud Vision przy użyciu uwierzytelniania i funkcji Firebase na Androidzie Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Zanim zaczniesz

Skonfiguruj projekt

Wdrażanie funkcji, którą można wywołać

Dodawanie uwierzytelniania Firebase do aplikacji

Dodawanie niezbędnych zależności do aplikacji

1. Przygotowywanie obrazu wejściowego

Kotlin

Java

Kotlin

Java

Kotlin

Java

Kotlin

Java

2. Wywoływanie funkcji, którą można wywołać, w celu rozpoznania tekstu

Kotlin

Java

Kotlin

Java

Kotlin

Java

Kotlin

Java

Kotlin

Java

3. Wyodrębnianie tekstu z bloków rozpoznanego tekstu

Kotlin

Java

Kotlin

Java

Bezpieczne rozpoznawanie tekstu w obrazach dzięki Cloud Vision przy użyciu uwierzytelniania i funkcji Firebase na Androidzie