จดจำข้อความในรูปภาพด้วย ML Kit บน iOS

หน้านี้อธิบาย Text Recognition APIเวอร์ชันเก่า ซึ่งเป็นส่วนหนึ่งของ ML Kit สำหรับ Firebase เราได้แยกฟังก์ชันการทำงานของ API นี้ออกเป็น API ใหม่ 2 รายการ (ดูข้อมูลเพิ่มเติม)

บนอุปกรณ์ text recognition เป็นส่วนหนึ่งของ ML Kit SDK ใหม่แบบสแตนด์อโลน ซึ่งคุณใช้ได้ทั้งแบบมีและไม่มี Firebase
Cloud text recognition เป็นส่วนหนึ่งของ Firebase ML ซึ่งรวมถึงฟีเจอร์ ML บนระบบคลาวด์ทั้งหมดของ Firebase

คุณใช้ ML Kit เพื่อจดจำข้อความในรูปภาพได้ ML Kit มีทั้ง API อเนกประสงค์ที่เหมาะสำหรับการจดจำข้อความในรูปภาพ เช่น ข้อความของป้ายถนน และ API ที่เพิ่มประสิทธิภาพสำหรับการจดจำข้อความของ เอกสาร API แบบอเนกประสงค์มีทั้งโมเดลบนอุปกรณ์และโมเดลในระบบคลาวด์ การจดจำข้อความในเอกสารใช้ได้เฉพาะในรูปแบบโมเดลบนระบบคลาวด์เท่านั้น ดูการเปรียบเทียบโมเดลในระบบคลาวด์และในอุปกรณ์ได้ที่ภาพรวม

ก่อนเริ่มต้น

หากยังไม่ได้เพิ่ม Firebase ลงในแอป ให้เพิ่มโดยทำตาม ขั้นตอนในคู่มือเริ่มต้นใช้งาน
ใส่ไลบรารี ML Kit ใน Podfile ดังนี้
```
pod 'Firebase/MLVision', '6.25.0'
# If using an on-device API:
pod 'Firebase/MLVisionTextModel', '6.25.0'
```
หลังจากติดตั้งหรืออัปเดต Pod ของโปรเจ็กต์แล้ว อย่าลืมเปิดโปรเจ็กต์ Xcode โดยใช้ .xcworkspace
ในแอป ให้นำเข้า Firebase ดังนี้
Swift
```
import Firebase
```
Objective-C
```
@import Firebase;
```
หากต้องการใช้โมเดลที่อิงตามระบบคลาวด์และยังไม่ได้เปิดใช้ API ที่อิงตามระบบคลาวด์สำหรับโปรเจ็กต์ ให้ทำดังนี้
1. เปิดหน้า API ของ ML KitในFirebaseคอนโซล
2. หากยังไม่ได้อัปเกรดโปรเจ็กต์เป็นแพ็กเกจราคา Blaze ให้คลิกอัปเกรดเพื่อดำเนินการ (ระบบจะแจ้งให้คุณอัปเกรดก็ต่อเมื่อโปรเจ็กต์ไม่ได้ใช้แพ็กเกจ Blaze)
  
  เฉพาะโปรเจ็กต์ระดับ Blaze เท่านั้นที่ใช้ API บนระบบคลาวด์ได้
3. หากยังไม่ได้เปิดใช้ API บนระบบคลาวด์ ให้คลิกเปิดใช้ API บนระบบคลาวด์
ก่อนที่จะติดตั้งใช้งานแอปที่ใช้ Cloud API ในสภาพแวดล้อมการผลิต คุณควรทำตาม ขั้นตอนเพิ่มเติมเพื่อป้องกันและลดผลกระทบจากการเข้าถึง API ที่ไม่ได้รับอนุญาต

หากต้องการใช้เฉพาะโมเดลในอุปกรณ์ ให้ข้ามขั้นตอนนี้

ตอนนี้คุณพร้อมที่จะเริ่มจดจำข้อความในรูปภาพแล้ว

หลักเกณฑ์เกี่ยวกับรูปภาพที่ป้อน

รูปภาพอินพุตต้องมีข้อความที่แสดงโดยข้อมูลพิกเซลที่เพียงพอเพื่อให้ ML Kit จดจำข้อความได้อย่างถูกต้อง ข้อความละติน แต่ละอักขระควรมีขนาดอย่างน้อย 16x16 พิกเซล สำหรับข้อความภาษาจีน ญี่ปุ่น และเกาหลี (เฉพาะ API บนระบบคลาวด์เท่านั้นที่รองรับ) อักขระแต่ละตัว ควรมีขนาด 24x24 พิกเซล โดยทั่วไปแล้ว สำหรับทุกภาษา การมีอักขระขนาดใหญ่กว่า 24x24 พิกเซล ไม่ได้ช่วยเพิ่มความแม่นยำ

เช่น รูปภาพขนาด 640x480 อาจเหมาะกับการสแกนนามบัตร ที่กินพื้นที่ความกว้างทั้งหมดของรูปภาพ หากต้องการสแกนเอกสารที่พิมพ์บน กระดาษขนาด Letter คุณอาจต้องใช้รูปภาพขนาด 720x1280 พิกเซล
โฟกัสของรูปภาพไม่ดีอาจส่งผลต่อความถูกต้องของการจดจำข้อความ หากคุณไม่ได้รับผลลัพธ์ที่ยอมรับได้ ให้ลองขอให้ผู้ใช้ถ่ายภาพใหม่
หากคุณกำลังจดจำข้อความในแอปพลิเคชันแบบเรียลไทม์ คุณอาจต้องพิจารณาขนาดโดยรวมของรูปภาพอินพุตด้วย รูปภาพขนาดเล็กจะประมวลผลได้เร็วกว่า ดังนั้นเพื่อลดเวลาในการตอบสนอง ให้ถ่ายภาพที่ความละเอียดต่ำกว่า (โดยคำนึงถึงข้อกำหนดด้านความแม่นยำข้างต้น) และตรวจสอบว่าข้อความครอบคลุมพื้นที่ในรูปภาพมากที่สุด ดูเพิ่มเติมได้ที่ เคล็ดลับในการปรับปรุงประสิทธิภาพแบบเรียลไทม์

การรู้จำข้อความในรูปภาพ

หากต้องการจดจำข้อความในรูปภาพโดยใช้โมเดลในอุปกรณ์หรือโมเดลบนคลาวด์ ให้เรียกใช้ตัวจดจำข้อความตามที่อธิบายไว้ด้านล่าง

1. เรียกใช้โปรแกรมจดจำข้อความ

ส่งรูปภาพเป็น `UIImage` หรือ `CMSampleBufferRef` ไปยังเมธอด `process(_:completion:)` ของ `VisionTextRecognizer`

รับอินสแตนซ์ของ VisionTextRecognizer โดยการเรียกใช้ onDeviceTextRecognizer หรือ cloudTextRecognizer
Swift

วิธีใช้โมเดลในอุปกรณ์
```
let vision = Vision.vision()
let textRecognizer = vision.onDeviceTextRecognizer()
```
วิธีใช้โมเดลระบบคลาวด์

การใช้ ML Kit เพื่อเข้าถึงฟังก์ชันการทำงานของ Cloud ML จะขึ้นอยู่กับ ข้อตกลง ใบอนุญาตของ Google Cloud Platform และข้อกำหนดเฉพาะ บริการ และจะมีการเรียกเก็บเงินตามนั้น ดูข้อมูลการเรียกเก็บเงินได้ที่หน้าราคาของ Firebase
```
let vision = Vision.vision()
let textRecognizer = vision.cloudTextRecognizer()

// Or, to provide language hints to assist with language detection:
// See https://cloud.google.com/vision/docs/languages for supported languages
let options = VisionCloudTextRecognizerOptions()
options.languageHints = ["en", "hi"]
let textRecognizer = vision.cloudTextRecognizer(options: options)
```
Objective-C

วิธีใช้โมเดลในอุปกรณ์
```
FIRVision *vision = [FIRVision vision];
FIRVisionTextRecognizer *textRecognizer = [vision onDeviceTextRecognizer];
```
วิธีใช้โมเดลระบบคลาวด์

การใช้ ML Kit เพื่อเข้าถึงฟังก์ชันการทำงานของ Cloud ML จะขึ้นอยู่กับ ข้อตกลง ใบอนุญาตของ Google Cloud Platform และข้อกำหนดเฉพาะ บริการ และจะมีการเรียกเก็บเงินตามนั้น ดูข้อมูลการเรียกเก็บเงินได้ที่หน้าราคาของ Firebase
```
FIRVision *vision = [FIRVision vision];
FIRVisionTextRecognizer *textRecognizer = [vision cloudTextRecognizer];

// Or, to provide language hints to assist with language detection:
// See https://cloud.google.com/vision/docs/languages for supported languages
FIRVisionCloudTextRecognizerOptions *options =
        [[FIRVisionCloudTextRecognizerOptions alloc] init];
options.languageHints = @[@"en", @"hi"];
FIRVisionTextRecognizer *textRecognizer = [vision cloudTextRecognizerWithOptions:options];
```

สร้างออบเจ็กต์ VisionImage โดยใช้ UIImage หรือ CMSampleBufferRef

วิธีใช้ UIImage

หากจำเป็น ให้หมุนรูปภาพเพื่อให้พร็อพเพอร์ตี้ imageOrientation เป็น .up
สร้างออบเจ็กต์ VisionImage โดยใช้ UIImageที่หมุนอย่างถูกต้อง ห้ามระบุข้อมูลเมตาการหมุนใดๆ แต่ต้องใช้ค่าเริ่มต้น .topLeft
Swift
```
let image = VisionImage(image: uiImage)
```
Objective-C
```
FIRVisionImage *image = [[FIRVisionImage alloc] initWithImage:uiImage];
```

วิธีใช้ CMSampleBufferRef

สร้างออบเจ็กต์ VisionImageMetadata ที่ระบุ การวางแนวของข้อมูลรูปภาพที่อยู่ในบัฟเฟอร์ CMSampleBufferRef

วิธีดูการวางแนวรูปภาพ

Swift

func imageOrientation(
    deviceOrientation: UIDeviceOrientation,
    cameraPosition: AVCaptureDevice.Position
    ) -> VisionDetectorImageOrientation {
    switch deviceOrientation {
    case .portrait:
        return cameraPosition == .front ? .leftTop : .rightTop
    case .landscapeLeft:
        return cameraPosition == .front ? .bottomLeft : .topLeft
    case .portraitUpsideDown:
        return cameraPosition == .front ? .rightBottom : .leftBottom
    case .landscapeRight:
        return cameraPosition == .front ? .topRight : .bottomRight
    case .faceDown, .faceUp, .unknown:
        return .leftTop
    }
}

Objective-C

- (FIRVisionDetectorImageOrientation)
    imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
                           cameraPosition:(AVCaptureDevicePosition)cameraPosition {
  switch (deviceOrientation) {
    case UIDeviceOrientationPortrait:
      if (cameraPosition == AVCaptureDevicePositionFront) {
        return FIRVisionDetectorImageOrientationLeftTop;
      } else {
        return FIRVisionDetectorImageOrientationRightTop;
      }
    case UIDeviceOrientationLandscapeLeft:
      if (cameraPosition == AVCaptureDevicePositionFront) {
        return FIRVisionDetectorImageOrientationBottomLeft;
      } else {
        return FIRVisionDetectorImageOrientationTopLeft;
      }
    case UIDeviceOrientationPortraitUpsideDown:
      if (cameraPosition == AVCaptureDevicePositionFront) {
        return FIRVisionDetectorImageOrientationRightBottom;
      } else {
        return FIRVisionDetectorImageOrientationLeftBottom;
      }
    case UIDeviceOrientationLandscapeRight:
      if (cameraPosition == AVCaptureDevicePositionFront) {
        return FIRVisionDetectorImageOrientationTopRight;
      } else {
        return FIRVisionDetectorImageOrientationBottomRight;
      }
    default:
      return FIRVisionDetectorImageOrientationTopLeft;
  }
}

จากนั้นสร้างออบเจ็กต์ข้อมูลเมตา

Swift

let cameraPosition = AVCaptureDevice.Position.back  // Set to the capture device you used.
let metadata = VisionImageMetadata()
metadata.orientation = imageOrientation(
    deviceOrientation: UIDevice.current.orientation,
    cameraPosition: cameraPosition
)

Objective-C

FIRVisionImageMetadata *metadata = [[FIRVisionImageMetadata alloc] init];
AVCaptureDevicePosition cameraPosition =
    AVCaptureDevicePositionBack;  // Set to the capture device you used.
metadata.orientation =
    [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                 cameraPosition:cameraPosition];

สร้างVisionImageโดยใช้ CMSampleBufferRefและข้อมูลเมตาการหมุน

Swift

let image = VisionImage(buffer: sampleBuffer)
image.metadata = metadata

Objective-C

FIRVisionImage *image = [[FIRVisionImage alloc] initWithBuffer:sampleBuffer];
image.metadata = metadata;

จากนั้นส่งรูปภาพไปยังเมธอด process(_:completion:) ดังนี้

Swift

textRecognizer.process(visionImage) { result, error in
  guard error == nil, let result = result else {
    // ...
    return
  }

  // Recognized text
}

Objective-C

[textRecognizer processImage:image
                  completion:^(FIRVisionText *_Nullable result,
                               NSError *_Nullable error) {
  if (error != nil || result == nil) {
    // ...
    return;
  }

  // Recognized text
}];

2. แยกข้อความจากบล็อกข้อความที่ระบบจดจำ

หากการดำเนินการจดจำข้อความสำเร็จ ระบบจะแสดงออบเจ็กต์ [`VisionText`][VisionText] ออบเจ็กต์ `VisionText` มีข้อความทั้งหมด ที่ระบบจดจำในรูปภาพ และออบเจ็กต์ [`VisionTextBlock`][VisionTextBlock] ตั้งแต่ 0 รายการขึ้นไป `VisionTextBlock` แต่ละรายการแสดงถึงบล็อกข้อความสี่เหลี่ยมผืนผ้า ซึ่งมีออบเจ็กต์ [`VisionTextLine`][VisionTextLine] ตั้งแต่ 0 รายการขึ้นไป ออบเจ็กต์ `VisionTextLine` แต่ละรายการจะมีออบเจ็กต์ [`VisionTextElement`][VisionTextElement] ตั้งแต่ 0 รายการขึ้นไป ซึ่งแสดงถึงคำและเอนทิตีที่คล้ายคำ (วันที่ ตัวเลข และอื่นๆ) สำหรับออบเจ็กต์ `VisionTextBlock`, `VisionTextLine` และ `VisionTextElement` แต่ละรายการ คุณจะได้รับข้อความที่ระบบจดจำในภูมิภาคและพิกัดขอบเขตของ ภูมิภาค เช่น

Swift

let resultText = result.text
for block in result.blocks {
    let blockText = block.text
    let blockConfidence = block.confidence
    let blockLanguages = block.recognizedLanguages
    let blockCornerPoints = block.cornerPoints
    let blockFrame = block.frame
    for line in block.lines {
        let lineText = line.text
        let lineConfidence = line.confidence
        let lineLanguages = line.recognizedLanguages
        let lineCornerPoints = line.cornerPoints
        let lineFrame = line.frame
        for element in line.elements {
            let elementText = element.text
            let elementConfidence = element.confidence
            let elementLanguages = element.recognizedLanguages
            let elementCornerPoints = element.cornerPoints
            let elementFrame = element.frame
        }
    }
}

Objective-C

NSString *resultText = result.text;
for (FIRVisionTextBlock *block in result.blocks) {
  NSString *blockText = block.text;
  NSNumber *blockConfidence = block.confidence;
  NSArray<FIRVisionTextRecognizedLanguage *> *blockLanguages = block.recognizedLanguages;
  NSArray<NSValue *> *blockCornerPoints = block.cornerPoints;
  CGRect blockFrame = block.frame;
  for (FIRVisionTextLine *line in block.lines) {
    NSString *lineText = line.text;
    NSNumber *lineConfidence = line.confidence;
    NSArray<FIRVisionTextRecognizedLanguage *> *lineLanguages = line.recognizedLanguages;
    NSArray<NSValue *> *lineCornerPoints = line.cornerPoints;
    CGRect lineFrame = line.frame;
    for (FIRVisionTextElement *element in line.elements) {
      NSString *elementText = element.text;
      NSNumber *elementConfidence = element.confidence;
      NSArray<FIRVisionTextRecognizedLanguage *> *elementLanguages = element.recognizedLanguages;
      NSArray<NSValue *> *elementCornerPoints = element.cornerPoints;
      CGRect elementFrame = element.frame;
    }
  }
}

เคล็ดลับในการปรับปรุงประสิทธิภาพแบบเรียลไทม์

หากต้องการใช้โมเดลในอุปกรณ์เพื่อจดจำข้อความในแอปพลิเคชันแบบเรียลไทม์ ให้ทำตามหลักเกณฑ์เหล่านี้เพื่อให้ได้อัตราเฟรมที่ดีที่สุด

จำกัดการเรียกไปยังเครื่องมือจดจำข้อความ หากมีวิดีโอเฟรมใหม่พร้อมใช้งานขณะที่ตัวจดจำข้อความทำงาน ให้ทิ้งเฟรม
หากคุณใช้เอาต์พุตของตัวจดจำข้อความเพื่อซ้อนทับกราฟิกบน รูปภาพอินพุต ให้รับผลลัพธ์จาก ML Kit ก่อน จากนั้นจึงแสดงรูปภาพ และซ้อนทับในขั้นตอนเดียว การทำเช่นนี้จะทำให้คุณแสดงผลไปยังพื้นผิวการแสดงผล เพียงครั้งเดียวสำหรับแต่ละเฟรมอินพุต ดูตัวอย่างได้ที่คลาส previewOverlayView และ FIRDetectionOverlayView ในแอปตัวอย่าง Showcase
ลองถ่ายภาพที่ความละเอียดต่ำลง อย่างไรก็ตาม โปรดคำนึงถึง ข้อกำหนดด้านขนาดรูปภาพของ API นี้ด้วย

ขั้นตอนถัดไป

ก่อนที่จะนำแอปที่ใช้ Cloud API ไปใช้งานจริง คุณควรดำเนินการเพิ่มเติมเพื่อป้องกันและลดผลกระทบจากการเข้าถึง API ที่ไม่ได้รับอนุญาต

จดจำข้อความในรูปภาพของเอกสาร

หากต้องการจดจำข้อความในเอกสาร ให้กำหนดค่าและเรียกใช้เครื่องมือจดจำข้อความในเอกสารบนระบบคลาวด์ตามที่อธิบายไว้ด้านล่าง

API การจดจำข้อความในเอกสารที่อธิบายไว้ด้านล่างมีอินเทอร์เฟซที่ ออกแบบมาเพื่อให้ทำงานกับรูปภาพของเอกสารได้สะดวกยิ่งขึ้น อย่างไรก็ตาม หากต้องการใช้อินเทอร์เฟซที่ API ข้อความแบบกระจัดกระจายมีให้ คุณสามารถใช้แทนเพื่อสแกนเอกสารได้โดยกำหนดค่าเครื่องมือจดจำข้อความบนคลาวด์ให้ใช้โมเดลข้อความแบบหนาแน่น

วิธีใช้ API การจดจำข้อความในเอกสาร

1. เรียกใช้โปรแกรมจดจำข้อความ

ส่งรูปภาพเป็น UIImage หรือ CMSampleBufferRef ไปยังเมธอด VisionDocumentTextRecognizer ของ process(_:completion:)

รับอินสแตนซ์ของ VisionDocumentTextRecognizer โดยการเรียกใช้ cloudDocumentTextRecognizer:

Swift

let vision = Vision.vision()
let textRecognizer = vision.cloudDocumentTextRecognizer()

// Or, to provide language hints to assist with language detection:
// See https://cloud.google.com/vision/docs/languages for supported languages
let options = VisionCloudDocumentTextRecognizerOptions()
options.languageHints = ["en", "hi"]
let textRecognizer = vision.cloudDocumentTextRecognizer(options: options)

Objective-C

FIRVision *vision = [FIRVision vision];
FIRVisionDocumentTextRecognizer *textRecognizer = [vision cloudDocumentTextRecognizer];

// Or, to provide language hints to assist with language detection:
// See https://cloud.google.com/vision/docs/languages for supported languages
FIRVisionCloudDocumentTextRecognizerOptions *options =
        [[FIRVisionCloudDocumentTextRecognizerOptions alloc] init];
options.languageHints = @[@"en", @"hi"];
FIRVisionDocumentTextRecognizer *textRecognizer = [vision cloudDocumentTextRecognizerWithOptions:options];

สร้างออบเจ็กต์ VisionImage โดยใช้ UIImage หรือ CMSampleBufferRef

วิธีใช้ UIImage

หากจำเป็น ให้หมุนรูปภาพเพื่อให้พร็อพเพอร์ตี้ imageOrientation เป็น .up
สร้างออบเจ็กต์ VisionImage โดยใช้ UIImageที่หมุนอย่างถูกต้อง ห้ามระบุข้อมูลเมตาการหมุนใดๆ แต่ต้องใช้ค่าเริ่มต้น .topLeft
Swift
```
let image = VisionImage(image: uiImage)
```
Objective-C
```
FIRVisionImage *image = [[FIRVisionImage alloc] initWithImage:uiImage];
```

วิธีใช้ CMSampleBufferRef

วิธีดูการวางแนวรูปภาพ

Swift

func imageOrientation(
    deviceOrientation: UIDeviceOrientation,
    cameraPosition: AVCaptureDevice.Position
    ) -> VisionDetectorImageOrientation {
    switch deviceOrientation {
    case .portrait:
        return cameraPosition == .front ? .leftTop : .rightTop
    case .landscapeLeft:
        return cameraPosition == .front ? .bottomLeft : .topLeft
    case .portraitUpsideDown:
        return cameraPosition == .front ? .rightBottom : .leftBottom
    case .landscapeRight:
        return cameraPosition == .front ? .topRight : .bottomRight
    case .faceDown, .faceUp, .unknown:
        return .leftTop
    }
}

Objective-C

- (FIRVisionDetectorImageOrientation)
    imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
                           cameraPosition:(AVCaptureDevicePosition)cameraPosition {
  switch (deviceOrientation) {
    case UIDeviceOrientationPortrait:
      if (cameraPosition == AVCaptureDevicePositionFront) {
        return FIRVisionDetectorImageOrientationLeftTop;
      } else {
        return FIRVisionDetectorImageOrientationRightTop;
      }
    case UIDeviceOrientationLandscapeLeft:
      if (cameraPosition == AVCaptureDevicePositionFront) {
        return FIRVisionDetectorImageOrientationBottomLeft;
      } else {
        return FIRVisionDetectorImageOrientationTopLeft;
      }
    case UIDeviceOrientationPortraitUpsideDown:
      if (cameraPosition == AVCaptureDevicePositionFront) {
        return FIRVisionDetectorImageOrientationRightBottom;
      } else {
        return FIRVisionDetectorImageOrientationLeftBottom;
      }
    case UIDeviceOrientationLandscapeRight:
      if (cameraPosition == AVCaptureDevicePositionFront) {
        return FIRVisionDetectorImageOrientationTopRight;
      } else {
        return FIRVisionDetectorImageOrientationBottomRight;
      }
    default:
      return FIRVisionDetectorImageOrientationTopLeft;
  }
}

จากนั้นสร้างออบเจ็กต์ข้อมูลเมตา

Swift

let cameraPosition = AVCaptureDevice.Position.back  // Set to the capture device you used.
let metadata = VisionImageMetadata()
metadata.orientation = imageOrientation(
    deviceOrientation: UIDevice.current.orientation,
    cameraPosition: cameraPosition
)

Objective-C

FIRVisionImageMetadata *metadata = [[FIRVisionImageMetadata alloc] init];
AVCaptureDevicePosition cameraPosition =
    AVCaptureDevicePositionBack;  // Set to the capture device you used.
metadata.orientation =
    [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                 cameraPosition:cameraPosition];

สร้างVisionImageโดยใช้ CMSampleBufferRefและข้อมูลเมตาการหมุน

Swift

let image = VisionImage(buffer: sampleBuffer)
image.metadata = metadata

Objective-C

FIRVisionImage *image = [[FIRVisionImage alloc] initWithBuffer:sampleBuffer];
image.metadata = metadata;

จากนั้นส่งรูปภาพไปยังเมธอด process(_:completion:) ดังนี้

Swift

textRecognizer.process(visionImage) { result, error in
  guard error == nil, let result = result else {
    // ...
    return
  }

  // Recognized text
}

Objective-C

[textRecognizer processImage:image
                  completion:^(FIRVisionDocumentText *_Nullable result,
                               NSError *_Nullable error) {
  if (error != nil || result == nil) {
    // ...
    return;
  }

    // Recognized text
}];

2. แยกข้อความจากบล็อกข้อความที่ระบบจดจำ

หากการดำเนินการจดจำข้อความสำเร็จ ระบบจะแสดงออบเจ็กต์ VisionDocumentText ออบเจ็กต์ VisionDocumentText มีข้อความทั้งหมดที่ระบบจดจำในรูปภาพและลำดับชั้นของออบเจ็กต์ที่ แสดงโครงสร้างของเอกสารที่จดจำได้

สำหรับออบเจ็กต์ VisionDocumentTextBlock, VisionDocumentTextParagraph, VisionDocumentTextWord และ VisionDocumentTextSymbol แต่ละรายการ คุณจะรับข้อความที่ระบบจดจำในภูมิภาคและพิกัดขอบเขตของภูมิภาคได้

เช่น

Swift

let resultText = result.text
for block in result.blocks {
    let blockText = block.text
    let blockConfidence = block.confidence
    let blockRecognizedLanguages = block.recognizedLanguages
    let blockBreak = block.recognizedBreak
    let blockCornerPoints = block.cornerPoints
    let blockFrame = block.frame
    for paragraph in block.paragraphs {
        let paragraphText = paragraph.text
        let paragraphConfidence = paragraph.confidence
        let paragraphRecognizedLanguages = paragraph.recognizedLanguages
        let paragraphBreak = paragraph.recognizedBreak
        let paragraphCornerPoints = paragraph.cornerPoints
        let paragraphFrame = paragraph.frame
        for word in paragraph.words {
            let wordText = word.text
            let wordConfidence = word.confidence
            let wordRecognizedLanguages = word.recognizedLanguages
            let wordBreak = word.recognizedBreak
            let wordCornerPoints = word.cornerPoints
            let wordFrame = word.frame
            for symbol in word.symbols {
                let symbolText = symbol.text
                let symbolConfidence = symbol.confidence
                let symbolRecognizedLanguages = symbol.recognizedLanguages
                let symbolBreak = symbol.recognizedBreak
                let symbolCornerPoints = symbol.cornerPoints
                let symbolFrame = symbol.frame
            }
        }
    }
}

Objective-C

NSString *resultText = result.text;
for (FIRVisionDocumentTextBlock *block in result.blocks) {
  NSString *blockText = block.text;
  NSNumber *blockConfidence = block.confidence;
  NSArray<FIRVisionTextRecognizedLanguage *> *blockRecognizedLanguages = block.recognizedLanguages;
  FIRVisionTextRecognizedBreak *blockBreak = block.recognizedBreak;
  CGRect blockFrame = block.frame;
  for (FIRVisionDocumentTextParagraph *paragraph in block.paragraphs) {
    NSString *paragraphText = paragraph.text;
    NSNumber *paragraphConfidence = paragraph.confidence;
    NSArray<FIRVisionTextRecognizedLanguage *> *paragraphRecognizedLanguages = paragraph.recognizedLanguages;
    FIRVisionTextRecognizedBreak *paragraphBreak = paragraph.recognizedBreak;
    CGRect paragraphFrame = paragraph.frame;
    for (FIRVisionDocumentTextWord *word in paragraph.words) {
      NSString *wordText = word.text;
      NSNumber *wordConfidence = word.confidence;
      NSArray<FIRVisionTextRecognizedLanguage *> *wordRecognizedLanguages = word.recognizedLanguages;
      FIRVisionTextRecognizedBreak *wordBreak = word.recognizedBreak;
      CGRect wordFrame = word.frame;
      for (FIRVisionDocumentTextSymbol *symbol in word.symbols) {
        NSString *symbolText = symbol.text;
        NSNumber *symbolConfidence = symbol.confidence;
        NSArray<FIRVisionTextRecognizedLanguage *> *symbolRecognizedLanguages = symbol.recognizedLanguages;
        FIRVisionTextRecognizedBreak *symbolBreak = symbol.recognizedBreak;
        CGRect symbolFrame = symbol.frame;
      }
    }
  }
}

ขั้นตอนถัดไป

ก่อนที่จะนำแอปที่ใช้ Cloud API ไปใช้งานจริง คุณควรดำเนินการเพิ่มเติมเพื่อป้องกันและลดผลกระทบจากการเข้าถึง API ที่ไม่ได้รับอนุญาต