แบบฟอร์มข้อมูล Google Vision OCR

ฉันกำลังสำรวจ Google Vision API สำหรับ OCR เรามีแบบฟอร์มมากมายที่คอมพิวเตอร์สร้างและกรอกโดยผู้ใช้ เช่นเดียวกับรายงานทางการแพทย์และแบบฟอร์มลงทะเบียน เราจำเป็นต้องประมวลผลภาพเหล่านั้นและดึงตัวละครออกมา ฉันได้ลองใช้ Google Vision API แล้วและใช้งานได้ดีในกรณีที่คอมพิวเตอร์สร้างแบบฟอร์ม แต่แบบฟอร์มที่กรอกด้วยมือกำลังสร้างปัญหา เช่น หากกรอกแบบฟอร์มด้วยข้อมูลที่อยู่เหนือแกน y เล็กน้อย คำต่างๆ จะถือเป็นบรรทัดก่อนหน้า/ถัดไป เช่นเดียวกับด้านล่างคือผลลัพธ์

Study Contact Name:
Test

ที่คาดหวัง

Study Contact Name: Test

แบบฟอร์มที่ใช้

การอ้างอิงโค้ด: https://cloud.google.com/vision/docs/detecting-text#vision-text-detection-java

มีวิธีทำให้สิ่งนี้อยู่ในบรรทัดเดียวหรือเข้าใจว่ามันเป็นส่วนหนึ่งของบรรทัดนั้นหรือไม่?

API อื่นใดที่สามารถช่วยในสถานการณ์นี้ได้


person Lother    schedule 14.09.2018    source แหล่งที่มา


คำตอบ (2)


"API อื่นใดที่สามารถช่วยได้ในสถานการณ์นี้" หากคุณหมายถึง OCR API ฉันไม่คิดว่าจะมีสิ่งใดทำงานได้ดีกับเอกสารที่เขียนด้วยลายมือ หรืออย่างน้อยก็ไม่ดีไปกว่า Google อย่างมีนัยสำคัญ

อย่างไรก็ตาม วิธีที่เป็นไปได้ที่ฉันใช้เป็นการส่วนตัวคือสร้างวิธีการของคุณเองเพื่อให้ส่งผลต่อบรรทัดเป็นตัวอักษร/คำ

ด้วยวิธีนี้ คุณสามารถควบคุมระยะห่างที่ถือเป็น "เส้น" เส้นเดียวกันระหว่างคำได้

Google API ให้ข้อมูลตำแหน่ง X และ Y สำหรับตัวอักษรแต่ละตัวที่รู้จัก ดังนั้นคุณจึงสามารถวนซ้ำตัวอักษรหรือคำทั้งหมดและรวมไว้ในบรรทัดเดียวกันได้หาก >= หรือ ‹= ถึง (2 พิกเซลเป็นตัวอย่าง) ของตำแหน่ง Y

person Lethos    schedule 14.09.2018

ฉันอาจจะสายเกินไปสำหรับคุณ แต่เมื่อฉันมาที่นี่พร้อมกับคำถามที่คล้ายกัน ฉันจะแบ่งปันสิ่งที่ฉันได้พบ:

  1. API ของ Google ดีขึ้นมากในปัจจุบันในการจดจำแบบฟอร์มที่เขียนด้วยลายมือ อย่างน้อยในการทดสอบของฉัน มันทำงานได้ดี: Google Vision API ปัญหาคือการระบุโครงสร้างของแบบฟอร์ม ฉันไม่รู้วิธีบอก API ของ Google ให้ค้นหาตารางหรือค้นหาฟิลด์เฉพาะ
  2. ฉันพบบริการที่มีแนวโน้มดีที่คุณอาจสนใจ: ตัวจดจำฟอร์ม Azure
person jabellcu    schedule 11.05.2021