ฉันกำลังสำรวจ Google Vision API สำหรับ OCR เรามีแบบฟอร์มมากมายที่คอมพิวเตอร์สร้างและกรอกโดยผู้ใช้ เช่นเดียวกับรายงานทางการแพทย์และแบบฟอร์มลงทะเบียน เราจำเป็นต้องประมวลผลภาพเหล่านั้นและดึงตัวละครออกมา ฉันได้ลองใช้ Google Vision API แล้วและใช้งานได้ดีในกรณีที่คอมพิวเตอร์สร้างแบบฟอร์ม แต่แบบฟอร์มที่กรอกด้วยมือกำลังสร้างปัญหา เช่น หากกรอกแบบฟอร์มด้วยข้อมูลที่อยู่เหนือแกน y เล็กน้อย คำต่างๆ จะถือเป็นบรรทัดก่อนหน้า/ถัดไป เช่นเดียวกับด้านล่างคือผลลัพธ์
Study Contact Name:
Test
ที่คาดหวัง
Study Contact Name: Test
การอ้างอิงโค้ด: https://cloud.google.com/vision/docs/detecting-text#vision-text-detection-java
มีวิธีทำให้สิ่งนี้อยู่ในบรรทัดเดียวหรือเข้าใจว่ามันเป็นส่วนหนึ่งของบรรทัดนั้นหรือไม่?
API อื่นใดที่สามารถช่วยในสถานการณ์นี้ได้