Formulir data OCR Google Vision

Saya sedang menjelajahi Google Vision API untuk OCR. Kami memiliki banyak formulir yang dibuat dan diisi oleh komputer oleh pengguna. Seperti Laporan Medis dan Formulir Pendaftaran. Kita perlu memproses gambar-gambar itu dan mengeluarkan karakter darinya. Saya sudah mencoba Google Vision API dan berfungsi dengan baik jika formulir dibuat oleh komputer, tetapi formulir yang diisi dengan tangan menimbulkan masalah. Seperti Jika mengisi formulir dengan data sedikit di atas sumbu y maka kata-katanya dianggap sebagai baris sebelumnya/berikutnya. Seperti di bawah ini adalah outputnya

Study Contact Name:
Test

mengharapkan

Study Contact Name: Test

Formulir yang digunakan

Referensi kode: https://cloud.google.com/vision/docs/detecting-text#vision-text-detection-java

Apakah ada cara untuk menempatkan ini dalam satu baris, atau memahami apakah itu bagian dari baris itu?

Adakah API lain yang dapat membantu dalam skenario ini?


person Lother    schedule 14.09.2018    source sumber


Jawaban (2)


"API lain apa pun yang dapat membantu dalam skenario ini", jika yang Anda maksud adalah API OCR, menurut saya tidak ada yang berkinerja baik dengan dokumen tulisan tangan, atau setidaknya tidak jauh lebih baik dari Google.

Bagaimanapun, metode yang mungkin, yang saya gunakan secara pribadi, adalah membuat metode Anda sendiri untuk memengaruhi baris ke huruf/kata.

Dengan cara ini, Anda dapat mengontrol seberapa jauh jarak yang dapat dianggap sebagai "garis" yang sama antar kata.

Google API memberi Anda informasi posisi X dan Y untuk setiap huruf yang dikenali. Jadi Anda cukup mengulangi semua huruf atau kata dan memasukkannya ke dalam baris yang sama jika >= atau ‹= hingga (misalnya 2 piksel) pada posisi Y.

person Lethos    schedule 14.09.2018

Saya mungkin terlambat untuk Anda, tetapi karena saya tiba di sini dengan pertanyaan serupa, saya akan membagikan apa yang saya temukan:

  1. API Google sekarang jauh lebih baik dalam mengenali formulir tulisan tangan. Setidaknya dalam pengujian saya, ini berfungsi dengan baik: Google Vision API. Masalahnya adalah mengidentifikasi struktur formulir. Saya tidak tahu bagaimana cara memberitahu API Google untuk mencari tabel, atau mencari bidang tertentu.
  2. Saya telah menemukan layanan menjanjikan yang mungkin juga Anda minati: Pengenal Azure Form
person jabellcu    schedule 11.05.2021