Форма данных Google Vision OCR

Я изучаю API Google Vision для распознавания текста. У нас есть множество форм, которые создаются и заполняются пользователями на компьютере. Как медицинские отчеты и регистрационные формы. Нам нужно обработать эти изображения и извлечь из них персонажа. Я пробовал Google Vision API, и он отлично работает в случае компьютерной формы, но те, которые заполняются вручную, создают проблемы. Like Если заполнить форму данными немного выше оси y, слова будут считаться предыдущей / следующей строкой. Как показано ниже, результат

Study Contact Name:
Test

ожидал

Study Contact Name: Test

Используемая форма

Ссылка на код: https://cloud.google.com/vision/docs/detecting-text#vision-text-detection-java

Есть ли способ записать это в одну строку или понять, является ли это частью этой строки?

Любой другой API, который может помочь в этом сценарии?


person Lother    schedule 14.09.2018    source источник


Ответы (2)


«Любой другой API, который может помочь в этом сценарии», если вы имеете в виду OCR API, я не думаю, что какой-либо из них хорошо работает с рукописным документом или, по крайней мере, не намного лучше, чем Google.

В любом случае, возможный метод, который я использую лично, - это создать свой собственный метод, чтобы воздействовать на строку с буквами / словами.

Таким образом, вы можете контролировать, какое расстояние можно рассматривать как одну и ту же «черту» между словами.

Google API предоставляет информацию о координатах X и Y для каждой распознанной буквы. Таким образом, вы можете просто перебирать все буквы или слова и включать их в одну строку, если они находятся на> = или ‹= (например, 2 пикселя) позиции Y.

person Lethos    schedule 14.09.2018

Я, наверное, слишком поздно для вас, но, поскольку я пришел с аналогичным вопросом, я поделюсь тем, что нашел:

  1. API Google стал намного лучше, теперь он распознает рукописные формы. По крайней мере, в моих тестах он работает нормально: Google Vision API. Проблема заключается в определении структуры формы. Я не знаю, как указать API Google искать таблицу или искать определенные поля.
  2. Я нашел многообещающую услугу, которая может вас заинтересовать: Распознаватель форм Azure
person jabellcu    schedule 11.05.2021