Парсер визитных карточек. Как извлечь связанную информацию из распознанных текстов визитных карточек?

Я разработал приложение для iphone с функцией сканирования OCR. Используя Tesseract api, получил текст со снятого изображения. Но теперь мне нужно разделить каждый текст по имени, адресу, электронной почте, номеру телефона и т. д. Поскольку структура/формат визитной карточки не определена, ее немного сложно предположить.

Однако некоторые вещи предполагают, что 1) «@», содержащая строку, в основном будет идентификатором электронной почты. 2) все цифры в фигурных скобках или знак + в основном будут номером телефона.. но все же есть много и много возможностей.


person Matrix    schedule 06.04.2012    source источник
comment
Используя g8Tesseract, получил текст с изображения. Но как я могу отделить каждое текстовое имя, адрес и обозначение. Какой процесс они использовали для camcard, bizcamcard или любого другого приложения, доступного в магазине приложений? Я пробовал много для R & D, но бесполезно.   -  person Sujatha Girijala    schedule 04.01.2017


Ответы (2)


Вам понадобится помощь NSLinguisticTagger class .. Это ваш лучший выбор, иначе вам придется создать аналогичную логику для каждой части, как вы указали выше.

person Ankit Srivastava    schedule 06.04.2012
comment
+1 за этот класс, тоже сегодня узнал кое-что новое :) Плохо вопрошающему доступно только с 5.0 - person MrTJ; 06.04.2012
comment
хорошо, похоже, мне нужно написать собственную логику для извлечения информации из распознанного текста визитной карточки, но есть ли какие-либо спецификации относительно формата визитной карточки (типа RFC...)??? - person Matrix; 06.04.2012
comment
Я не знаю каких-либо конкретных форматов визитных карточек, но я думаю, что могу посоветовать вам попробовать включить сканер QRCode в ваше приложение, потому что в наши дни большинство карточек содержат QRCodes на них. - person Ankit Srivastava; 06.04.2012
comment
@Matrix из любопытства... в какой компании ты работаешь в Индии...? - person Ankit Srivastava; 06.04.2012
comment
@Matrix Я тоже выполняю ту же задачу. Как я могу найти имя, адрес и назначение. Есть ли какое-нибудь решение для этого? - person Sujatha Girijala; 04.01.2017

Вы можете проверить логику, которую мы использовали в этой библиотеке Javascript BCR, также основанной на tesseract (перенос в js).

https://github.com/syneo-tools-gmbh/Javascript-BCR-Library

person Renzo Sala    schedule 28.02.2019