Парсер визитных карточек. Как извлечь связанную информацию из распознанных текстов визитных карточек?

Я разработал приложение для iphone с функцией сканирования OCR. Используя Tesseract api, получил текст со снятого изображения. Но теперь мне нужно разделить каждый текст по имени, адресу, электронной почте, номеру телефона и т. д. Поскольку структура/формат визитной карточки не определена, ее немного сложно предположить.

Однако некоторые вещи предполагают, что 1) «@», содержащая строку, в основном будет идентификатором электронной почты. 2) все цифры в фигурных скобках или знак + в основном будут номером телефона.. но все же есть много и много возможностей.

ios iphone ios4

Matrix 06.04.2012 источник

comment

Используя g8Tesseract, получил текст с изображения. Но как я могу отделить каждое текстовое имя, адрес и обозначение. Какой процесс они использовали для camcard, bizcamcard или любого другого приложения, доступного в магазине приложений? Я пробовал много для R & D, но бесполезно. - Sujatha Girijala 04.01.2017

Ответы (2)

arrow_upward
4
arrow_downward

Вам понадобится помощь NSLinguisticTagger class .. Это ваш лучший выбор, иначе вам придется создать аналогичную логику для каждой части, как вы указали выше.

Ankit Srivastava 06.04.2012

comment

+1 за этот класс, тоже сегодня узнал кое-что новое :) Плохо вопрошающему доступно только с 5.0 - MrTJ; 06.04.2012

comment

хорошо, похоже, мне нужно написать собственную логику для извлечения информации из распознанного текста визитной карточки, но есть ли какие-либо спецификации относительно формата визитной карточки (типа RFC...)??? - Matrix; 06.04.2012

comment

Я не знаю каких-либо конкретных форматов визитных карточек, но я думаю, что могу посоветовать вам попробовать включить сканер QRCode в ваше приложение, потому что в наши дни большинство карточек содержат QRCodes на них. - Ankit Srivastava; 06.04.2012

comment

@Matrix из любопытства... в какой компании ты работаешь в Индии...? - Ankit Srivastava; 06.04.2012

comment

@Matrix Я тоже выполняю ту же задачу. Как я могу найти имя, адрес и назначение. Есть ли какое-нибудь решение для этого? - Sujatha Girijala; 04.01.2017

arrow_upward
0
arrow_downward

Вы можете проверить логику, которую мы использовали в этой библиотеке Javascript BCR, также основанной на tesseract (перенос в js).

https://github.com/syneo-tools-gmbh/Javascript-BCR-Library

Renzo Sala 28.02.2019

Парсер визитных карточек. Как извлечь связанную информацию из распознанных текстов визитных карточек?

Ответы (2)

Вопросы по теме