Я пытаюсь проанализировать кучу PDF-файлов, в которых есть часть того, что кажется текстом, но на самом деле это просто набор встроенных фигур, которые выглядят как текст, поэтому извлечение этого «текста» с помощью обычный объект PdfTextExtractor в iTextSharp невозможен.
Поскольку текст, который я пытаюсь извлечь, является одним из 10 возможных слов, вместо фактического «чтения» слова (или, скорее, «формы в форме слова»), я решил, что могу определить, что это за слово, сравнив это против других, которые я уже идентифицировал.
Мой первый вопрос: как мне добраться до этого раздела PDF? Как бы я использовал iText для анализа документа, чтобы перейти к этому объекту формы? Во всех моих документах этот раздел начинается с общего слова, поэтому я подумал, что могу использовать его в качестве ориентира, чтобы знать, когда я нахожусь в нужной области, но как мне вообще пройтись по всем формам документа?
Затем, как только я найду его, как мне идентифицировать конкретные формы (отрезки линий?) других слов, чтобы определить, на какие буквы я смотрю?
Чтобы проиллюстрировать проблему, вот сопоставимый сценарий. Раздел, который мне нужно проанализировать, представляет собой легенду карты, и это будет область PDF, которая выглядит следующим образом:
-- ЛЕГЕНДА --
- Дорога
- шоссе
- река
Если я нахожу фигуру, представляющую слово «ЛЕГЕНДА», я знаю, что нахожусь в нужной области, и тогда я могу попытаться определить, какие слова есть в легенде (поскольку это ограниченный список из примерно 10 слов). Но как мне это сделать?
Я использую .NET, поэтому мне подойдут любые образцы кода C# или VB.Net.