Парсинг docx с кодировкой в ​​php

Итак, у меня есть файл docx, полный текста (только текст), и я хочу разобрать его очень специфическим образом. Имейте в виду, что в нем используются специальные символы сербской латыни, такие как ŠĐŽĆČ.

Вот что я пытаюсь сделать: 1) Возьмите каждое слово из текста, игнорируя однобуквенные слова 2) Если оно закодировано специальными символами (например, Čovek), сделайте две его версии, одну из которых будет «Čovek», а другую — «Covek». " (то есть один со специальными символами и один без) 3) Сохранить оба в таблице в соответствующем столбце (определяется первой буквой слова, поэтому C для Covek и Č для Čovek. Это только в том случае, если они еще не существуют, если они пропускают

Вот и все. Файлы существуют, структура таблиц существует, я просто понятия не имею, как их анализировать.

Спасибо!


person Predrag Beocanin    schedule 03.10.2013    source источник
comment
Возможный дубликат файла stackoverflow.com/questions/16105818 /, там предлагается несколько вариантов.   -  person Denis    schedule 03.10.2013
comment
Однако возможно, что кто-то рассматривает возможность разбора файла docx. Возможно, я не очень хорошо описал свою проблему, поэтому вот: 1) Я беру pdf и делаю OCR с помощью Abby FineReader, поэтому я могу получить любой вывод (doc, docs, txt) со специальными символами. 2) Я не умею разбирать текст слово за словом 3) Я не умею обращаться с кодировкой, создавать 2 слова из 1 где нужно 4) Я не умею вставлять их в соответствующую колонку в таблица 5) У меня есть идея, как проверить, существует ли уже слово Надеюсь, это помогло!   -  person Predrag Beocanin    schedule 04.10.2013