Итак, у меня есть файл docx, полный текста (только текст), и я хочу разобрать его очень специфическим образом. Имейте в виду, что в нем используются специальные символы сербской латыни, такие как ŠĐŽĆČ.
Вот что я пытаюсь сделать: 1) Возьмите каждое слово из текста, игнорируя однобуквенные слова 2) Если оно закодировано специальными символами (например, Čovek), сделайте две его версии, одну из которых будет «Čovek», а другую — «Covek». " (то есть один со специальными символами и один без) 3) Сохранить оба в таблице в соответствующем столбце (определяется первой буквой слова, поэтому C для Covek и Č для Čovek. Это только в том случае, если они еще не существуют, если они пропускают
Вот и все. Файлы существуют, структура таблиц существует, я просто понятия не имею, как их анализировать.
Спасибо!