Публикации по теме 'text-processing'
Стемминг и лемматизация — НЛП
Стемминг
Стемминг — это процесс сокращения слов до тех пор, пока не будет достигнута основа/основное слово. Он обрезает буквы с конца. При поиске по определенному ключевому слову он возвращает определенные варианты слова из документа.
Например: при поиске по слову «лодка» возвращается лодка, канотье, лодка и т. д.
Здесь основой слова является лодка, и суффиксы удаляются до тех пор, пока не будет достигнута основа слова.
Существует 2 типа стеммеров:
Портер Стеммер Снежок..
Вопросы по теме 'text-processing'
Нечеткое регулярное выражение, обработка текста, лексический анализ?
Я не совсем уверен, какую терминологию искать, поэтому мой заголовок забавный... Вот рабочий процесс, который у меня есть:
Полуструктурированные документы сканируются в файл. Файлы распознаются как текст.
Текст преобразуется в объекты Python...
387 просмотров
schedule
30.10.2023
Python: PyEnchant и 64-битный Python
Я занимаюсь обработкой текста. Мне нужна библиотека PyEnchant для проверки того, является ли конкретное слово в тексте допустимым английским словом. Однако он доступен только для 32-битной установки Python. Мне нужен 64-битный Python для решения...
2787 просмотров
schedule
12.01.2024
Как я могу обрабатывать персидские тексты с помощью Rapid Miner?
Я работаю над проектом персидской классификации. Персидские тексты очень похожи на арабские тексты. когда я использую Tokenize, он не показывает ни одного слова на своей странице списка слов, а на странице набора примеров будет показано изображение...
109 просмотров
schedule
28.10.2023
как распечатать весь блок, если он содержит определенную строку с командой awk?
Я пытаюсь обработать сетевую информацию от lshw -c network с помощью команды awk
вывод выглядит так: -
*-network:3
description: Ethernet interface
product: I350 Gigabit Network Connection
vendor: Intel Corporation
physical id:...
93 просмотров
schedule
17.01.2024