Как я могу обрабатывать персидские тексты с помощью Rapid Miner?

Я работаю над проектом персидской классификации. Персидские тексты очень похожи на арабские тексты. когда я использую Tokenize, он не показывает ни одного слова на своей странице списка слов, а на странице набора примеров будет показано изображение ниже:

Мне нужно отнести персидский текст к какой-то категории, но я не знаю, как?.

Я выполняю следующие шаги:

1- Чтение набора данных Excel (с использованием компонента Read Excel) с 2 столбцами => col1: персидский текст, col2: категория

2- Я использую компонент «Установить роль» для маркировки данных.

3- Я использую компонент Process Documents from Data, содержащий: (Tokenize (с любым режимом, ничего не меняющим) и Filter Token (min: 5, max: 25) внутри него)

4- Затем я использую компонент перекрестной проверки для обучения с помощью SVM или Basian и в тестовом режиме, чтобы получить производительность.

Программа работает правильно, и производительность неплохая, например, точность составляет 50%, но я думаю, что моя работа неверна.

Любая помощь будет оценена по достоинству.


person mahdi moghimi    schedule 16.05.2018    source источник


Ответы (1)


во-первых, убедитесь, что ваши текстовые данные имеют кодировку UTF-8 и если вы используете маркеры фильтра (по длине), 5 слишком много для минимальной попытки 2 или хотя бы 3, я рекомендую использовать оператор Фильтровать стоп-слова (словарь), и в словаре должны быть персидские стоп-слова в каждой строке, надеюсь, это поможет вам

person negin zi    schedule 17.06.2018