Я работаю над проектом персидской классификации. Персидские тексты очень похожи на арабские тексты. когда я использую Tokenize, он не показывает ни одного слова на своей странице списка слов, а на странице набора примеров будет показано изображение ниже:
Мне нужно отнести персидский текст к какой-то категории, но я не знаю, как?.
Я выполняю следующие шаги:
1- Чтение набора данных Excel (с использованием компонента Read Excel) с 2 столбцами => col1: персидский текст, col2: категория
2- Я использую компонент «Установить роль» для маркировки данных.
3- Я использую компонент Process Documents from Data, содержащий: (Tokenize (с любым режимом, ничего не меняющим) и Filter Token (min: 5, max: 25) внутри него)
4- Затем я использую компонент перекрестной проверки для обучения с помощью SVM или Basian и в тестовом режиме, чтобы получить производительность.
Программа работает правильно, и производительность неплохая, например, точность составляет 50%, но я думаю, что моя работа неверна.
Любая помощь будет оценена по достоинству.