Bagaimana cara memproses teks Persia menggunakan Rapid Miner?

Saya sedang mengerjakan proyek klasifikasi Persia. Teks Persia sangat mirip dengan teks Arab. ketika saya menggunakan Tokenize, tidak muncul kata apa pun di halaman daftar kata dan di Halaman Kumpulan Contoh, Gambar di bawah ini akan ditampilkan:

Saya perlu mengklasifikasikan teks Persia ke beberapa kategori, tapi saya tidak tahu caranya?.

Saya Ikuti beberapa langkah seperti ini:

1- Baca kumpulan data Excel (menggunakan komponen Baca Excel) dengan 2 kolom => col1:Teks Persia, col2: Kategori

2- Saya menggunakan komponen Set role untuk memberi label pada data

3- Saya menggunakan Dokumen Proses dari komponen Data yang berisi :(Tokenize (dengan mode apa pun tidak mengubah apa pun) dan Filter Token (min:5,max:25) di dalamnya)

4- Kemudian saya menggunakan Komponen Validasi Silang untuk berlatih dengan SVM atau Basian dan dalam mode uji untuk mendapatkan kinerja.

Program berjalan dengan benar dan kinerjanya lumayan, misalnya akurasi 50% tetapi menurut saya pekerjaan saya Salah.

Bantuan apa pun akan dihargai.


person mahdi moghimi    schedule 16.05.2018    source sumber


Jawaban (1)


pertama, pastikan data teks Anda memiliki encoding UTF-8 dan jika Anda menggunakan token filter (menurut panjangnya) 5 terlalu banyak untuk percobaan minimum 2 atau setidaknya 3 juga, saya sarankan menggunakan operator Filter Stopwords (Kamus) dan kamus harus memiliki stopword Persia di setiap barisnya semoga dapat membantu Anda

person negin zi    schedule 17.06.2018