ฉันกำลังทำโครงการจำแนกประเภทเปอร์เซีย ข้อความเปอร์เซียมีความคล้ายคลึงกับข้อความภาษาอาหรับมาก เมื่อฉันใช้ Tokenize มันจะไม่แสดงคำใดๆ ในหน้ารายการคำศัพท์ และในหน้าชุดตัวอย่าง รูปภาพด้านล่างจะแสดง:
ฉันต้องจัดประเภทข้อความเปอร์เซียเป็นบางหมวดหมู่ แต่ฉันไม่รู้ว่าต้องทำอย่างไร
ฉันทำตามขั้นตอนบางอย่างเช่นนี้:
1- อ่านชุดข้อมูล Excel (โดยใช้ส่วนประกอบอ่าน Excel) ที่มี 2 คอลัมน์ => col1:persian Text,col2: หมวดหมู่
2- ฉันใช้ Set องค์ประกอบบทบาทเพื่อติดป้ายกำกับข้อมูล
3- ฉันใช้เอกสารกระบวนการจากองค์ประกอบข้อมูลที่มี :(โทเค็น (ด้วยโหมดใด ๆ ที่ไม่เปลี่ยนแปลงอะไรเลย) และโทเค็นตัวกรอง (นาที: 5, สูงสุด: 25) อยู่ข้างใน)
4- จากนั้นฉันใช้ Cross Validation Component เพื่อฝึกกับ SVM หรือ Basian และในโหมดทดสอบเพื่อให้ได้ประสิทธิภาพ
โปรแกรมทำงานอย่างถูกต้องและประสิทธิภาพก็ไม่แย่ เช่น ความแม่นยำ 50% แต่ฉันคิดว่างานของฉันผิด
ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม