ฉันจะประมวลผลข้อความภาษาเปอร์เซียโดยใช้ Rapid Miner ได้อย่างไร

ฉันกำลังทำโครงการจำแนกประเภทเปอร์เซีย ข้อความเปอร์เซียมีความคล้ายคลึงกับข้อความภาษาอาหรับมาก เมื่อฉันใช้ Tokenize มันจะไม่แสดงคำใดๆ ในหน้ารายการคำศัพท์ และในหน้าชุดตัวอย่าง รูปภาพด้านล่างจะแสดง:

ฉันต้องจัดประเภทข้อความเปอร์เซียเป็นบางหมวดหมู่ แต่ฉันไม่รู้ว่าต้องทำอย่างไร

ฉันทำตามขั้นตอนบางอย่างเช่นนี้:

1- อ่านชุดข้อมูล Excel (โดยใช้ส่วนประกอบอ่าน Excel) ที่มี 2 คอลัมน์ => col1:persian Text,col2: หมวดหมู่

2- ฉันใช้ Set องค์ประกอบบทบาทเพื่อติดป้ายกำกับข้อมูล

3- ฉันใช้เอกสารกระบวนการจากองค์ประกอบข้อมูลที่มี :(โทเค็น (ด้วยโหมดใด ๆ ที่ไม่เปลี่ยนแปลงอะไรเลย) และโทเค็นตัวกรอง (นาที: 5, สูงสุด: 25) อยู่ข้างใน)

4- จากนั้นฉันใช้ Cross Validation Component เพื่อฝึกกับ SVM หรือ Basian และในโหมดทดสอบเพื่อให้ได้ประสิทธิภาพ

โปรแกรมทำงานอย่างถูกต้องและประสิทธิภาพก็ไม่แย่ เช่น ความแม่นยำ 50% แต่ฉันคิดว่างานของฉันผิด

ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม


person mahdi moghimi    schedule 16.05.2018    source แหล่งที่มา


คำตอบ (1)


ขั้นแรก ตรวจสอบให้แน่ใจว่าข้อมูลข้อความของคุณมี การเข้ารหัส UTF-8 และหากคุณใช้โทเค็นตัวกรอง (ตามความยาว) 5 นั้น มากเกินไป สำหรับความพยายามขั้นต่ำ 2 หรืออย่างน้อย 3 ตัว ฉันแนะนำให้ใช้ตัวดำเนินการ Filter Stopwords (พจนานุกรม) และพจนานุกรมควรมีคำหยุดภาษาเปอร์เซียในแต่ละบรรทัด หวังว่ามันจะช่วยคุณได้

person negin zi    schedule 17.06.2018