ฉันจะประมวลผลข้อความภาษาเปอร์เซียโดยใช้ Rapid Miner ได้อย่างไร

ฉันกำลังทำโครงการจำแนกประเภทเปอร์เซีย ข้อความเปอร์เซียมีความคล้ายคลึงกับข้อความภาษาอาหรับมาก เมื่อฉันใช้ Tokenize มันจะไม่แสดงคำใดๆ ในหน้ารายการคำศัพท์ และในหน้าชุดตัวอย่าง รูปภาพด้านล่างจะแสดง:

ฉันต้องจัดประเภทข้อความเปอร์เซียเป็นบางหมวดหมู่ แต่ฉันไม่รู้ว่าต้องทำอย่างไร

ฉันทำตามขั้นตอนบางอย่างเช่นนี้:

1- อ่านชุดข้อมูล Excel (โดยใช้ส่วนประกอบอ่าน Excel) ที่มี 2 คอลัมน์ => col1:persian Text,col2: หมวดหมู่

2- ฉันใช้ Set องค์ประกอบบทบาทเพื่อติดป้ายกำกับข้อมูล

3- ฉันใช้เอกสารกระบวนการจากองค์ประกอบข้อมูลที่มี :(โทเค็น (ด้วยโหมดใด ๆ ที่ไม่เปลี่ยนแปลงอะไรเลย) และโทเค็นตัวกรอง (นาที: 5, สูงสุด: 25) อยู่ข้างใน)

4- จากนั้นฉันใช้ Cross Validation Component เพื่อฝึกกับ SVM หรือ Basian และในโหมดทดสอบเพื่อให้ได้ประสิทธิภาพ

โปรแกรมทำงานอย่างถูกต้องและประสิทธิภาพก็ไม่แย่ เช่น ความแม่นยำ 50% แต่ฉันคิดว่างานของฉันผิด

ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม

mahdi moghimi 16.05.2018 แหล่งที่มา

คำตอบ (1)

arrow_upward
0
arrow_downward

ขั้นแรก ตรวจสอบให้แน่ใจว่าข้อมูลข้อความของคุณมี การเข้ารหัส UTF-8 และหากคุณใช้โทเค็นตัวกรอง (ตามความยาว) 5 นั้น มากเกินไป สำหรับความพยายามขั้นต่ำ 2 หรืออย่างน้อย 3 ตัว ฉันแนะนำให้ใช้ตัวดำเนินการ Filter Stopwords (พจนานุกรม) และพจนานุกรมควรมีคำหยุดภาษาเปอร์เซียในแต่ละบรรทัด หวังว่ามันจะช่วยคุณได้

negin zi 17.06.2018

ฉันจะประมวลผลข้อความภาษาเปอร์เซียโดยใช้ Rapid Miner ได้อย่างไร

คำตอบ (1)

คำถามในหัวข้อ