เทคนิคการจัดประเภทข้อความสำหรับสถานการณ์นี้

ฉันยังใหม่กับอัลกอริธึม Machine Learning มากและมีคำถามสั้นๆ เกี่ยวกับการจำแนกชุดข้อมูล

ขณะนี้มีข้อมูลการฝึกอบรมที่ประกอบด้วยสองคอลัมน์ข้อความและตัวระบุ

ข้อความ - ข้อความทั่วไปที่ดึงมาจากบันทึกที่มีการประทับเวลาและตัวระบุข้อความบางส่วน - ควรจัดหมวดหมู่ตามเนื้อหาข้อความ

ข้อมูลการฝึกอบรมจัดทำขึ้นโดยการแยกหมวดหมู่เฉพาะออกจากเครื่องมือและติดป้ายกำกับตามนั้น

ตอนนี้ข้อมูลการทดสอบมีเพียงข้อความ และฉันกำลังพยายามรับหมวดหมู่ตามนั้น

แนวทางใดมีประโยชน์มากที่สุดในสถานการณ์นี้ มันเป็นการเรียนรู้แบบมีผู้ดูแลหรือแบบไม่มีผู้ดูแล?

ฉันมีชุดข้อมูลที่ได้รับการฝึกอบรมแล้ว และฉันกำลังพยายามคาดการณ์หมวดหมู่สำหรับข้อมูลการทดสอบ

ขอบคุณล่วงหน้าอดัม


person Community    schedule 30.08.2017    source แหล่งที่มา


คำตอบ (3)


หากป้ายกำกับของคุณตรงกันทุกประการ คุณสามารถจัดประเภทโดยใช้ ANN, SVM ฯลฯ ได้ แต่ป้ายกำกับไม่ตรงทั้งหมด คุณต้องจัดกลุ่มข้อมูลตามคุณลักษณะที่คุณมีในข้อมูล เคมีนหรือเพื่อนบ้านที่ใกล้ที่สุดอาจเป็นจุดเริ่มต้นสำหรับการรวมกลุ่ม

person Dr. X    schedule 30.08.2017
comment
ขอบคุณดร.กีก !! ตามความเข้าใจของฉันเนื่องจากนี่คือการเรียนรู้แบบไม่มีผู้ดูแล K หมายถึงหรือเพื่อนบ้านที่ใกล้ที่สุดคือสิ่งที่แนะนำมากกว่าการเรียนรู้แบบมีผู้สอนใช่ไหม ?? - person ; 30.08.2017
comment
ไม่ A) คุณอยู่ภายใต้การดูแล ไม่ใช่ไม่ได้รับการดูแล B) kmeans ไม่ได้รับการดูแล kNN อยู่ภายใต้การดูแล คุณกำลังปะปนกัน และ C) ต่างก็ไม่ใช่ผู้สมัครที่มีแนวโน้มดี พวกเขามีแนวโน้มที่จะทำงานได้ค่อนข้างแย่ - person Has QUIT--Anony-Mousse; 17.09.2017

เป็นการเรียนรู้แบบมีผู้สอนและเป็นปัญหาการจำแนกประเภท

อย่างไรก็ตาม เห็นได้ชัดว่าคุณไม่มีคอลัมน์ป้ายกำกับ (ค่าที่จะคาดการณ์) สำหรับชุดทดสอบของคุณ ดังนั้น คุณจึงไม่สามารถคำนวณการวัดค่าความผิดพลาดได้ (เช่น อัตราผลบวกลวง ความแม่นยำ ฯลฯ) สำหรับชุดทดสอบนั้น

อย่างไรก็ตาม คุณสามารถแบ่งชุดข้อมูลการฝึกที่มีป้ายกำกับที่คุณมีเป็นชุดการฝึกที่มีขนาดเล็กลงและชุดการตรวจสอบความถูกต้องได้ แบ่ง 70%/30% ก็ได้ จากนั้นสร้างแบบจำลองการคาดการณ์จากชุดข้อมูลการฝึก 70% ที่มีขนาดเล็กกว่าของคุณ จากนั้นปรับแต่งในชุดการตรวจสอบความถูกต้อง 30% ของคุณ เมื่อความแม่นยำดีเพียงพอ ให้นำไปใช้กับชุดทดสอบของคุณเพื่อรับ/ทำนายค่าที่หายไป

เทคนิค/อัลกอริธึมที่จะใช้เป็นคำถามที่แตกต่างกัน คุณให้ข้อมูลไม่เพียงพอที่จะตอบคำถามนั้น และแม้ว่าคุณจะทำแล้ว คุณก็ยังต้องปรับแต่งโมเดลด้วยตัวเอง

person knb    schedule 03.09.2017

คุณมีป้ายกำกับสำหรับคาดการณ์ และข้อมูลการฝึกอบรม

ดังนั้นตามคำจำกัดความแล้ว มันเป็นปัญหาที่ได้รับการดูแล

ลองใช้ตัวแยกประเภทสำหรับข้อความ เช่น NB, kNN, SVM, ANN, RF, ...

เป็นการยากที่จะคาดเดาว่าสิ่งใดจะทำงานได้ดีที่สุดกับข้อมูลของคุณ คุณจะต้องลองและประเมินหลายรายการ

person Has QUIT--Anony-Mousse    schedule 31.08.2017