สวัสดีอีกครั้ง. หลังจากพักเบรคไปสักพัก เราก็ออกเดินทางกันต่อ :)
สัปดาห์นี้เราต้องพิจารณาบางหัวข้อที่เราพลาดไป ชุดข้อมูลของเรามีปัญหาบางอย่าง มันไม่เหมาะกับจุดประสงค์ของเรา นั่นเป็นเหตุผลที่เราเปลี่ยนข้อมูลด้วยข้อมูลใหม่ เรามาดูรายละเอียดกันดีกว่า
คลิกลิงก์เพื่อเข้าถึงโพสต์ของสัปดาห์ที่แล้ว (สัปดาห์ที่ 1 — คำแนะนำ MOOC)
— ปัญหาเกี่ยวกับข้อมูล —
ดังที่เราได้กล่าวไปสั้นๆ ข้างต้น ชุดข้อมูลเก่าของเราสำหรับปัญหานี้มีปัญหาบางประการ วิธีการกรองร่วมกันฟีดจากรายการและข้อมูลผู้ใช้ ข้อมูลของเรามีเพียงข้อมูลรายการ เราพลาดข้อมูลผู้ใช้ หากไม่มีข้อมูลผู้ใช้ เราก็สามารถตรวจจับความคล้ายคลึงกันได้ด้วยสูตรง่ายๆ เพื่อแนะนำหลักสูตร แต่นี่เป็นไปตามที่คุณอาจคาดเดาได้ ซึ่งไม่รวมอยู่ในโซลูชันแมชชีนเลิร์นนิง เพื่อแก้ไขปัญหานี้ เราพบชุดข้อมูลใหม่จาก Kaggle
— ชุดข้อมูลใหม่ —
โฟลเดอร์ชุดข้อมูลใหม่ มีไฟล์ CSV สองไฟล์; ข้อมูลหลักสูตรและความคิดเห็น
- ข้อมูลหลักสูตรมี 20 คอลัมน์ คอลัมน์เหล่านี้ประกอบด้วยคุณลักษณะต่างๆ เช่น รหัสหลักสูตร ชื่อหลักสูตร จำนวนบทวิจารณ์ คะแนนเฉลี่ย หมวดหมู่ ฯลฯ เรามีหลักสูตรประมาณ 210,000 หลักสูตรในข้อมูลนี้
- ข้อมูลความคิดเห็นมี 6 คอลัมน์ ตามชื่อที่แสดง ข้อมูลนี้เกี่ยวข้องกับความคิดเห็นจากผู้ใช้เป็นหลัก แต่ความสำคัญของเราจะอยู่ที่เรตติ้ง คอลัมน์อื่นๆ ไม่สำคัญในขั้นตอนนี้ อย่าลืมว่าข้อมูลนี้มี *9 ล้าน* บันทึก “ว้าว มันใหญ่มาก”
— การเตรียมข้อมูล *ส่วนที่ 1* —
- สิ่งแรกที่เราต้องทำคือลบความซ้ำซ้อนออก ดังที่เราได้กล่าวไว้ ข้อมูลความคิดเห็นมี 6 คอลัมน์ แต่มี 3 คอลัมน์ที่มีประโยชน์ เราละเว้นคอลัมน์ต่างๆ ยกเว้นผู้ใช้ รหัสหลักสูตร และการให้คะแนน
- เนื่องจากข้อมูลของเรามีขนาดใหญ่มาก เราอาจไม่ติดตามค่าที่ซ้ำกันและรายการที่ขาดหายไป กระบวนการนี้อาจต้องใช้เวลา เพื่อจัดการกับสิ่งเหล่านี้ เราได้ละทิ้งค่าที่ซ้ำกันและรายการที่ขาดหายไป
— บทสรุป —
สัปดาห์นี้เป็นเรื่องเกี่ยวกับการเลือกข้อมูล ข้อมูลเป็นองค์ประกอบที่สำคัญที่สุดของโมเดลการเรียนรู้ของเครื่อง จำได้ว่า:
“ข้อมูลที่ไม่ถูกต้องนำไปสู่แบบจำลองที่ไม่ถูกต้อง โมเดลที่ไม่ถูกต้องนำไปสู่การตัดสินใจที่ผิดพลาด และการตัดสินใจที่ไม่ถูกต้องนำไปสู่ผลลัพธ์ที่ไม่พึงประสงค์” — ทีมงานโครงการ 05
สัปดาห์หน้าเราจะดำเนินการขั้นตอนการเตรียมข้อมูลต่อในส่วนที่สอง ถึงสัปดาห์หน้า รักษาตัวให้ดี ดูแลตัวเอง และลาก่อน
ผู้เขียน
- อารีฟ เอเนส อายดิน (@อาริฟ เอเนส อายดิน)
- มูฮัมหมัด อาลี เชนเติร์ก