สวัสดีอีกครั้ง. หลังจากพักเบรคไปสักพัก เราก็ออกเดินทางกันต่อ :)

สัปดาห์นี้เราต้องพิจารณาบางหัวข้อที่เราพลาดไป ชุดข้อมูลของเรามีปัญหาบางอย่าง มันไม่เหมาะกับจุดประสงค์ของเรา นั่นเป็นเหตุผลที่เราเปลี่ยนข้อมูลด้วยข้อมูลใหม่ เรามาดูรายละเอียดกันดีกว่า

คลิกลิงก์เพื่อเข้าถึงโพสต์ของสัปดาห์ที่แล้ว (สัปดาห์ที่ 1 — คำแนะนำ MOOC)

— ปัญหาเกี่ยวกับข้อมูล —

ดังที่เราได้กล่าวไปสั้นๆ ข้างต้น ชุดข้อมูลเก่าของเราสำหรับปัญหานี้มีปัญหาบางประการ วิธีการกรองร่วมกันฟีดจากรายการและข้อมูลผู้ใช้ ข้อมูลของเรามีเพียงข้อมูลรายการ เราพลาดข้อมูลผู้ใช้ หากไม่มีข้อมูลผู้ใช้ เราก็สามารถตรวจจับความคล้ายคลึงกันได้ด้วยสูตรง่ายๆ เพื่อแนะนำหลักสูตร แต่นี่เป็นไปตามที่คุณอาจคาดเดาได้ ซึ่งไม่รวมอยู่ในโซลูชันแมชชีนเลิร์นนิง เพื่อแก้ไขปัญหานี้ เราพบชุดข้อมูลใหม่จาก Kaggle

— ชุดข้อมูลใหม่ —

โฟลเดอร์ชุดข้อมูลใหม่ มีไฟล์ CSV สองไฟล์; ข้อมูลหลักสูตรและความคิดเห็น

  • ข้อมูลหลักสูตรมี 20 คอลัมน์ คอลัมน์เหล่านี้ประกอบด้วยคุณลักษณะต่างๆ เช่น รหัสหลักสูตร ชื่อหลักสูตร จำนวนบทวิจารณ์ คะแนนเฉลี่ย หมวดหมู่ ฯลฯ เรามีหลักสูตรประมาณ 210,000 หลักสูตรในข้อมูลนี้
  • ข้อมูลความคิดเห็นมี 6 คอลัมน์ ตามชื่อที่แสดง ข้อมูลนี้เกี่ยวข้องกับความคิดเห็นจากผู้ใช้เป็นหลัก แต่ความสำคัญของเราจะอยู่ที่เรตติ้ง คอลัมน์อื่นๆ ไม่สำคัญในขั้นตอนนี้ อย่าลืมว่าข้อมูลนี้มี *9 ล้าน* บันทึก “ว้าว มันใหญ่มาก”

— การเตรียมข้อมูล *ส่วนที่ 1* —

  • สิ่งแรกที่เราต้องทำคือลบความซ้ำซ้อนออก ดังที่เราได้กล่าวไว้ ข้อมูลความคิดเห็นมี 6 คอลัมน์ แต่มี 3 คอลัมน์ที่มีประโยชน์ เราละเว้นคอลัมน์ต่างๆ ยกเว้นผู้ใช้ รหัสหลักสูตร และการให้คะแนน
  • เนื่องจากข้อมูลของเรามีขนาดใหญ่มาก เราอาจไม่ติดตามค่าที่ซ้ำกันและรายการที่ขาดหายไป กระบวนการนี้อาจต้องใช้เวลา เพื่อจัดการกับสิ่งเหล่านี้ เราได้ละทิ้งค่าที่ซ้ำกันและรายการที่ขาดหายไป

— บทสรุป —

สัปดาห์นี้เป็นเรื่องเกี่ยวกับการเลือกข้อมูล ข้อมูลเป็นองค์ประกอบที่สำคัญที่สุดของโมเดลการเรียนรู้ของเครื่อง จำได้ว่า:

“ข้อมูลที่ไม่ถูกต้องนำไปสู่แบบจำลองที่ไม่ถูกต้อง โมเดลที่ไม่ถูกต้องนำไปสู่การตัดสินใจที่ผิดพลาด และการตัดสินใจที่ไม่ถูกต้องนำไปสู่ผลลัพธ์ที่ไม่พึงประสงค์” — ทีมงานโครงการ 05

สัปดาห์หน้าเราจะดำเนินการขั้นตอนการเตรียมข้อมูลต่อในส่วนที่สอง ถึงสัปดาห์หน้า รักษาตัวให้ดี ดูแลตัวเอง และลาก่อน

ผู้เขียน