ที่นี่คือจุดเริ่มต้นที่ฉันเริ่มต้นการเดินทางในฐานะบล็อกเกอร์ Data Science จุดประสงค์ของการเข้าโครงการนี้คือเพื่อสนับสนุนนักวิเคราะห์ข้อมูลรุ่นเยาว์และผู้ที่ชื่นชอบวิทยาศาสตร์ข้อมูลเช่นฉัน หวังว่าคุณจะสนุก!

หนังสือ 50 อันดับแรกของ Amazon (2009–2019)

ในช่วงหลายปีที่ผ่านมา อีคอมเมิร์ซได้ครอบครองทั่วโลก และผู้เล่นรายใหญ่ เช่น Amazon, Flipkart, ebay ฯลฯ ได้รับผู้บริโภคจำนวนมหาศาล

ฉันได้นำชุดข้อมูลนี้มาจาก kaggle เพื่อสำรวจและให้ข้อมูลเชิงลึกต่างๆ โดยใช้แนวทาง CRISP- DM

คำถามบางข้อที่ฉันจะพูดถึง:

  1. มีความสัมพันธ์กันระหว่างตัวแปรหรือไม่?
  2. ความนิยมของแนวเพลงตามปี
  3. ผู้เขียนหนังสือขายดีอันดับต้นๆ
  4. เปรียบเทียบราคาระหว่างหนังสือนิยายและหนังสือสารคดี
  5. ราคา ราคามีแนวโน้มที่จะลดลงเมื่อเวลาผ่านไปหลายปีหรือไม่?

นอกจากนี้ ฉันจะสร้างระบบการแนะนำที่จะแนะนำหนังสือที่คล้ายกันตามตัวเลือก

การวิเคราะห์ข้อมูลเชิงสำรวจ

ขั้นตอนแรกในการวิเคราะห์ควรเริ่มต้นด้วยการทำความเข้าใจข้อมูล และสามารถทำได้ด้วยกระบวนการ EDA

ก่อนที่เราจะเจาะลึกเกี่ยวกับการแสดงข้อมูล มาดูสถิติเชิงพรรณนาจากชุดข้อมูล Amazon กันก่อน

มีทั้งหมด 550 แถว 8 คอลัมน์ ประเภทมีสองประเภทคือนิยายและไม่ใช่นิยาย ดังนั้นรูปร่างของชุดข้อมูลคือ (550,8)

คำอธิบายสามารถบอกข้อมูลได้มากมาย เช่น

ราคาสูงสุดที่ขายหนังสือได้คือ 105 และต่ำสุดคือ 0 เมื่อพิจารณาจากค่าเฉลี่ยคือ 13.1 เราสามารถพูดได้อย่างชัดเจนว่าราคาสูงสุดคือ 105 นั้นเป็นค่าผิดปกติ

ปีมีตั้งแต่ 2009 ถึง 2019 และเมื่อดูไตรมาส 1, ไตรมาส 2 และไตรมาส 3 เช่น 25%, 50% และ 75% เราสามารถพูดได้ว่าข้อมูลมีการกระจายอย่างดีทุกปี

ค่าเฉลี่ยในการรีวิวก็ประมาณ 12,000 แต่นั่นไม่ได้หมายความว่าหนังสือทุกเล่มมีจำนวนบทวิจารณ์เฉลี่ย 12,000 บทวิจารณ์ เนื่องจากค่าเบี่ยงเบนมาตรฐานสูงพอๆ กัน

คะแนนสูงสุดที่หนังสือได้รับคือ 4.9 จาก 5 โดยมีคะแนนเฉลี่ย 4.61 ซึ่งแสดงให้เห็นอย่างชัดเจนว่าชุดข้อมูลนี้แสดงถึงหนังสือที่ขายดีที่สุด 50 อันดับแรกใน Amazon

ตอนนี้ก็ถึงเวลาสำหรับภาพบางส่วนแล้ว

ข้อมูลเชิงลึกจากการแสดงภาพ

  1. มีความสัมพันธ์กันระหว่างตัวแปรหรือไม่

ไม่ ไม่มีความสัมพันธ์ใดๆ ระหว่างตัวแปรและไม่ขึ้นอยู่กับตัวแปรอื่นๆ

2.ความนิยมของแนวเพลงตามปี

ระหว่างปี 2009–11 นวนิยายมีเรตติ้งมากกว่า

ระหว่างปี 20012–13 สารคดีมีเรตติ้งมากกว่า

ตั้งแต่ปี 2014 สารคดีมีเรตติ้งมากขึ้น

3. ผู้แต่งหนังสือขายดีอันดับต้นๆ

Jeff Kinney, Rick Riordan, Suzzane Collins และ Gary Chapman เป็นผู้แต่งสี่อันดับแรกของหนังสือขายดี

4. การเปรียบเทียบราคาระหว่างหนังสือนิยายและหนังสือสารคดี

หนังสือสารคดีมีราคาค่อนข้างแพงกว่าหนังสือนิยาย

5. ราคา ราคามีแนวโน้มที่จะลดลงในช่วงหลายปีที่ผ่านมาหรือไม่?

แม้ว่าจะมีความผันผวนเล็กน้อย แต่แนวโน้มดูเหมือนจะลดลง

ระบบแนะนำ

ในปัจจุบันเราเห็นการนำระบบผู้แนะนำไปใช้ในทุกที่ ตัวอย่างบางส่วนที่เราเห็นในชีวิตประจำวัน ได้แก่ YouTube, Netflix, Amazon และ Google

วิธีการเบื้องหลังระบบผู้แนะนำไม่ได้ซับซ้อนเลย ฉันจะโพสต์คำอธิบายโดยละเอียดเกี่ยวกับวิธีการประเภทต่างๆ ที่ใช้ในบทความอื่นเร็วๆ นี้

สำหรับตอนนี้ ฉันจะใช้แนวทางง่ายๆ ในการสร้างสิ่งหนึ่ง

ฉันได้สร้างฟังก์ชันสามอย่างที่นี่

  • ขั้นแรก ลบคำหยุดและโทเค็น เช่น ลบคำต่างๆ เช่น a, the, an, in, on
  • ประการที่สอง เล็มแมนไนซ์ หมายถึงกระบวนการจัดกลุ่มคำและแทนที่เป็นคำเดียว
  • และสุดท้ายคือฟังก์ชันสำหรับรับคำแนะนำตามความคล้ายคลึงกัน

ดังที่คุณเห็นจากรายการ ผู้แนะนำจะแนะนำหนังสือที่คล้ายกันตามคำอธิบาย และสามารถใช้เพื่อช่วยให้ผู้อ่านช่วยในการเลือกอ่านครั้งต่อไปได้

ขอขอบคุณทุกท่านที่สละเวลาอ่านโพสต์ หวังว่าคุณจะสนุกกับการอ่านเนื้อหามากเท่ากับที่ฉันได้ในขณะที่เขียน

นี่คือ repo GitHub สำหรับโค้ดและการแสดงภาพเพิ่มเติม



หากคุณต้องการติดต่อกับฉัน