ที่นี่คือจุดเริ่มต้นที่ฉันเริ่มต้นการเดินทางในฐานะบล็อกเกอร์ Data Science จุดประสงค์ของการเข้าโครงการนี้คือเพื่อสนับสนุนนักวิเคราะห์ข้อมูลรุ่นเยาว์และผู้ที่ชื่นชอบวิทยาศาสตร์ข้อมูลเช่นฉัน หวังว่าคุณจะสนุก!
หนังสือ 50 อันดับแรกของ Amazon (2009–2019)
ในช่วงหลายปีที่ผ่านมา อีคอมเมิร์ซได้ครอบครองทั่วโลก และผู้เล่นรายใหญ่ เช่น Amazon, Flipkart, ebay ฯลฯ ได้รับผู้บริโภคจำนวนมหาศาล
ฉันได้นำชุดข้อมูลนี้มาจาก kaggle เพื่อสำรวจและให้ข้อมูลเชิงลึกต่างๆ โดยใช้แนวทาง CRISP- DM
คำถามบางข้อที่ฉันจะพูดถึง:
- มีความสัมพันธ์กันระหว่างตัวแปรหรือไม่?
- ความนิยมของแนวเพลงตามปี
- ผู้เขียนหนังสือขายดีอันดับต้นๆ
- เปรียบเทียบราคาระหว่างหนังสือนิยายและหนังสือสารคดี
- ราคา ราคามีแนวโน้มที่จะลดลงเมื่อเวลาผ่านไปหลายปีหรือไม่?
นอกจากนี้ ฉันจะสร้างระบบการแนะนำที่จะแนะนำหนังสือที่คล้ายกันตามตัวเลือก
การวิเคราะห์ข้อมูลเชิงสำรวจ
ขั้นตอนแรกในการวิเคราะห์ควรเริ่มต้นด้วยการทำความเข้าใจข้อมูล และสามารถทำได้ด้วยกระบวนการ EDA
ก่อนที่เราจะเจาะลึกเกี่ยวกับการแสดงข้อมูล มาดูสถิติเชิงพรรณนาจากชุดข้อมูล Amazon กันก่อน
มีทั้งหมด 550 แถว 8 คอลัมน์ ประเภทมีสองประเภทคือนิยายและไม่ใช่นิยาย ดังนั้นรูปร่างของชุดข้อมูลคือ (550,8)
คำอธิบายสามารถบอกข้อมูลได้มากมาย เช่น
ราคาสูงสุดที่ขายหนังสือได้คือ 105 และต่ำสุดคือ 0 เมื่อพิจารณาจากค่าเฉลี่ยคือ 13.1 เราสามารถพูดได้อย่างชัดเจนว่าราคาสูงสุดคือ 105 นั้นเป็นค่าผิดปกติ
ปีมีตั้งแต่ 2009 ถึง 2019 และเมื่อดูไตรมาส 1, ไตรมาส 2 และไตรมาส 3 เช่น 25%, 50% และ 75% เราสามารถพูดได้ว่าข้อมูลมีการกระจายอย่างดีทุกปี
ค่าเฉลี่ยในการรีวิวก็ประมาณ 12,000 แต่นั่นไม่ได้หมายความว่าหนังสือทุกเล่มมีจำนวนบทวิจารณ์เฉลี่ย 12,000 บทวิจารณ์ เนื่องจากค่าเบี่ยงเบนมาตรฐานสูงพอๆ กัน
คะแนนสูงสุดที่หนังสือได้รับคือ 4.9 จาก 5 โดยมีคะแนนเฉลี่ย 4.61 ซึ่งแสดงให้เห็นอย่างชัดเจนว่าชุดข้อมูลนี้แสดงถึงหนังสือที่ขายดีที่สุด 50 อันดับแรกใน Amazon
ตอนนี้ก็ถึงเวลาสำหรับภาพบางส่วนแล้ว
ข้อมูลเชิงลึกจากการแสดงภาพ
- มีความสัมพันธ์กันระหว่างตัวแปรหรือไม่
ไม่ ไม่มีความสัมพันธ์ใดๆ ระหว่างตัวแปรและไม่ขึ้นอยู่กับตัวแปรอื่นๆ
2.ความนิยมของแนวเพลงตามปี
ระหว่างปี 2009–11 นวนิยายมีเรตติ้งมากกว่า
ระหว่างปี 20012–13 สารคดีมีเรตติ้งมากกว่า
ตั้งแต่ปี 2014 สารคดีมีเรตติ้งมากขึ้น
3. ผู้แต่งหนังสือขายดีอันดับต้นๆ
Jeff Kinney, Rick Riordan, Suzzane Collins และ Gary Chapman เป็นผู้แต่งสี่อันดับแรกของหนังสือขายดี
4. การเปรียบเทียบราคาระหว่างหนังสือนิยายและหนังสือสารคดี
หนังสือสารคดีมีราคาค่อนข้างแพงกว่าหนังสือนิยาย
5. ราคา ราคามีแนวโน้มที่จะลดลงในช่วงหลายปีที่ผ่านมาหรือไม่?
แม้ว่าจะมีความผันผวนเล็กน้อย แต่แนวโน้มดูเหมือนจะลดลง
ระบบแนะนำ
ในปัจจุบันเราเห็นการนำระบบผู้แนะนำไปใช้ในทุกที่ ตัวอย่างบางส่วนที่เราเห็นในชีวิตประจำวัน ได้แก่ YouTube, Netflix, Amazon และ Google
วิธีการเบื้องหลังระบบผู้แนะนำไม่ได้ซับซ้อนเลย ฉันจะโพสต์คำอธิบายโดยละเอียดเกี่ยวกับวิธีการประเภทต่างๆ ที่ใช้ในบทความอื่นเร็วๆ นี้
สำหรับตอนนี้ ฉันจะใช้แนวทางง่ายๆ ในการสร้างสิ่งหนึ่ง
ฉันได้สร้างฟังก์ชันสามอย่างที่นี่
- ขั้นแรก ลบคำหยุดและโทเค็น เช่น ลบคำต่างๆ เช่น a, the, an, in, on
- ประการที่สอง เล็มแมนไนซ์ หมายถึงกระบวนการจัดกลุ่มคำและแทนที่เป็นคำเดียว
- และสุดท้ายคือฟังก์ชันสำหรับรับคำแนะนำตามความคล้ายคลึงกัน
ดังที่คุณเห็นจากรายการ ผู้แนะนำจะแนะนำหนังสือที่คล้ายกันตามคำอธิบาย และสามารถใช้เพื่อช่วยให้ผู้อ่านช่วยในการเลือกอ่านครั้งต่อไปได้
ขอขอบคุณทุกท่านที่สละเวลาอ่านโพสต์ หวังว่าคุณจะสนุกกับการอ่านเนื้อหามากเท่ากับที่ฉันได้ในขณะที่เขียน
นี่คือ repo GitHub สำหรับโค้ดและการแสดงภาพเพิ่มเติม
หากคุณต้องการติดต่อกับฉัน