“ในที่สุดเราก็ทำนายอนาคตแล้วเหรอ? ใช่!! แต่อาจจะไม่แม่นยำนัก"

สารบัญ:

  1. ปัญหาทางธุรกิจ
  2. แหล่งที่มาของข้อมูล/การดึงข้อมูล
  3. ตัวชี้วัดการประเมินผล
  4. การจับคู่ปัญหาในโลกแห่งความเป็นจริงกับปัญหา ML
  5. การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA)
  6. วิศวกรรมข้อมูล
  7. แนวทางที่มีอยู่
  8. โมเดลการเรียนรู้ของเครื่อง
  9. โมเดลการเรียนรู้เชิงลึก
  10. การทดลองที่ทำงานได้ไม่ดีนัก
  11. การปรับใช้
  12. การทำงานในอนาคตและการปรับปรุง
  13. อ้างอิง.

1. ปัญหาทางธุรกิจ:

1.1 การพยากรณ์ยอดขายคืออะไร?

เทคนิคการคาดการณ์ยอดขายในอนาคตไม่ว่าจะระยะสั้นหรือระยะยาวโดยใช้ข้อมูลการขายก่อนหน้าเรียกว่าการพยากรณ์ยอดขาย

1.2 คำชี้แจงปัญหา

ตัวอย่างเช่น การลงทุนในกลยุทธ์ใหม่ๆ เพื่อเพิ่มรายได้สำหรับสินค้าที่อาจส่งผลให้ยอดขายไม่ดีในอนาคตผ่านการส่งเสริมการขาย/ส่วนลด ฯลฯ การคาดการณ์ยอดขายถือเป็นสิ่งสำคัญสำหรับบริษัท ดังนั้นจึงเป็นเรื่องสำคัญสำหรับธุรกิจที่จัดตั้งขึ้นแล้วที่จะต้องคาดการณ์ยอดขายที่สมจริงในอนาคต

1.3 ความเป็นมาของการแข่งขัน

Makridakis Open Forecasting Center (MOFC) ที่มหาวิทยาลัยนิโคเซียดำเนินการวิจัยการพยากรณ์ที่ล้ำสมัย และเสนอการฝึกอบรมการทำนายขององค์กร ช่วยให้ธุรกิจคาดการณ์ได้อย่างแม่นยำ ประมาณระดับความไม่แน่นอน ป้องกันข้อผิดพลาดที่มีค่าใช้จ่ายสูง และใช้เทคนิคการคาดการณ์ที่เหมาะสมที่สุด การแข่งขัน Makridakis ครั้งแรกของ MOFC จัดขึ้นในช่วงทศวรรษ 1980 และมีชื่อเสียงโด่งดัง

คุณจะคาดการณ์ยอดขายรายวันในช่วง 28 วันที่จะมาถึงในการแข่งขันเวอร์ชันที่ 5 โดยใช้ข้อมูลการขายแบบลำดับชั้นจาก Walmart ซึ่งเป็นบริษัทที่ใหญ่ที่สุดในโลกตามรายได้

1.4 วัตถุประสงค์

เป้าหมายหลักคือการคาดการณ์จุดขายของหน่วยสำหรับผลิตภัณฑ์ต่างๆ ที่ Walmart ขายในสหรัฐอเมริกาอย่างแม่นยำ ซึ่งจะช่วยให้สถานที่ตั้งของ Walmart ที่แตกต่างกันเพิ่มรายได้

1.5 วัตถุประสงค์และข้อจำกัดทางธุรกิจ

  1. ความสามารถในการตีความสูงเนื่องจากเราต้องเข้าใจปัจจัยสำคัญที่มีส่วนในการทำนายที่ดี
  2. ไม่จำเป็นต้องมีเวลาแฝงที่ต่ำอย่างเข้มงวด เนื่องจากเราจำเป็นต้องคาดการณ์ยอดขายรายวันมากกว่าแบบนาทีต่อนาทีหรือชั่วโมงต่อชั่วโมง

2. แหล่งที่มาของข้อมูล/การดึงข้อมูล

สามารถดาวน์โหลดข้อมูลสำหรับปัญหานี้ได้จาก "ลิงก์" นี้

2.1 ภาพรวมข้อมูล

ใช้ข้อมูลการขายแบบลำดับชั้นที่ Walmart เปิดให้เข้าถึงได้ ข้อมูลถูกรวบรวมตามแผนก หมวดหมู่ผลิตภัณฑ์ และร้านค้าในสามรัฐของสหรัฐอเมริกา: แคลิฟอร์เนีย เท็กซัส และวิสคอนซิน นอกจากนี้ยังมีปัจจัยที่อธิบาย เช่น ราคา โปรโมชั่น วันในสัปดาห์ และกิจกรรมพิเศษ นอกเหนือจากข้อมูลอนุกรมเวลา

พูดง่ายๆ ก็คือ ชุดข้อมูลเกี่ยวข้องกับการขายต่อหน่วยของผลิตภัณฑ์ 3,049 รายการ โดยแบ่งออกเป็น 3 หมวดหมู่ผลิตภัณฑ์ (งานอดิเรก อาหาร และครัวเรือน) และ 7 แผนกผลิตภัณฑ์ และมีการขายผลิตภัณฑ์ในร้านค้า 10 แห่งที่ตั้งอยู่ในสามรัฐ (แคลิฟอร์เนีย เท็กซัส และวิสคอนซิน)

ชุดข้อมูลที่ให้ไว้มีข้อมูลการขายเป็นเวลา 5 ปี เริ่มตั้งแต่วันที่ 29 มกราคม 2554 ถึงวันที่ 22 เมษายน 2559

ชุดข้อมูลประกอบด้วย 4 ไฟล์

  1. Calendar.csv: มีข้อมูลเกี่ยวกับวันที่จำหน่ายผลิตภัณฑ์
  • วันที่: วันที่ในรูปแบบ “ปปปป-ดด-วว”
  • wm_yr_wk: รหัสของสัปดาห์ที่มีวันที่อยู่
  • วันธรรมดา: ประเภทของวัน (วันเสาร์ วันอาทิตย์ … วันศุกร์)
  • wday: id ของวันทำงาน เริ่มตั้งแต่วันเสาร์
  • เดือน: เดือนของวันที่
  • ปี: ปีของวันที่
  • event_name_1: หากวันที่รวมกิจกรรม ชื่อของกิจกรรมนี้
  • event_type_1: หากวันที่รวมกิจกรรม จะเป็นประเภทของกิจกรรมนี้
  • event_name_2: หากวันที่รวมกิจกรรมที่สอง ชื่อของกิจกรรมนี้
  • event_type_2: หากวันที่มีกิจกรรมที่สอง จะเป็นประเภทของกิจกรรมนี้
  • snap_CA, snap_TX และ snap_WI: ตัวแปรไบนารี่ (0 หรือ 1) ระบุว่าร้านค้าของ CA, TX หรือ WI อนุญาตให้ซื้อ SNAP ในวันที่ตรวจสอบหรือไม่ 1 ระบุว่าอนุญาตให้ซื้อ SNAP

2. Sales_train_evaluation.csv: ประกอบด้วยข้อมูลการขายหน่วยรายวันในอดีตต่อผลิตภัณฑ์และร้านค้า

  • store_id: รหัสของร้านค้าที่จำหน่ายผลิตภัณฑ์
  • item_id: รหัสของผลิตภัณฑ์
  • wm_yr_wk: รหัสประจำสัปดาห์
  • sell_price: ราคาของผลิตภัณฑ์สำหรับสัปดาห์/ร้านค้าที่ระบุ ราคานี้มีให้ต่อสัปดาห์ (เฉลี่ยตลอดเจ็ดวัน) หากไม่มี แสดงว่าไม่ได้จำหน่ายผลิตภัณฑ์ในช่วงสัปดาห์ที่ตรวจสอบ โปรดทราบว่าแม้ว่าราคาจะคงที่เป็นรายสัปดาห์ แต่ราคาอาจมีการเปลี่ยนแปลงตามเวลา (ทั้งชุดฝึกอบรมและชุดทดสอบ)

3. Sell_prices.csv: มีข้อมูลเกี่ยวกับราคาผลิตภัณฑ์ที่ขายต่อร้านค้าและวันที่

  • item_id: รหัสของผลิตภัณฑ์
  • dept_id: รหัสของแผนกที่มีผลิตภัณฑ์อยู่
  • cat_id: รหัสของหมวดหมู่ของผลิตภัณฑ์
  • store_id: รหัสของร้านค้าที่จำหน่ายผลิตภัณฑ์
  • state_id: รัฐที่ร้านค้าตั้งอยู่
  • d_1, d_2, …, d_i, … d_1941: จำนวนหน่วยที่ขายได้ในวันที่ 1 เริ่มตั้งแต่ปี 2554–01–29

4. Sample_submission.csv: รูปแบบที่ถูกต้องสำหรับการส่ง

เครดิต: M5 -แนวทาง

3. ตัวชี้วัดการประเมินผล

การแข่งขัน M5 ได้จัดเตรียม "ตัววัด Root Mean Square Scaled Error" แต่เราใช้ RMSE สำหรับการฝึกโมเดลและการทดสอบ

● แต่ละข้อผิดพลาดไม่ได้รับการจัดการอย่างเท่าเทียมกันโดย RMSE ข้อผิดพลาดที่สำคัญที่สุดจะได้รับน้ำหนักมากขึ้น

● ดังนั้น RMSE ที่ไม่ดีสามารถรับได้โดยมีข้อผิดพลาดที่สำคัญเพียงข้อผิดพลาดเดียว

4. เชื่อมโยงปัญหาในโลกแห่งความเป็นจริงกับปัญหา ML

ปัญหาที่เรากำลังแก้ไขคือปัญหาอนุกรมเวลา ซึ่งเราสามารถแปลงเป็นปัญหาการเรียนรู้แบบมีผู้สอนได้โดยดำเนินการวิศวกรรมคุณลักษณะกับข้อมูลอนุกรมเวลาดิบ จากนั้นเราสามารถใช้คุณสมบัติเหล่านี้เป็นตัวแปรอินพุตและ 'ยอดขายของสินค้า' เป็นตัวแปรเอาต์พุต (จำนวนจริง) และแก้ปัญหาการคาดการณ์โดยใช้แบบจำลองการถดถอยของการเรียนรู้ของเครื่อง

5. การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA)

การวิเคราะห์ข้อมูลเชิงสำรวจเป็นวิธีการสำคัญที่เราต้องทำเพื่อทำความเข้าใจข้อมูลก่อนจึงจะสามารถใช้การเรียนรู้ของเครื่องเพื่อแก้ไขปัญหาได้

ดังนั้นก่อนอื่นจะเริ่มต้นด้วยไฟล์ข้อมูล (. CVS) มีค่าน่าน

ดังที่คุณเห็นว่ามีค่าว่างจำนวนมากในคอลัมน์ event_name_1, event_name_2, event_type_1 และ event_type_2

รูปแบบของยอดขายโดยรวม (ปริมาณ) ในทุกรัฐและร้านค้าในแต่ละวันเป็นอย่างไร

ข้อสังเกต

● ยอดขายรวม (จำนวนหน่วยที่ขาย) มีแนวโน้มเพิ่มขึ้นเล็กน้อยตั้งแต่ปี 2554 ถึง 2559

● ทุกปีรูปแบบการขายจะเหมือนเดิม และในวันที่ 1 มกราคม จะไม่มีการขายเลย (อาจเป็นร้านปิดช่วงปีใหม่)

รูปแบบของยอดขายโดยรวม (รายได้) ในทุกรัฐและร้านค้าในแต่ละวันเป็นอย่างไร

ข้อสังเกต

● ยอดขายรวม (รายได้) มีแนวโน้มเพิ่มขึ้นทุกปี

● รายได้และยอดขายโดยรวม (ปริมาณ) วันตามแนวโน้มเกือบทั้งหมด

รูปแบบของยอดขายรวม (ปริมาณ) ในแต่ละปีแยกกันเป็นอย่างไร

ข้อสังเกต

● ยอดขายโดยรวมมีรูปแบบคล้ายกันในแต่ละปีและมีฤดูกาลในแต่ละปี

● ตั้งแต่ปี 2012 ถึง 2015 ยอดขายเราสังเกตว่ายอดขายแต่ละ 2 เดือนมีรูปแบบเดียวกัน และอนุกรมเวลาแต่ละปีระหว่างปี 2012–2015 ก็เป็นอนุกรมเวลาที่อยู่กับที่

การเปลี่ยนแปลงของเปอร์เซ็นต์ในยอดขายรวม (ปริมาณ) และรายได้ในแต่ละปีแยกกันเป็นเท่าใด

ข้อสังเกต

● รายได้เพิ่มขึ้น 1% ถึง 2% ทุกปี

● ยอดขาย(ปริมาณ) เพิ่มขึ้นทุกปี ยกเว้นปี 2014

ฤดูกาลรายเดือนของยอดขายรวม (ปริมาณ) ทุกปีในร้านค้าทั้งหมดคือเท่าใด

ข้อสังเกต

● เดือนมีนาคมและพฤศจิกายนเป็นเดือนที่มียอดขายสูงสุดและต่ำสุดตามลำดับ

● ยอดขายลดลงในช่วงกลางปี ​​ฟื้นตัว และลดลงอีกครั้งในช่วงปลายปี

ฤดูกาลรายเดือนของยอดขายรวม (รายได้) ทุกปีจากร้านค้าทั้งหมดเป็นเท่าใด

ข้อสังเกต

● เดือนมีนาคมและมิถุนายนเป็นเดือนที่มีรายได้สูงสุดและต่ำสุดตามลำดับ

● รายได้และยอดขายโดยรวม (ปริมาณ) ต่อเดือนเป็นไปตามแนวโน้มเกือบทั้งหมด

การเปลี่ยนแปลงของเปอร์เซ็นต์ในยอดขายรวม (ปริมาณ) และรายได้ในแต่ละเดือนแยกกันเป็นเท่าใด

ข้อสังเกต

● ยอดขายต่อเดือนในปริมาณจะสูงขึ้นในเดือนมีนาคมและเมษายน

ฤดูกาลรายสัปดาห์ของยอดขายรวม (ปริมาณ) จากร้านค้าทั้งหมดคือเท่าใด

ข้อสังเกต

● ยอดขายจะสูงขึ้นในช่วงสุดสัปดาห์และลดลงตลอดทั้งสัปดาห์ แต่จะเพิ่มขึ้นอีกครั้งในวันศุกร์ช่วงต้นสุดสัปดาห์

● เราสังเกตเห็นว่าผู้บริโภคมีแนวโน้มที่จะซื้อสินค้าในช่วงวันหยุดสุดสัปดาห์มากกว่าในระหว่างสัปดาห์ และยอดขายในวันอาทิตย์โดยรวมก็ต่ำกว่าของวันเสาร์

ยอดขาย (รายได้) รวมจากร้านค้าทั้งหมดตามฤดูกาลรายสัปดาห์เป็นเท่าใด

ข้อสังเกต

● รายได้สูงขึ้นในช่วงสุดสัปดาห์ และวันอื่นๆ ก็คงที่

● รายได้และยอดขายโดยรวม (ปริมาณ) ในวันทำงานเป็นไปตามแนวโน้มเกือบทั้งหมด

เนื่องจากข้อมูลได้รับการจัดระเบียบตามลำดับชั้น เราจะมาวิเคราะห์ข้อมูลในแต่ละระดับเพื่อให้เห็นภาพที่ชัดเจนของแต่ละแผนก รวมถึงรัฐ ร้านค้า หมวดหมู่ และแผนก

4.1 การวิเคราะห์การแบ่งรัฐ:

ก. ยอดขายโดยรวม (ปริมาณ) ในแต่ละรัฐ

ข้อสังเกต.

● จากสามรัฐในแคลิฟอร์เนียมีเปอร์เซ็นต์ยอดขายรวมที่สูง

● ยอดขายรวมของเท็กซัสและวิสคอนซิน (ปริมาณ) เกือบเท่ากัน

ข. ยอดขาย (รายได้) โดยรวมในแต่ละรัฐ

ข้อสังเกต.

● จากสามรัฐแคลิฟอร์เนียมีเปอร์เซ็นต์รายได้ที่สูง

● รายได้จากเท็กซัสและวิสคอนซินเกือบจะเท่ากัน

ค. เปอร์เซ็นต์การเปลี่ยนแปลงของยอดขายรวม (ปริมาณ) และรายได้สำหรับแต่ละรัฐแยกกันเป็นเท่าใด

ข้อสังเกต.

● ยอดขายในปริมาณในแคลิฟอร์เนียสูงมากกว่ารายได้ที่สูงเช่นกัน แต่ในวิสคอนซินกลับตรงกันข้ามเลย

ง. ยอดขายรายวันในแต่ละรัฐ

ข้อสังเกต.

● ยอดขายทั้งสามรัฐเพิ่มขึ้นในแต่ละปี และในวันที่ 1 มกราคม เราไม่เห็นยอดขายเลย (อาจเป็นเพราะร้านปิดในปีใหม่)

● ยอดขายของรัฐ TX และ WI เกือบจะเหมือนกัน

4.2 การวิเคราะห์แผนกร้านค้า:

ก. ยอดขายโดยรวม(ปริมาณ) ในแต่ละร้านค้า

ข้อสังเกต

● ที่น่าสนใจ แม้ว่ารัฐแคลิฟอร์เนียจะมีสัดส่วน 43.6% ของยอดขายโดยรวม แต่ยอดขายรวมของร้านค้า 2 แห่งก็อยู่ในอันดับสี่ล่างสุด

● ร้านค้า CA_3 มียอดขายสูงสุด และร้านค้า CA_4 มียอดขายต่ำที่สุด

ข. ยอดขาย (รายได้) โดยรวมในแต่ละร้านค้า

ค. เปอร์เซ็นต์การเปลี่ยนแปลงของยอดขายรวม (ปริมาณ) และรายได้สำหรับแต่ละร้านค้าแยกกันเป็นเท่าใด

ข้อสังเกต.

● รัฐแคลิฟอร์เนียคิดเป็น 43.6% ของยอดขายโดยรวม

ง. ยอดขายรายวันในแต่ละร้าน

ข้อสังเกต.

● ยอดขายสูงสุดมาจากแผนก 'FOODS_3' และต่ำสุดมาจากแผนก 'HOBBIES_2' แผนก 'FOOD_3' เพียงอย่างเดียวมีสัดส่วนการขาย 50% และอีก 6 แผนกคิดเป็นส่วนที่เหลือ 50%

● แม้ว่ายอดขายรวมจากหมวดหมู่ "HOBBIES" จะน้อยกว่ามาก (9.3%) แต่ที่น่าสนใจคือแผนก "HOBBIES_1" มียอดขายสูงเมื่อเทียบกับแผนก "FOODS_1" ของหมวด FOODS

4.3 การวิเคราะห์การแบ่งหมวดหมู่:

ก. ยอดขายโดยรวม(ปริมาณ) ในแต่ละหมวด

ข้อสังเกต

● อาหารมีเปอร์เซ็นต์การขายมากที่สุด ในขณะที่งานอดิเรกมีเปอร์เซ็นต์ต่ำสุด

● เห็นได้ชัดว่าผู้บริโภคซื้อของใช้ในบ้านมากกว่างานอดิเรก และเนื่องจากผลิตภัณฑ์อาหารเป็นสิ่งจำเป็น ยอดขายจึงแข็งแกร่งเช่นกัน

ข. ยอดขาย(รายได้)โดยรวมในแต่ละหมวด

ข้อสังเกต.

● ยอดขายครัวเรือนในปริมาณต่ำมากแต่มีรายได้สูงมาก นั่นหมายความว่าผลิตภัณฑ์ในครัวเรือนมีราคาแพง

ค. เปอร์เซ็นต์การเปลี่ยนแปลงของยอดขายรวม (ปริมาณ) และรายได้สำหรับแต่ละหมวดหมู่แยกกันเป็นเท่าใด

ข้อสังเกต.

ง. ยอดขายรายวันในแต่ละหมวด

ข้อสังเกต.

● ยอดขายรวมรายวันของหมวดอาหารสูงที่สุดและมีแนวโน้มสูงขึ้น (ยอดขายเพิ่มขึ้นในช่วงหลายปีที่ผ่านมา)

● ยอดขายรวมรายวันของหมวดหมู่งานอดิเรกมีน้อยที่สุดและคงที่ตลอดหลายปีที่ผ่านมา

● ยอดขายรวมรายวันของหมวดหมู่ครัวเรือนก็มีแนวโน้มสูงขึ้นเช่นกัน (ยอดขายเพิ่มขึ้นในช่วงหลายปีที่ผ่านมา)

4.4 การวิเคราะห์การแบ่งแผนก:

ก. ยอดขายโดยรวม(ปริมาณ) ในแต่ละแผนก

ข้อสังเกต.

● FOODS_3 และ Hobby_2 มีจำนวนยอดขายสูงและลดลงตามลำดับ

ข. ยอดขาย(รายได้)โดยรวมในแต่ละแผนก

ข้อสังเกต.

● FOODS_3 และ Hobby_2 มีรายได้สูงขึ้นและลดลงตามลำดับ

ค. เปอร์เซ็นต์การเปลี่ยนแปลงของยอดขายรวม (ปริมาณ) และรายได้สำหรับแต่ละแผนกแยกกันเป็นเท่าใด

ข. ยอดขายรายวันในแต่ละแผนก

ข้อสังเกต.

● ยอดขายสูงสุดมาจากแผนก 'FOODS_3' และต่ำสุดมาจากแผนก 'HOBBIES_2' แผนก 'FOOD_3' เพียงอย่างเดียวมีสัดส่วนการขาย 50% และอีก 6 แผนกมียอดขายที่เหลือ 50%

● แม้ว่ายอดขายรวมจากหมวดหมู่ "HOBBIES" จะน้อยกว่ามาก (9.3%) แต่ที่น่าสนใจคือแผนก "HOBBIES_1" มียอดขายสูงเมื่อเทียบกับแผนก "FOODS_1" ของหมวด FOODS

4.5 การวิเคราะห์การแบ่งรายการ

ก. ยอดขายรวม 5 รายการจากด้านบน

ข้อสังเกต.

● ยอดขายสูงสุดคือ 'FOODS3. Sell_prices.csv090' มาจากแผนก FOODS

● ยอดขายสูงสุดอันดับสองคือ 'FOODS3. Sell_prices.csv586' ก็มาจากแผนก FOODS เช่นกัน

ข. ยอดขายรวม 5 รายการตั้งแต่ลงมา

ข้อสังเกต.

● ยอดขายต่ำสุดคือ 'HOBBIES2. Sales_train_evaluation.csv119' มาจากแผนก HOBBIES

สัดส่วนเทียบกับสัดส่วนการขายหมวดสินค้า

ข้อสังเกต.

● ทั้งสามรัฐมีสัดส่วนยอดขายที่ใกล้เคียงกันสำหรับผลิตภัณฑ์ทั้งสามหมวดหมู่

● สัดส่วนยอดขายหมวดอาหารในรัฐเท็กซัสและวิสคอนซินเท่ากัน

หมวดหมู่สินค้าเทียบกับสัดส่วนยอดขาย

ข้อสังเกต.

● หมวดหมู่อาหารมียอดขายและงานอดิเรกที่สูงขึ้น ซึ่งถือว่าต่ำที่สุดในทั้ง 3 รัฐ

● รัฐเท็กซัสและวิสคอนซินมีสัดส่วนยอดขายสำหรับหมวดหมู่ผลิตภัณฑ์งานอดิเรกใกล้เคียงกัน

ราคาเทียบกับความต้องการ

มี EDA มากมายที่คุณสามารถตรวจสอบได้ที่นี่

<แข็งแกร่ง>6. วิศวกรรมข้อมูล

ข้อมูลที่อยู่กับที่: - อนุกรมเวลาที่อยู่กับที่คืออนุกรมเวลาที่มีคุณสมบัติไม่ขึ้นอยู่กับว่าอนุกรมนั้นถูกสังเกตอย่างไร

⭒ อนุกรมเวลาที่มีแนวโน้มหรือฤดูกาลไม่คงที่ แนวโน้มและฤดูกาลจะส่งผลต่อมูลค่าของอนุกรมเวลาในเวลาที่ต่างกัน

เพื่อลดแนวโน้มข้อมูลอนุกรมเวลา จึงมีเทคนิคการแปลงบางอย่างที่ใช้และมีการระบุไว้ดังต่อไปนี้

  1. สำหรับ d_id, state_id, store_id, cat_id, dept_id และ item_id จะติดป้ายกำกับการเข้ารหัสโดยตรง

2. ใช้ค่าเฉลี่ยของชุดค่าผสมที่เป็นไปได้ทั้งหมด เนื่องจากรายการ ร้านค้า หมวดหมู่ สถานะ ฯลฯ มีความสัมพันธ์กัน

3. ใน EDA ฉันค้นพบว่าแม้ว่าเราไม่สามารถหาช่วงเวลาเป็นเดือนหรือเป็นปีได้ แต่เราก็สามารถหาได้เป็นสัปดาห์ ในเรื่องนั้น วิธีหนึ่งในการจับภาพตามช่วงเวลาคือการ "ล่าช้า" ข้อมูล โดยที่มูลค่าเป้าหมายของเราคือความต้องการ (ปริมาณ)

4. แบบโรลลิ่ง:รับค่าเฉลี่ยแบบโรลลิ่งและส่วนเบี่ยงเบนมาตรฐานแบบโรลลิ่งโดยมีกะ 28 วัน

5. จัดการกับค่าที่หายไป

เติมค่าที่หายไปด้วยค่าเฉลี่ย

สมุดบันทึกของ Feature Engineering อยู่ที่ ที่นี่

<แข็งแกร่ง>7. แนวทางที่มีอยู่.

โซลูชัน 1:

ก. นักวิทยาศาสตร์ด้านข้อมูลสรุปผลการค้นพบของเขาจากการแข่งขันการคาดการณ์การขายแบบ M5 ในบทความนี้ ซึ่งเกี่ยวข้องกับการประมาณยอดขายในอนาคตในสถานที่ตั้งของ Walmart หลายแห่ง เขาพูดถึงคำตอบและวิธีที่โมเดลการเรียนรู้ของเครื่องทำงานได้ดีที่สุด

ข. ในทัวร์นาเมนต์นี้ เขากล่าวถึงความท้าทายสองประการ ได้แก่:

  • การยืดเยื้อเป็นเวลานานโดยไม่มียอดขายติดต่อกันเรียกว่าค่าที่ไม่ต่อเนื่อง
  • ขอบเขตการคาดการณ์ที่ขยายออกไป: ผู้แข่งขันจะต้องสร้างการคาดการณ์เป็นระยะเวลา 4 สัปดาห์ เพิ่มเติมจากสัปดาห์ที่กำลังจะมาถึง

ค. เขายังพูดถึงส่วนวิศวกรรมฟีเจอร์ด้วย เขาแนะนำให้เรามองหาลักษณะที่จะทำให้เราได้รับข้อมูลสามชิ้นต่อไปนี้:

● ฤดูกาล

● เทรนด์

● ราคา

ง. การสูญเสีย Tweedie เพื่อจัดการกับค่าที่ไม่ต่อเนื่อง

โซลูชันที่ 2:

ก. เขาใช้โมเดล LightGBM ต่างๆ ผสมกัน โดยแต่ละรุ่นมีน้ำหนักเท่ากัน

ข. รวบรวมข้อมูลจากแต่ละร้านค้า (10 รุ่น) แต่ละหมวดหมู่ร้านค้า (30 รุ่น) และแต่ละแผนกร้านค้า ฝึกอบรมแบบจำลองเพื่อสร้างการฉายภาพสำหรับชุดร้านค้าผลิตภัณฑ์ (70 รุ่น)

ค. ทั้งในโครงสร้างแบบเรียกซ้ำและไม่เรียกซ้ำ โมเดลคำนึงถึง ID ที่แตกต่างกัน ข้อมูลที่เกี่ยวข้องกับปฏิทิน กิจกรรมพิเศษ โปรโมชั่น ราคา และข้อมูลการขายต่อหน่วย

ง. แนวทางนี้ได้รับการปรับปรุงโดยการประเมินค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของข้อผิดพลาดที่เกิดจากแบบจำลองแต่ละแบบและการผสมผสานของแบบจำลองเหล่านั้น รวมถึงการประเมิน 28 วันสี่วันที่ผ่านมา

8. โมเดลการเรียนรู้ของเครื่อง

ตัวเลือก (i) :- รุ่นเดียวสำหรับร้านค้าและสัปดาห์ทั้งหมด

  • ข้อมูลถูกถ่ายหลังจาก 1,500 วัน (d 1,500) เพื่อความสะดวกในการประมวลผลที่รวดเร็ว
  • แบ่งข้อมูลออกเป็น Train, Test, Validation

ⓐ การถดถอยเชิงเส้น

Linear Regression เป็นอัลกอริทึมการเรียนรู้ของเครื่อง ซึ่งอยู่บนพื้นฐานของการเรียนรู้แบบมีผู้สอน ซึ่งค้นหาความสัมพันธ์เชิงเส้นระหว่างเป้าหมายกับตัวทำนายตั้งแต่หนึ่งตัวขึ้นไป

● คะแนน RMSE=0.00264

คุณลักษณะที่สำคัญในโมเดลการถดถอยเชิงเส้น

ตัวถดถอย XGBoost

อัลกอริธึมการเรียนรู้ของเครื่องทั้งมวล XGBoost ซึ่งอิงตามแผนผังการตัดสินใจ ใช้เฟรมเวิร์กการเร่งการไล่ระดับสี

  • หลังจากใช้การปรับแต่งไฮเปอร์ปาร์มิเตอร์ best Learning_rate = 0.0451, max_leaves = 80 และ min_child_weight = 36 ซึ่งให้ค่า RMSE เท่ากับ 0.1637

● คะแนน RMSE=0.1637

คุณลักษณะที่สำคัญในโมเดล XGBoost Regressor

ⓒ ตัวถดถอย LGM

นี่คือรุ่น Light ของโมเดล Gradient Boosting มันเป็นโมเดลวงดนตรีแบบต้นไม้

  • หลังจากใช้การปรับแต่งไฮเปอร์ปาร์มิเตอร์ best Learning_rate = 0.0355, max_deep = 135 และ num_leaves = 54 ซึ่งให้ค่า RMSE เท่ากับ 0.1637

● คะแนน RMSE=0.1080

คุณลักษณะที่สำคัญในโมเดล LGBM Regressor

ⓓ Cat Boost Regressor

การเพิ่มความไล่ระดับสีเป็นพื้นฐานของ Cat Boost เพื่อลดเวลาในการคาดการณ์ซึ่งเป็นสิ่งสำคัญในสถานการณ์ที่มีความหน่วงต่ำ Cat Boost จะใช้แผนผังแบบสมมาตร

  • หลังจากใช้การปรับแต่งไฮเปอร์ปาร์มิเตอร์ best Learning_rate = 0.0291, ความลึก = 4 และ num_leaves = 199 ซึ่งให้ค่า RMSE เท่ากับ 0.0471

● คะแนน RMSE=0.0471

คุณลักษณะสำคัญในโมเดล Cat Boost Regressor

ⓔ ตัวถดถอยแผนผังการตัดสินใจ

ในการใช้การถดถอยแผนผังการตัดสินใจ คุณสมบัติของวัตถุจะถูกสังเกต และแบบจำลองจะได้รับการฝึกโดยใช้โครงสร้างของต้นไม้เพื่อคาดการณ์ข้อมูลในอนาคตและสร้างผลลัพธ์ต่อเนื่องที่มีประโยชน์

  • หลังจากใช้การปรับแต่งไฮเปอร์ปาร์มิเตอร์ max_width=52, min_samples_split= 25 และ min_samples_leaf = 293 ที่ดีที่สุด ซึ่งให้ค่า RMSE เท่ากับ 0.0080

● คะแนน RMSE=0.0080

คุณลักษณะที่สำคัญในแบบจำลอง Regressor แบบแผนผังการตัดสินใจ

● เราใช้แบบจำลองสำหรับการผสมผสานทั้งหมด

  1. จัดเก็บโมเดลที่ชาญฉลาด
  2. ร้านค้า, หมวดหมู่รุ่นที่ชาญฉลาด
  3. ร้านค้าแผนกฉลาดโมเดล

ตัวเลือก (ii) : หนึ่งรุ่นสำหรับแต่ละร้านค้าตลอดทั้งสัปดาห์

ตัวเลือกที่ชัดเจนที่สุดคือตัวเลือกแรก มันเกี่ยวข้องกับการใช้แบบจำลองเดียวกันเพื่อคาดการณ์ข้อมูลทั่วทั้งขอบเขตการคาดการณ์ทั้งหมด

ตัวถดถอย LGBM

● คะแนน RMSE เฉลี่ยในร้านค้าทั้งหมด 0.292 และ 0.22 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ

ตัวรับ CatBoost

● คะแนน RMSE เฉลี่ยในร้านค้าทั้งหมด 0.050 และ 0.02907 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ

ตัวถดถอย XGBoost

● คะแนน RMSE เฉลี่ยในร้านค้าทั้งหมด 0.1218 และ 0.041 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ

โมเดลที่ดีที่สุดในการคาดการณ์อย่างชาญฉลาดคือ LGBM Regressor

หมวดหมู่ร้านค้ารูปแบบรายเดือนที่ชาญฉลาด: -

● คะแนน RMSE เฉลี่ยในร้านค้าทั้งหมด ในหมวดหมู่ 0.118 และ 0.021 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ

ร้านค้า แผนก ฉลาดแบบรายเดือน

● คะแนน RMSE เฉลี่ยของร้านค้าทั้งหมด แผนก 0.28 และ 0.16 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ

ตัวเลือก (iii): หนึ่งโมเดลสำหรับทุกสัปดาห์

จัดเก็บโมเดลรายสัปดาห์อย่างชาญฉลาด

● คะแนน RMSE เฉลี่ยในร้านค้าทั้งหมดรายสัปดาห์ 0.028 และ 0.056 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ

ร้านค้าหมวดหมู่รุ่นรายสัปดาห์ที่ชาญฉลาด: -

● คะแนน RMSE เฉลี่ยจากร้านค้าทั้งหมด หมวดหมู่รายสัปดาห์ 0.0592 และ 0.064 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ

ร้านค้า แผนก ฉลาดรายสัปดาห์ รุ่น:-

● คะแนน RMSE เฉลี่ยในร้านค้าและแผนกทั้งหมดรายสัปดาห์ 0.042 และ 0.026 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ

ตัวเลือก (iv): การสร้างแบบจำลองแบบเรียกซ้ำ

เก็บโมเดลแบบเรียกซ้ำที่ชาญฉลาด

● คะแนน RMSE เฉลี่ยจากร้านค้าทั้งหมดแบบเรียกซ้ำ 0.0892 และ 0.026 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ

ร้านค้า, หมวดหมู่รูปแบบการเรียกซ้ำที่ชาญฉลาด: -

● คะแนน RMSE เฉลี่ยจากร้านค้า หมวดหมู่ และสัปดาห์แบบเรียกซ้ำ 0.098 และ 0.026 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ

ร้านค้า แผนก รูปแบบการเรียกซ้ำที่ชาญฉลาด:-

● คะแนน RMSE เฉลี่ยของร้านค้า แผนก และสัปดาห์แบบเรียกซ้ำ 0.052 และ 0.026 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ

<แข็งแกร่ง>9. โมเดลการเรียนรู้เชิงลึก

“ชีวิตนั้นเรียบง่ายจริงๆ แต่เรายืนกรานที่จะทำให้มันซับซ้อน” - ขงจื๊อ

หลังจากทดลองกับแมชชีนเลิร์นนิงที่ซับซ้อนเหล่านี้ ฉันตัดสินใจลองใช้โมเดลการเรียนรู้เชิงลึกที่เรียบง่ายด้วยเลเยอร์ LSTM, Dense และ Dropout เพียงไม่กี่ชั้น

รุ่นเดียวสำหรับร้านค้าและสัปดาห์ทั้งหมด

จำลอง a:- 4 LSTM เลเยอร์และ 1 เลเยอร์หนาแน่น

● คะแนน RMSE 0.0935 และ 0.0332 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ

รุ่น b:- 2 LSTM, 2 Conv1D และ 3 ชั้นหนาแน่น

● คะแนน RMSE 0.192 และ 0.36 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ

รุ่น c:- 3LSTM, 2 Conv1D และ 5Dense เลเยอร์

● คะแนน RMSE 0.362 และ 0.302 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ

10. การทดลองที่ทำงานได้ไม่ดีนัก

  • โมเดลการเรียนรู้เชิงลึกที่ซับซ้อนพร้อม LSTM สำหรับแต่ละร้านค้า
  • โมเดลการเรียนรู้เชิงลึกสำหรับแต่ละร้านค้า โมเดลที่ชาญฉลาดตามหมวดหมู่
  • โมเดลการเรียนรู้เชิงลึกสำหรับแต่ละร้านค้า โมเดลที่ชาญฉลาดตามหมวดหมู่
  • อาริมะ และผองเพื่อน.

11. การปรับใช้

12. การทำงานและการปรับปรุงในอนาคต

● โมเดลทั้งมวลพร้อมการซ้อน (ใช้การคาดการณ์จากหลายโมเดลเพื่อสร้างโมเดลใหม่ ซึ่งจะใช้เพิ่มเติมสำหรับการคาดการณ์ในชุดทดสอบ)

● ใช้โมเดลที่ซับซ้อนกว่านี้และการปรับพารามิเตอร์ Hyper

● ใช้ GRU และ LSTM แบบสองทิศทางแทน LSTM

13. ข้อมูลอ้างอิง

https://www.artefact.com/blog/sales-forecasting-in-retail-what-we-learned-from-the-m5-competition-published-in-medium-tech-blog/

https://dipanshurana.medium.com/m5-forecasting-accuracy-1b5a10218fcf

https://github.com/Mcompetitions/M5-methods

https://medium.com/thecyphy/m5-forecasting-accuracy-af6c45fb7d58

โครงการที่สมบูรณ์มีอยู่ในGithub หากมีข้อสงสัยเกี่ยวกับโครงการ โปรดติดต่อฉันได้ที่ Linkedin