“ในที่สุดเราก็ทำนายอนาคตแล้วเหรอ? ใช่!! แต่อาจจะไม่แม่นยำนัก"
สารบัญ:
- ปัญหาทางธุรกิจ
- แหล่งที่มาของข้อมูล/การดึงข้อมูล
- ตัวชี้วัดการประเมินผล
- การจับคู่ปัญหาในโลกแห่งความเป็นจริงกับปัญหา ML
- การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA)
- วิศวกรรมข้อมูล
- แนวทางที่มีอยู่
- โมเดลการเรียนรู้ของเครื่อง
- โมเดลการเรียนรู้เชิงลึก
- การทดลองที่ทำงานได้ไม่ดีนัก
- การปรับใช้
- การทำงานในอนาคตและการปรับปรุง
- อ้างอิง.
1. ปัญหาทางธุรกิจ:
1.1 การพยากรณ์ยอดขายคืออะไร?
เทคนิคการคาดการณ์ยอดขายในอนาคตไม่ว่าจะระยะสั้นหรือระยะยาวโดยใช้ข้อมูลการขายก่อนหน้าเรียกว่าการพยากรณ์ยอดขาย
1.2 คำชี้แจงปัญหา
ตัวอย่างเช่น การลงทุนในกลยุทธ์ใหม่ๆ เพื่อเพิ่มรายได้สำหรับสินค้าที่อาจส่งผลให้ยอดขายไม่ดีในอนาคตผ่านการส่งเสริมการขาย/ส่วนลด ฯลฯ การคาดการณ์ยอดขายถือเป็นสิ่งสำคัญสำหรับบริษัท ดังนั้นจึงเป็นเรื่องสำคัญสำหรับธุรกิจที่จัดตั้งขึ้นแล้วที่จะต้องคาดการณ์ยอดขายที่สมจริงในอนาคต
1.3 ความเป็นมาของการแข่งขัน
Makridakis Open Forecasting Center (MOFC) ที่มหาวิทยาลัยนิโคเซียดำเนินการวิจัยการพยากรณ์ที่ล้ำสมัย และเสนอการฝึกอบรมการทำนายขององค์กร ช่วยให้ธุรกิจคาดการณ์ได้อย่างแม่นยำ ประมาณระดับความไม่แน่นอน ป้องกันข้อผิดพลาดที่มีค่าใช้จ่ายสูง และใช้เทคนิคการคาดการณ์ที่เหมาะสมที่สุด การแข่งขัน Makridakis ครั้งแรกของ MOFC จัดขึ้นในช่วงทศวรรษ 1980 และมีชื่อเสียงโด่งดัง
คุณจะคาดการณ์ยอดขายรายวันในช่วง 28 วันที่จะมาถึงในการแข่งขันเวอร์ชันที่ 5 โดยใช้ข้อมูลการขายแบบลำดับชั้นจาก Walmart ซึ่งเป็นบริษัทที่ใหญ่ที่สุดในโลกตามรายได้
1.4 วัตถุประสงค์
เป้าหมายหลักคือการคาดการณ์จุดขายของหน่วยสำหรับผลิตภัณฑ์ต่างๆ ที่ Walmart ขายในสหรัฐอเมริกาอย่างแม่นยำ ซึ่งจะช่วยให้สถานที่ตั้งของ Walmart ที่แตกต่างกันเพิ่มรายได้
1.5 วัตถุประสงค์และข้อจำกัดทางธุรกิจ
- ความสามารถในการตีความสูงเนื่องจากเราต้องเข้าใจปัจจัยสำคัญที่มีส่วนในการทำนายที่ดี
- ไม่จำเป็นต้องมีเวลาแฝงที่ต่ำอย่างเข้มงวด เนื่องจากเราจำเป็นต้องคาดการณ์ยอดขายรายวันมากกว่าแบบนาทีต่อนาทีหรือชั่วโมงต่อชั่วโมง
2. แหล่งที่มาของข้อมูล/การดึงข้อมูล
สามารถดาวน์โหลดข้อมูลสำหรับปัญหานี้ได้จาก "ลิงก์" นี้
2.1 ภาพรวมข้อมูล
ใช้ข้อมูลการขายแบบลำดับชั้นที่ Walmart เปิดให้เข้าถึงได้ ข้อมูลถูกรวบรวมตามแผนก หมวดหมู่ผลิตภัณฑ์ และร้านค้าในสามรัฐของสหรัฐอเมริกา: แคลิฟอร์เนีย เท็กซัส และวิสคอนซิน นอกจากนี้ยังมีปัจจัยที่อธิบาย เช่น ราคา โปรโมชั่น วันในสัปดาห์ และกิจกรรมพิเศษ นอกเหนือจากข้อมูลอนุกรมเวลา
พูดง่ายๆ ก็คือ ชุดข้อมูลเกี่ยวข้องกับการขายต่อหน่วยของผลิตภัณฑ์ 3,049 รายการ โดยแบ่งออกเป็น 3 หมวดหมู่ผลิตภัณฑ์ (งานอดิเรก อาหาร และครัวเรือน) และ 7 แผนกผลิตภัณฑ์ และมีการขายผลิตภัณฑ์ในร้านค้า 10 แห่งที่ตั้งอยู่ในสามรัฐ (แคลิฟอร์เนีย เท็กซัส และวิสคอนซิน)
ชุดข้อมูลที่ให้ไว้มีข้อมูลการขายเป็นเวลา 5 ปี เริ่มตั้งแต่วันที่ 29 มกราคม 2554 ถึงวันที่ 22 เมษายน 2559
ชุดข้อมูลประกอบด้วย 4 ไฟล์
Calendar.csv
: มีข้อมูลเกี่ยวกับวันที่จำหน่ายผลิตภัณฑ์
- วันที่: วันที่ในรูปแบบ “ปปปป-ดด-วว”
- wm_yr_wk: รหัสของสัปดาห์ที่มีวันที่อยู่
- วันธรรมดา: ประเภทของวัน (วันเสาร์ วันอาทิตย์ … วันศุกร์)
- wday: id ของวันทำงาน เริ่มตั้งแต่วันเสาร์
- เดือน: เดือนของวันที่
- ปี: ปีของวันที่
- event_name_1: หากวันที่รวมกิจกรรม ชื่อของกิจกรรมนี้
- event_type_1: หากวันที่รวมกิจกรรม จะเป็นประเภทของกิจกรรมนี้
- event_name_2: หากวันที่รวมกิจกรรมที่สอง ชื่อของกิจกรรมนี้
- event_type_2: หากวันที่มีกิจกรรมที่สอง จะเป็นประเภทของกิจกรรมนี้
- snap_CA, snap_TX และ snap_WI: ตัวแปรไบนารี่ (0 หรือ 1) ระบุว่าร้านค้าของ CA, TX หรือ WI อนุญาตให้ซื้อ SNAP ในวันที่ตรวจสอบหรือไม่ 1 ระบุว่าอนุญาตให้ซื้อ SNAP
2. Sales_train_evaluation.csv
: ประกอบด้วยข้อมูลการขายหน่วยรายวันในอดีตต่อผลิตภัณฑ์และร้านค้า
- store_id: รหัสของร้านค้าที่จำหน่ายผลิตภัณฑ์
- item_id: รหัสของผลิตภัณฑ์
- wm_yr_wk: รหัสประจำสัปดาห์
- sell_price: ราคาของผลิตภัณฑ์สำหรับสัปดาห์/ร้านค้าที่ระบุ ราคานี้มีให้ต่อสัปดาห์ (เฉลี่ยตลอดเจ็ดวัน) หากไม่มี แสดงว่าไม่ได้จำหน่ายผลิตภัณฑ์ในช่วงสัปดาห์ที่ตรวจสอบ โปรดทราบว่าแม้ว่าราคาจะคงที่เป็นรายสัปดาห์ แต่ราคาอาจมีการเปลี่ยนแปลงตามเวลา (ทั้งชุดฝึกอบรมและชุดทดสอบ)
3. Sell_prices.csv
: มีข้อมูลเกี่ยวกับราคาผลิตภัณฑ์ที่ขายต่อร้านค้าและวันที่
- item_id: รหัสของผลิตภัณฑ์
- dept_id: รหัสของแผนกที่มีผลิตภัณฑ์อยู่
- cat_id: รหัสของหมวดหมู่ของผลิตภัณฑ์
- store_id: รหัสของร้านค้าที่จำหน่ายผลิตภัณฑ์
- state_id: รัฐที่ร้านค้าตั้งอยู่
- d_1, d_2, …, d_i, … d_1941: จำนวนหน่วยที่ขายได้ในวันที่ 1 เริ่มตั้งแต่ปี 2554–01–29
4. Sample_submission.csv
: รูปแบบที่ถูกต้องสำหรับการส่ง
เครดิต: M5 -แนวทาง
3. ตัวชี้วัดการประเมินผล
การแข่งขัน M5 ได้จัดเตรียม "ตัววัด Root Mean Square Scaled Error" แต่เราใช้ RMSE สำหรับการฝึกโมเดลและการทดสอบ
● แต่ละข้อผิดพลาดไม่ได้รับการจัดการอย่างเท่าเทียมกันโดย RMSE ข้อผิดพลาดที่สำคัญที่สุดจะได้รับน้ำหนักมากขึ้น
● ดังนั้น RMSE ที่ไม่ดีสามารถรับได้โดยมีข้อผิดพลาดที่สำคัญเพียงข้อผิดพลาดเดียว
4. เชื่อมโยงปัญหาในโลกแห่งความเป็นจริงกับปัญหา ML
ปัญหาที่เรากำลังแก้ไขคือปัญหาอนุกรมเวลา ซึ่งเราสามารถแปลงเป็นปัญหาการเรียนรู้แบบมีผู้สอนได้โดยดำเนินการวิศวกรรมคุณลักษณะกับข้อมูลอนุกรมเวลาดิบ จากนั้นเราสามารถใช้คุณสมบัติเหล่านี้เป็นตัวแปรอินพุตและ 'ยอดขายของสินค้า' เป็นตัวแปรเอาต์พุต (จำนวนจริง) และแก้ปัญหาการคาดการณ์โดยใช้แบบจำลองการถดถอยของการเรียนรู้ของเครื่อง
5. การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA)
การวิเคราะห์ข้อมูลเชิงสำรวจเป็นวิธีการสำคัญที่เราต้องทำเพื่อทำความเข้าใจข้อมูลก่อนจึงจะสามารถใช้การเรียนรู้ของเครื่องเพื่อแก้ไขปัญหาได้
ดังนั้นก่อนอื่นจะเริ่มต้นด้วยไฟล์ข้อมูล (. CVS) มีค่าน่าน
ดังที่คุณเห็นว่ามีค่าว่างจำนวนมากในคอลัมน์ event_name_1, event_name_2, event_type_1 และ event_type_2
รูปแบบของยอดขายโดยรวม (ปริมาณ) ในทุกรัฐและร้านค้าในแต่ละวันเป็นอย่างไร
ข้อสังเกต
● ยอดขายรวม (จำนวนหน่วยที่ขาย) มีแนวโน้มเพิ่มขึ้นเล็กน้อยตั้งแต่ปี 2554 ถึง 2559
● ทุกปีรูปแบบการขายจะเหมือนเดิม และในวันที่ 1 มกราคม จะไม่มีการขายเลย (อาจเป็นร้านปิดช่วงปีใหม่)
รูปแบบของยอดขายโดยรวม (รายได้) ในทุกรัฐและร้านค้าในแต่ละวันเป็นอย่างไร
ข้อสังเกต
● ยอดขายรวม (รายได้) มีแนวโน้มเพิ่มขึ้นทุกปี
● รายได้และยอดขายโดยรวม (ปริมาณ) วันตามแนวโน้มเกือบทั้งหมด
รูปแบบของยอดขายรวม (ปริมาณ) ในแต่ละปีแยกกันเป็นอย่างไร
ข้อสังเกต
● ยอดขายโดยรวมมีรูปแบบคล้ายกันในแต่ละปีและมีฤดูกาลในแต่ละปี
● ตั้งแต่ปี 2012 ถึง 2015 ยอดขายเราสังเกตว่ายอดขายแต่ละ 2 เดือนมีรูปแบบเดียวกัน และอนุกรมเวลาแต่ละปีระหว่างปี 2012–2015 ก็เป็นอนุกรมเวลาที่อยู่กับที่
การเปลี่ยนแปลงของเปอร์เซ็นต์ในยอดขายรวม (ปริมาณ) และรายได้ในแต่ละปีแยกกันเป็นเท่าใด
ข้อสังเกต
● รายได้เพิ่มขึ้น 1% ถึง 2% ทุกปี
● ยอดขาย(ปริมาณ) เพิ่มขึ้นทุกปี ยกเว้นปี 2014
ฤดูกาลรายเดือนของยอดขายรวม (ปริมาณ) ทุกปีในร้านค้าทั้งหมดคือเท่าใด
ข้อสังเกต
● เดือนมีนาคมและพฤศจิกายนเป็นเดือนที่มียอดขายสูงสุดและต่ำสุดตามลำดับ
● ยอดขายลดลงในช่วงกลางปี ฟื้นตัว และลดลงอีกครั้งในช่วงปลายปี
ฤดูกาลรายเดือนของยอดขายรวม (รายได้) ทุกปีจากร้านค้าทั้งหมดเป็นเท่าใด
ข้อสังเกต
● เดือนมีนาคมและมิถุนายนเป็นเดือนที่มีรายได้สูงสุดและต่ำสุดตามลำดับ
● รายได้และยอดขายโดยรวม (ปริมาณ) ต่อเดือนเป็นไปตามแนวโน้มเกือบทั้งหมด
การเปลี่ยนแปลงของเปอร์เซ็นต์ในยอดขายรวม (ปริมาณ) และรายได้ในแต่ละเดือนแยกกันเป็นเท่าใด
ข้อสังเกต
● ยอดขายต่อเดือนในปริมาณจะสูงขึ้นในเดือนมีนาคมและเมษายน
ฤดูกาลรายสัปดาห์ของยอดขายรวม (ปริมาณ) จากร้านค้าทั้งหมดคือเท่าใด
ข้อสังเกต
● ยอดขายจะสูงขึ้นในช่วงสุดสัปดาห์และลดลงตลอดทั้งสัปดาห์ แต่จะเพิ่มขึ้นอีกครั้งในวันศุกร์ช่วงต้นสุดสัปดาห์
● เราสังเกตเห็นว่าผู้บริโภคมีแนวโน้มที่จะซื้อสินค้าในช่วงวันหยุดสุดสัปดาห์มากกว่าในระหว่างสัปดาห์ และยอดขายในวันอาทิตย์โดยรวมก็ต่ำกว่าของวันเสาร์
ยอดขาย (รายได้) รวมจากร้านค้าทั้งหมดตามฤดูกาลรายสัปดาห์เป็นเท่าใด
ข้อสังเกต
● รายได้สูงขึ้นในช่วงสุดสัปดาห์ และวันอื่นๆ ก็คงที่
● รายได้และยอดขายโดยรวม (ปริมาณ) ในวันทำงานเป็นไปตามแนวโน้มเกือบทั้งหมด
เนื่องจากข้อมูลได้รับการจัดระเบียบตามลำดับชั้น เราจะมาวิเคราะห์ข้อมูลในแต่ละระดับเพื่อให้เห็นภาพที่ชัดเจนของแต่ละแผนก รวมถึงรัฐ ร้านค้า หมวดหมู่ และแผนก
4.1 การวิเคราะห์การแบ่งรัฐ:
ก. ยอดขายโดยรวม (ปริมาณ) ในแต่ละรัฐ
ข้อสังเกต.
● จากสามรัฐในแคลิฟอร์เนียมีเปอร์เซ็นต์ยอดขายรวมที่สูง
● ยอดขายรวมของเท็กซัสและวิสคอนซิน (ปริมาณ) เกือบเท่ากัน
ข. ยอดขาย (รายได้) โดยรวมในแต่ละรัฐ
ข้อสังเกต.
● จากสามรัฐแคลิฟอร์เนียมีเปอร์เซ็นต์รายได้ที่สูง
● รายได้จากเท็กซัสและวิสคอนซินเกือบจะเท่ากัน
ค. เปอร์เซ็นต์การเปลี่ยนแปลงของยอดขายรวม (ปริมาณ) และรายได้สำหรับแต่ละรัฐแยกกันเป็นเท่าใด
ข้อสังเกต.
● ยอดขายในปริมาณในแคลิฟอร์เนียสูงมากกว่ารายได้ที่สูงเช่นกัน แต่ในวิสคอนซินกลับตรงกันข้ามเลย
ง. ยอดขายรายวันในแต่ละรัฐ
ข้อสังเกต.
● ยอดขายทั้งสามรัฐเพิ่มขึ้นในแต่ละปี และในวันที่ 1 มกราคม เราไม่เห็นยอดขายเลย (อาจเป็นเพราะร้านปิดในปีใหม่)
● ยอดขายของรัฐ TX และ WI เกือบจะเหมือนกัน
4.2 การวิเคราะห์แผนกร้านค้า:
ก. ยอดขายโดยรวม(ปริมาณ) ในแต่ละร้านค้า
ข้อสังเกต
● ที่น่าสนใจ แม้ว่ารัฐแคลิฟอร์เนียจะมีสัดส่วน 43.6% ของยอดขายโดยรวม แต่ยอดขายรวมของร้านค้า 2 แห่งก็อยู่ในอันดับสี่ล่างสุด
● ร้านค้า CA_3 มียอดขายสูงสุด และร้านค้า CA_4 มียอดขายต่ำที่สุด
ข. ยอดขาย (รายได้) โดยรวมในแต่ละร้านค้า
ค. เปอร์เซ็นต์การเปลี่ยนแปลงของยอดขายรวม (ปริมาณ) และรายได้สำหรับแต่ละร้านค้าแยกกันเป็นเท่าใด
ข้อสังเกต.
● รัฐแคลิฟอร์เนียคิดเป็น 43.6% ของยอดขายโดยรวม
ง. ยอดขายรายวันในแต่ละร้าน
ข้อสังเกต.
● ยอดขายสูงสุดมาจากแผนก 'FOODS_3' และต่ำสุดมาจากแผนก 'HOBBIES_2' แผนก 'FOOD_3' เพียงอย่างเดียวมีสัดส่วนการขาย 50% และอีก 6 แผนกคิดเป็นส่วนที่เหลือ 50%
● แม้ว่ายอดขายรวมจากหมวดหมู่ "HOBBIES" จะน้อยกว่ามาก (9.3%) แต่ที่น่าสนใจคือแผนก "HOBBIES_1" มียอดขายสูงเมื่อเทียบกับแผนก "FOODS_1" ของหมวด FOODS
4.3 การวิเคราะห์การแบ่งหมวดหมู่:
ก. ยอดขายโดยรวม(ปริมาณ) ในแต่ละหมวด
ข้อสังเกต
● อาหารมีเปอร์เซ็นต์การขายมากที่สุด ในขณะที่งานอดิเรกมีเปอร์เซ็นต์ต่ำสุด
● เห็นได้ชัดว่าผู้บริโภคซื้อของใช้ในบ้านมากกว่างานอดิเรก และเนื่องจากผลิตภัณฑ์อาหารเป็นสิ่งจำเป็น ยอดขายจึงแข็งแกร่งเช่นกัน
ข. ยอดขาย(รายได้)โดยรวมในแต่ละหมวด
ข้อสังเกต.
● ยอดขายครัวเรือนในปริมาณต่ำมากแต่มีรายได้สูงมาก นั่นหมายความว่าผลิตภัณฑ์ในครัวเรือนมีราคาแพง
ค. เปอร์เซ็นต์การเปลี่ยนแปลงของยอดขายรวม (ปริมาณ) และรายได้สำหรับแต่ละหมวดหมู่แยกกันเป็นเท่าใด
ข้อสังเกต.
ง. ยอดขายรายวันในแต่ละหมวด
ข้อสังเกต.
● ยอดขายรวมรายวันของหมวดอาหารสูงที่สุดและมีแนวโน้มสูงขึ้น (ยอดขายเพิ่มขึ้นในช่วงหลายปีที่ผ่านมา)
● ยอดขายรวมรายวันของหมวดหมู่งานอดิเรกมีน้อยที่สุดและคงที่ตลอดหลายปีที่ผ่านมา
● ยอดขายรวมรายวันของหมวดหมู่ครัวเรือนก็มีแนวโน้มสูงขึ้นเช่นกัน (ยอดขายเพิ่มขึ้นในช่วงหลายปีที่ผ่านมา)
4.4 การวิเคราะห์การแบ่งแผนก:
ก. ยอดขายโดยรวม(ปริมาณ) ในแต่ละแผนก
ข้อสังเกต.
● FOODS_3 และ Hobby_2 มีจำนวนยอดขายสูงและลดลงตามลำดับ
ข. ยอดขาย(รายได้)โดยรวมในแต่ละแผนก
ข้อสังเกต.
● FOODS_3 และ Hobby_2 มีรายได้สูงขึ้นและลดลงตามลำดับ
ค. เปอร์เซ็นต์การเปลี่ยนแปลงของยอดขายรวม (ปริมาณ) และรายได้สำหรับแต่ละแผนกแยกกันเป็นเท่าใด
ข. ยอดขายรายวันในแต่ละแผนก
ข้อสังเกต.
● ยอดขายสูงสุดมาจากแผนก 'FOODS_3' และต่ำสุดมาจากแผนก 'HOBBIES_2' แผนก 'FOOD_3' เพียงอย่างเดียวมีสัดส่วนการขาย 50% และอีก 6 แผนกมียอดขายที่เหลือ 50%
● แม้ว่ายอดขายรวมจากหมวดหมู่ "HOBBIES" จะน้อยกว่ามาก (9.3%) แต่ที่น่าสนใจคือแผนก "HOBBIES_1" มียอดขายสูงเมื่อเทียบกับแผนก "FOODS_1" ของหมวด FOODS
4.5 การวิเคราะห์การแบ่งรายการ
ก. ยอดขายรวม 5 รายการจากด้านบน
ข้อสังเกต.
● ยอดขายสูงสุดคือ 'FOODS3. Sell_prices.csv
090' มาจากแผนก FOODS
● ยอดขายสูงสุดอันดับสองคือ 'FOODS3. Sell_prices.csv
586' ก็มาจากแผนก FOODS เช่นกัน
ข. ยอดขายรวม 5 รายการตั้งแต่ลงมา
ข้อสังเกต.
● ยอดขายต่ำสุดคือ 'HOBBIES2. Sales_train_evaluation.csv
119' มาจากแผนก HOBBIES
สัดส่วนเทียบกับสัดส่วนการขายหมวดสินค้า
ข้อสังเกต.
● ทั้งสามรัฐมีสัดส่วนยอดขายที่ใกล้เคียงกันสำหรับผลิตภัณฑ์ทั้งสามหมวดหมู่
● สัดส่วนยอดขายหมวดอาหารในรัฐเท็กซัสและวิสคอนซินเท่ากัน
หมวดหมู่สินค้าเทียบกับสัดส่วนยอดขาย
ข้อสังเกต.
● หมวดหมู่อาหารมียอดขายและงานอดิเรกที่สูงขึ้น ซึ่งถือว่าต่ำที่สุดในทั้ง 3 รัฐ
● รัฐเท็กซัสและวิสคอนซินมีสัดส่วนยอดขายสำหรับหมวดหมู่ผลิตภัณฑ์งานอดิเรกใกล้เคียงกัน
ราคาเทียบกับความต้องการ
มี EDA มากมายที่คุณสามารถตรวจสอบได้ที่นี่
<แข็งแกร่ง>6. วิศวกรรมข้อมูล
ข้อมูลที่อยู่กับที่: - อนุกรมเวลาที่อยู่กับที่คืออนุกรมเวลาที่มีคุณสมบัติไม่ขึ้นอยู่กับว่าอนุกรมนั้นถูกสังเกตอย่างไร
⭒ อนุกรมเวลาที่มีแนวโน้มหรือฤดูกาลไม่คงที่ แนวโน้มและฤดูกาลจะส่งผลต่อมูลค่าของอนุกรมเวลาในเวลาที่ต่างกัน
เพื่อลดแนวโน้มข้อมูลอนุกรมเวลา จึงมีเทคนิคการแปลงบางอย่างที่ใช้และมีการระบุไว้ดังต่อไปนี้
- สำหรับ d_id, state_id, store_id, cat_id, dept_id และ item_id จะติดป้ายกำกับการเข้ารหัสโดยตรง
2. ใช้ค่าเฉลี่ยของชุดค่าผสมที่เป็นไปได้ทั้งหมด เนื่องจากรายการ ร้านค้า หมวดหมู่ สถานะ ฯลฯ มีความสัมพันธ์กัน
3. ใน EDA ฉันค้นพบว่าแม้ว่าเราไม่สามารถหาช่วงเวลาเป็นเดือนหรือเป็นปีได้ แต่เราก็สามารถหาได้เป็นสัปดาห์ ในเรื่องนั้น วิธีหนึ่งในการจับภาพตามช่วงเวลาคือการ "ล่าช้า" ข้อมูล โดยที่มูลค่าเป้าหมายของเราคือความต้องการ (ปริมาณ)
4. แบบโรลลิ่ง:รับค่าเฉลี่ยแบบโรลลิ่งและส่วนเบี่ยงเบนมาตรฐานแบบโรลลิ่งโดยมีกะ 28 วัน
5. จัดการกับค่าที่หายไป
เติมค่าที่หายไปด้วยค่าเฉลี่ย
สมุดบันทึกของ Feature Engineering อยู่ที่ ที่นี่
<แข็งแกร่ง>7. แนวทางที่มีอยู่.
โซลูชัน 1:
ก. นักวิทยาศาสตร์ด้านข้อมูลสรุปผลการค้นพบของเขาจากการแข่งขันการคาดการณ์การขายแบบ M5 ในบทความนี้ ซึ่งเกี่ยวข้องกับการประมาณยอดขายในอนาคตในสถานที่ตั้งของ Walmart หลายแห่ง เขาพูดถึงคำตอบและวิธีที่โมเดลการเรียนรู้ของเครื่องทำงานได้ดีที่สุด
ข. ในทัวร์นาเมนต์นี้ เขากล่าวถึงความท้าทายสองประการ ได้แก่:
- การยืดเยื้อเป็นเวลานานโดยไม่มียอดขายติดต่อกันเรียกว่าค่าที่ไม่ต่อเนื่อง
- ขอบเขตการคาดการณ์ที่ขยายออกไป: ผู้แข่งขันจะต้องสร้างการคาดการณ์เป็นระยะเวลา 4 สัปดาห์ เพิ่มเติมจากสัปดาห์ที่กำลังจะมาถึง
ค. เขายังพูดถึงส่วนวิศวกรรมฟีเจอร์ด้วย เขาแนะนำให้เรามองหาลักษณะที่จะทำให้เราได้รับข้อมูลสามชิ้นต่อไปนี้:
● ฤดูกาล
● เทรนด์
● ราคา
ง. การสูญเสีย Tweedie เพื่อจัดการกับค่าที่ไม่ต่อเนื่อง
โซลูชันที่ 2:
ก. เขาใช้โมเดล LightGBM ต่างๆ ผสมกัน โดยแต่ละรุ่นมีน้ำหนักเท่ากัน
ข. รวบรวมข้อมูลจากแต่ละร้านค้า (10 รุ่น) แต่ละหมวดหมู่ร้านค้า (30 รุ่น) และแต่ละแผนกร้านค้า ฝึกอบรมแบบจำลองเพื่อสร้างการฉายภาพสำหรับชุดร้านค้าผลิตภัณฑ์ (70 รุ่น)
ค. ทั้งในโครงสร้างแบบเรียกซ้ำและไม่เรียกซ้ำ โมเดลคำนึงถึง ID ที่แตกต่างกัน ข้อมูลที่เกี่ยวข้องกับปฏิทิน กิจกรรมพิเศษ โปรโมชั่น ราคา และข้อมูลการขายต่อหน่วย
ง. แนวทางนี้ได้รับการปรับปรุงโดยการประเมินค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของข้อผิดพลาดที่เกิดจากแบบจำลองแต่ละแบบและการผสมผสานของแบบจำลองเหล่านั้น รวมถึงการประเมิน 28 วันสี่วันที่ผ่านมา
8. โมเดลการเรียนรู้ของเครื่อง
ตัวเลือก (i) :- รุ่นเดียวสำหรับร้านค้าและสัปดาห์ทั้งหมด
- ข้อมูลถูกถ่ายหลังจาก 1,500 วัน (d 1,500) เพื่อความสะดวกในการประมวลผลที่รวดเร็ว
- แบ่งข้อมูลออกเป็น Train, Test, Validation
ⓐ การถดถอยเชิงเส้น
Linear Regression เป็นอัลกอริทึมการเรียนรู้ของเครื่อง ซึ่งอยู่บนพื้นฐานของการเรียนรู้แบบมีผู้สอน ซึ่งค้นหาความสัมพันธ์เชิงเส้นระหว่างเป้าหมายกับตัวทำนายตั้งแต่หนึ่งตัวขึ้นไป
● คะแนน RMSE=0.00264
คุณลักษณะที่สำคัญในโมเดลการถดถอยเชิงเส้น
ⓑ ตัวถดถอย XGBoost
อัลกอริธึมการเรียนรู้ของเครื่องทั้งมวล XGBoost ซึ่งอิงตามแผนผังการตัดสินใจ ใช้เฟรมเวิร์กการเร่งการไล่ระดับสี
- หลังจากใช้การปรับแต่งไฮเปอร์ปาร์มิเตอร์ best Learning_rate = 0.0451, max_leaves = 80 และ min_child_weight = 36 ซึ่งให้ค่า RMSE เท่ากับ 0.1637
● คะแนน RMSE=0.1637
คุณลักษณะที่สำคัญในโมเดล XGBoost Regressor
ⓒ ตัวถดถอย LGM
นี่คือรุ่น Light ของโมเดล Gradient Boosting มันเป็นโมเดลวงดนตรีแบบต้นไม้
- หลังจากใช้การปรับแต่งไฮเปอร์ปาร์มิเตอร์ best Learning_rate = 0.0355, max_deep = 135 และ num_leaves = 54 ซึ่งให้ค่า RMSE เท่ากับ 0.1637
● คะแนน RMSE=0.1080
คุณลักษณะที่สำคัญในโมเดล LGBM Regressor
ⓓ Cat Boost Regressor
การเพิ่มความไล่ระดับสีเป็นพื้นฐานของ Cat Boost เพื่อลดเวลาในการคาดการณ์ซึ่งเป็นสิ่งสำคัญในสถานการณ์ที่มีความหน่วงต่ำ Cat Boost จะใช้แผนผังแบบสมมาตร
- หลังจากใช้การปรับแต่งไฮเปอร์ปาร์มิเตอร์ best Learning_rate = 0.0291, ความลึก = 4 และ num_leaves = 199 ซึ่งให้ค่า RMSE เท่ากับ 0.0471
● คะแนน RMSE=0.0471
คุณลักษณะสำคัญในโมเดล Cat Boost Regressor
ⓔ ตัวถดถอยแผนผังการตัดสินใจ
ในการใช้การถดถอยแผนผังการตัดสินใจ คุณสมบัติของวัตถุจะถูกสังเกต และแบบจำลองจะได้รับการฝึกโดยใช้โครงสร้างของต้นไม้เพื่อคาดการณ์ข้อมูลในอนาคตและสร้างผลลัพธ์ต่อเนื่องที่มีประโยชน์
- หลังจากใช้การปรับแต่งไฮเปอร์ปาร์มิเตอร์ max_width=52, min_samples_split= 25 และ min_samples_leaf = 293 ที่ดีที่สุด ซึ่งให้ค่า RMSE เท่ากับ 0.0080
● คะแนน RMSE=0.0080
คุณลักษณะที่สำคัญในแบบจำลอง Regressor แบบแผนผังการตัดสินใจ
● เราใช้แบบจำลองสำหรับการผสมผสานทั้งหมด
- จัดเก็บโมเดลที่ชาญฉลาด
- ร้านค้า, หมวดหมู่รุ่นที่ชาญฉลาด
- ร้านค้าแผนกฉลาดโมเดล
ตัวเลือก (ii) : หนึ่งรุ่นสำหรับแต่ละร้านค้าตลอดทั้งสัปดาห์
ตัวเลือกที่ชัดเจนที่สุดคือตัวเลือกแรก มันเกี่ยวข้องกับการใช้แบบจำลองเดียวกันเพื่อคาดการณ์ข้อมูลทั่วทั้งขอบเขตการคาดการณ์ทั้งหมด
ตัวถดถอย LGBM
● คะแนน RMSE เฉลี่ยในร้านค้าทั้งหมด 0.292 และ 0.22 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ
ตัวรับ CatBoost
● คะแนน RMSE เฉลี่ยในร้านค้าทั้งหมด 0.050 และ 0.02907 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ
ตัวถดถอย XGBoost
● คะแนน RMSE เฉลี่ยในร้านค้าทั้งหมด 0.1218 และ 0.041 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ
โมเดลที่ดีที่สุดในการคาดการณ์อย่างชาญฉลาดคือ LGBM Regressor
หมวดหมู่ร้านค้ารูปแบบรายเดือนที่ชาญฉลาด: -
● คะแนน RMSE เฉลี่ยในร้านค้าทั้งหมด ในหมวดหมู่ 0.118 และ 0.021 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ
ร้านค้า แผนก ฉลาดแบบรายเดือน
● คะแนน RMSE เฉลี่ยของร้านค้าทั้งหมด แผนก 0.28 และ 0.16 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ
ตัวเลือก (iii): หนึ่งโมเดลสำหรับทุกสัปดาห์
จัดเก็บโมเดลรายสัปดาห์อย่างชาญฉลาด
● คะแนน RMSE เฉลี่ยในร้านค้าทั้งหมดรายสัปดาห์ 0.028 และ 0.056 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ
ร้านค้าหมวดหมู่รุ่นรายสัปดาห์ที่ชาญฉลาด: -
● คะแนน RMSE เฉลี่ยจากร้านค้าทั้งหมด หมวดหมู่รายสัปดาห์ 0.0592 และ 0.064 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ
ร้านค้า แผนก ฉลาดรายสัปดาห์ รุ่น:-
● คะแนน RMSE เฉลี่ยในร้านค้าและแผนกทั้งหมดรายสัปดาห์ 0.042 และ 0.026 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ
ตัวเลือก (iv): การสร้างแบบจำลองแบบเรียกซ้ำ
เก็บโมเดลแบบเรียกซ้ำที่ชาญฉลาด
● คะแนน RMSE เฉลี่ยจากร้านค้าทั้งหมดแบบเรียกซ้ำ 0.0892 และ 0.026 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ
ร้านค้า, หมวดหมู่รูปแบบการเรียกซ้ำที่ชาญฉลาด: -
● คะแนน RMSE เฉลี่ยจากร้านค้า หมวดหมู่ และสัปดาห์แบบเรียกซ้ำ 0.098 และ 0.026 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ
ร้านค้า แผนก รูปแบบการเรียกซ้ำที่ชาญฉลาด:-
● คะแนน RMSE เฉลี่ยของร้านค้า แผนก และสัปดาห์แบบเรียกซ้ำ 0.052 และ 0.026 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ
<แข็งแกร่ง>9. โมเดลการเรียนรู้เชิงลึก
“ชีวิตนั้นเรียบง่ายจริงๆ แต่เรายืนกรานที่จะทำให้มันซับซ้อน” - ขงจื๊อ
หลังจากทดลองกับแมชชีนเลิร์นนิงที่ซับซ้อนเหล่านี้ ฉันตัดสินใจลองใช้โมเดลการเรียนรู้เชิงลึกที่เรียบง่ายด้วยเลเยอร์ LSTM, Dense และ Dropout เพียงไม่กี่ชั้น
รุ่นเดียวสำหรับร้านค้าและสัปดาห์ทั้งหมด
จำลอง a:- 4 LSTM เลเยอร์และ 1 เลเยอร์หนาแน่น
● คะแนน RMSE 0.0935 และ 0.0332 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ
รุ่น b:- 2 LSTM, 2 Conv1D และ 3 ชั้นหนาแน่น
● คะแนน RMSE 0.192 และ 0.36 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ
รุ่น c:- 3LSTM, 2 Conv1D และ 5Dense เลเยอร์
● คะแนน RMSE 0.362 และ 0.302 สำหรับการฝึกอบรมและการตรวจสอบตามลำดับ
10. การทดลองที่ทำงานได้ไม่ดีนัก
- โมเดลการเรียนรู้เชิงลึกที่ซับซ้อนพร้อม LSTM สำหรับแต่ละร้านค้า
- โมเดลการเรียนรู้เชิงลึกสำหรับแต่ละร้านค้า โมเดลที่ชาญฉลาดตามหมวดหมู่
- โมเดลการเรียนรู้เชิงลึกสำหรับแต่ละร้านค้า โมเดลที่ชาญฉลาดตามหมวดหมู่
- อาริมะ และผองเพื่อน.
11. การปรับใช้
12. การทำงานและการปรับปรุงในอนาคต
● โมเดลทั้งมวลพร้อมการซ้อน (ใช้การคาดการณ์จากหลายโมเดลเพื่อสร้างโมเดลใหม่ ซึ่งจะใช้เพิ่มเติมสำหรับการคาดการณ์ในชุดทดสอบ)
● ใช้โมเดลที่ซับซ้อนกว่านี้และการปรับพารามิเตอร์ Hyper
● ใช้ GRU และ LSTM แบบสองทิศทางแทน LSTM
13. ข้อมูลอ้างอิง
● https://dipanshurana.medium.com/m5-forecasting-accuracy-1b5a10218fcf
● https://github.com/Mcompetitions/M5-methods
● https://medium.com/thecyphy/m5-forecasting-accuracy-af6c45fb7d58
โครงการที่สมบูรณ์มีอยู่ในGithub หากมีข้อสงสัยเกี่ยวกับโครงการ โปรดติดต่อฉันได้ที่ Linkedin