“Apakah kita pada akhirnya bisa memprediksi masa depan? Ya!! tapi mungkin tidak begitu tepat.”

Daftar isi:

  1. Masalah Bisnis.
  2. Sumber Data/Ekstraksi Data.
  3. Metrik evaluasi.
  4. Memetakan masalah dunia nyata ke masalah ML
  5. Analisis Data Eksplorasi (EDA).
  6. Rekayasa Data.
  7. Pendekatan yang Ada.
  8. Model Pembelajaran Mesin.
  9. Model Pembelajaran Mendalam.
  10. Eksperimen yang tidak berhasil dengan baik.
  11. Penyebaran.
  12. Pekerjaan dan Perbaikan di Masa Depan.
  13. Referensi.

1. Masalah bisnis:

1.1 Apa yang dimaksud dengan perkiraan penjualan?

Teknik mengantisipasi penjualan di masa depan, baik jangka pendek maupun jangka panjang, dengan menggunakan data penjualan sebelumnya disebut peramalan penjualan.

1.2 Rumusan Masalah.

Misalnya, berinvestasi dalam strategi baru untuk meningkatkan pendapatan barang-barang mereka yang mungkin menyebabkan buruknya penjualan di masa depan melalui promosi/diskon, dll., memperkirakan penjualan sangat penting bagi perusahaan. Oleh karena itu, menjadi penting bagi bisnis yang sudah mapan untuk membuat proyeksi penjualan yang realistis untuk masa depan.

1.3 Latar belakang persaingan.

Makridakis Open Forecasting Center (MOFC) di Universitas Nicosia melakukan penelitian peramalan mutakhir dan menawarkan pelatihan prediksi perusahaan. Ini membantu bisnis dalam membuat prediksi yang tepat, memperkirakan tingkat ketidakpastian, menghindari kesalahan yang merugikan, dan menggunakan teknik perkiraan yang optimal. Kompetisi Makridakis MOFC yang pertama diadakan pada tahun 1980an, dan kompetisi ini sangat terkenal.

Anda akan mengantisipasi penjualan harian selama 28 hari mendatang dalam kompetisi ini, versi kelima, menggunakan data penjualan hierarki dari Walmart, perusahaan terbesar di dunia berdasarkan pendapatan.

1.4 Tujuan.

Sasaran utamanya adalah memprediksi secara akurat prakiraan titik penjualan unit untuk berbagai produk yang dijual Walmart di AS, sehingga lokasi Walmart yang berbeda dapat meningkatkan pendapatan mereka.

1.5 Tujuan dan kendala bisnis.

  1. Kemampuan Interpretasi Tinggi karena kita harus memahami faktor penting yang berkontribusi terhadap prediksi yang baik.
  2. Tidak diperlukan latensi rendah yang ketat karena kita perlu memperkirakan penjualan setiap hari, bukan menit demi menit atau jam demi jam.

2. Sumber Data/Ekstraksi Data.

Data untuk masalah ini dapat diunduh dari link ini.

2.1 Ikhtisar data.

Itu menggunakan data penjualan hierarki yang dapat diakses oleh Walmart. Data dikumpulkan berdasarkan departemen, kategori produk, dan toko di tiga negara bagian AS yang berbeda: California, Texas, dan Wisconsin. Hal ini juga berisi faktor penjelas, seperti harga, promosi, hari dalam seminggu, dan acara khusus, selain data rangkaian waktu.

Sederhananya, kumpulan data ini melibatkan penjualan unit 3.049 produk, yang diklasifikasikan ke dalam 3 kategori produk (Hobi, Makanan, dan rumah tangga) dan 7 departemen produk, dan produk dijual di sepuluh toko, yang berlokasi di tiga negara bagian. (CA, TX, dan WI).

Dataset yang diberikan sudah berisi data penjualan selama 5 tahun mulai tanggal 29 Januari 2011 hingga 22 April 2016.

Dataset terdiri dari 4 file.

  1. Calendar.csv: Berisi informasi tentang tanggal penjualan produk.
  • tanggal: Tanggal dalam format “yyyy-mm-dd”.
  • wm_yr_wk: Id minggu tempat tanggal tersebut berada.
  • hari kerja: Jenis hari (Sabtu, Minggu,…, Jumat).
  • wday: Id hari kerja, dimulai dari hari Sabtu.
  • bulan: Bulan pada tanggal.
  • tahun : Tahun pada tanggal tersebut.
  • event_name_1: Jika tanggal menyertakan suatu acara, nama acara tersebut.
  • event_type_1: Jika tanggal menyertakan acara, jenis acara tersebut.
  • nama_acara_2: Jika tanggal menyertakan acara kedua, nama acara tersebut.
  • event_type_2: Jika tanggal menyertakan acara kedua, jenis acara ini.
  • snap_CA, snap_TX, dan snap_WI: Variabel biner (0 atau 1) yang menunjukkan apakah penyimpanan CA, TX atau WI mengizinkan pembelian SNAP pada tanggal pemeriksaan. 1 menunjukkan bahwa pembelian SNAP diperbolehkan.

2. Sales_train_evaluation.csv : Berisi data historis penjualan unit harian per produk dan toko.

  • store_id : ID toko tempat produk dijual
  • item_id : Id produk.
  • wm_yr_wk: Id minggu ini.
  • sell_price: Harga produk untuk minggu/toko tertentu. Harga diberikan per minggu (rata-rata selama tujuh hari). Jika tidak tersedia berarti produk tersebut tidak terjual selama minggu pemeriksaan. Perhatikan bahwa meskipun harga konstan setiap minggu, harga dapat berubah seiring waktu (baik set pelatihan maupun pengujian).

3. Sell_prices.csv : Berisi informasi harga produk yang dijual per toko dan tanggalnya.

  • item_id : Id produk.
  • dept_id: Id departemen tempat produk berada.
  • cat_id: Id kategori produk tersebut.
  • store_id : ID toko tempat produk dijual.
  • state_id : Negara dimana toko berada.
  • d_1, d_2, …, d_i, … d_1941: Jumlah unit yang terjual pada hari ke-i, mulai tahun 2011–01–29.

4. Sample_submission.csv: Format pengiriman yang benar.

kredit: M5 -Pedoman

3. Metrik evaluasi.

Kompetisi M5 telah menyediakan Metrik Kesalahan Skala Root Mean Square, Namun kami menggunakan RMSE untuk pelatihan dan pengujian model.

● Setiap kesalahan tidak ditangani secara merata oleh RMSE. Kesalahan yang paling penting diberi bobot lebih.

● Oleh karena itu, RMSE yang buruk dapat diperoleh hanya dengan satu kesalahan yang signifikan.

4. Memetakan masalah dunia nyata ke dalam masalah ML.

Masalah yang kami selesaikan adalah masalah deret waktu yang dapat kami ubah menjadi masalah pembelajaran terawasi dengan melakukan Rekayasa Fitur pada data deret waktu mentah. Kemudian kita dapat menggunakan fitur-fitur ini sebagai variabel masukan dan 'penjualan barang' sebagai variabel keluaran (Bilangan nyata) dan menyelesaikan masalah peramalan menggunakan model Regresi pembelajaran Mesin.

5. Analisis Data Eksplorasi (EDA).

Analisis data eksplorasi adalah metode penting yang harus kita lakukan untuk memahami data sebelum kita dapat menggunakan pembelajaran mesin untuk memecahkan masalah.

Jadi, pertama-tama akan dimulai dengan file data (.CVS) yang berisi nilai Nan.

Seperti yang Anda lihat, ada banyak nilai null di kolom event_name_1, event_name_2, event_type_1 dan event_type_2.

Bagaimana pola keseluruhan penjualan (kuantitas) di seluruh negara bagian dan toko setiap hari?

Pengamatan

● Total penjualan (jumlah unit terjual) mengalami tren sedikit peningkatan dari tahun 2011 hingga 2016.

● Setiap tahun, pola penjualannya sama, dan pada tanggal 1 Januari, kami tidak melihat adanya penjualan (mungkin toko tutup pada Tahun Baru)

Bagaimana pola keseluruhan penjualan (Pendapatan) di seluruh negara bagian dan toko setiap hari?

Pengamatan

● Total penjualan (pendapatan) cenderung meningkat setiap tahun.

● Pendapatan dan penjualan keseluruhan (kuantitas) setiap hari hampir mengikuti tren.

Bagaimana pola total penjualan (kuantitas) setiap tahun secara terpisah?

Pengamatan

● Terdapat pola penjualan keseluruhan yang serupa sepanjang tahun dan memiliki pola musiman tahunan

● Dari penjualan tahun 2012 hingga 2015 kami mengamati penjualan setiap 2 bulan memiliki pola yang sama dan juga deret waktu setiap tahun pada tahun 2012–2015 merupakan deret waktu stasioner.

Berapa persentase perubahan total penjualan (kuantitas) dan pendapatan untuk setiap tahun secara terpisah?

Pengamatan

● Pendapatan meningkat 1% hingga 2% setiap tahun.

● Penjualan (kuantitas) meningkat setiap tahun kecuali tahun 2014.

Berapa Musiman Bulanan dari total penjualan (kuantitas) sepanjang tahun di semua toko?

Pengamatan

● Bulan Maret dan November masing-masing merupakan bulan dengan penjualan tertinggi dan terendah.

● Penjualan turun pada pertengahan tahun, pulih, dan kemudian turun lagi pada akhir tahun.

Berapa Musiman Bulanan dari total penjualan (Pendapatan) sepanjang tahun di semua toko?

Pengamatan

● Bulan Maret dan Juni masing-masing merupakan bulan dengan pendapatan tertinggi dan terendah.

● Pendapatan dan penjualan keseluruhan (kuantitas) setiap bulannya hampir mengikuti tren.

Berapa persentase perubahan total penjualan (kuantitas) dan pendapatan untuk setiap bulan secara terpisah?

Pengamatan

● Jumlah penjualan bulanan lebih tinggi pada bulan Maret dan April.

Berapa Musiman Mingguan dari total penjualan (kuantitas) di semua toko?

Pengamatan

● Penjualan lebih tinggi pada akhir pekan dan menurun sepanjang minggu, namun meningkat lagi pada hari Jumat di awal akhir pekan.

● Kami melihat bahwa konsumen cenderung berbelanja lebih banyak pada akhir pekan dibandingkan pada hari kerja, dan secara keseluruhan penjualan pada hari Minggu lebih rendah dibandingkan pada hari Sabtu.

Berapa Musiman Mingguan dari total penjualan (pendapatan) di seluruh toko?

Pengamatan

● Pendapatan lebih tinggi pada akhir pekan dan hari lainnya bersifat konstan.

● Pendapatan dan penjualan keseluruhan (kuantitas) pada hari kerja hampir mengikuti tren.

Mengingat data disusun secara hierarki, mari kita menganalisisnya di setiap tingkat untuk memberikan gambaran yang jelas tentang setiap divisi, termasuk negara bagian, toko, kategori, dan departemen.

4.1 Analisis Pembagian Negara:

A. Penjualan keseluruhan (kuantitas) di setiap negara bagian.

Pengamatan.

● Dari tiga negara bagian, California menyumbang persentase yang tinggi terhadap total penjualan secara kuantitas.

● Total penjualan (kuantitas) Texas dan Wisconsin hampir sama.

B. Penjualan keseluruhan (pendapatan) di setiap negara bagian.

Pengamatan.

● Dari tiga negara bagian, California menyumbang persentase Pendapatan yang tinggi.

● Pendapatan Texas dan Wisconsin hampir sama.

c. Berapa persentase perubahan total penjualan (kuantitas) dan pendapatan untuk setiap negara bagian secara terpisah?

Pengamatan.

● Penjualan dalam kuantitas di California tinggi dan pendapatannya juga tinggi. Namun di Wisconsin justru sebaliknya.

d. Penjualan harian di setiap negara bagian.

Pengamatan.

● Penjualan di ketiga negara bagian meningkat setiap tahunnya, dan pada tanggal 1 Januari, kami tidak melihat adanya penjualan (mungkin toko tutup pada Tahun Baru)

● Penjualan hampir sama untuk negara bagian TX dan WI.

4.2 Analisis divisi Toko:

A. Penjualan keseluruhan (kuantitas) di setiap toko.

Pengamatan

● Menariknya, meskipun Negara Bagian California menyumbang 43,6% dari keseluruhan penjualan, dua dari total penjualan tokonya berada di peringkat empat terbawah.

● Toko CA_3 memiliki penjualan tertinggi dan toko CA_4 memiliki penjualan terendah.

B. Penjualan keseluruhan (pendapatan) di setiap toko.

C. Berapa persentase perubahan total penjualan (kuantitas) dan pendapatan untuk masing-masing toko secara terpisah?

Pengamatan.

● Negara Bagian California menyumbang 43,6% dari keseluruhan penjualan.

D. Penjualan harian di setiap toko.

Pengamatan.

● Penjualan tertinggi berasal dari departemen ‘FOODS_3’ dan terendah berasal dari departemen ‘HOBBIES_2’. Departemen 'FOOD_3' sendiri memiliki proporsi penjualan 50% dan 6 departemen lainnya menyumbang 50%.

● Meskipun total penjualan dari kategori 'HOBBIES' sangat sedikit (9,3%), menariknya departemen 'HOBBIES_1' memiliki jumlah penjualan yang tinggi dibandingkan dengan departemen 'FOODS_1' pada kategori FOODS.

4.3 Analisis pembagian Kategori:

A. Penjualan keseluruhan (kuantitas) di setiap kategori.

Pengamatan

● Makanan memiliki persentase penjualan terbesar, sedangkan hobi memiliki persentase penjualan terendah.

● Jelas bahwa konsumen membeli lebih banyak kebutuhan dalam negeri dibandingkan hiburan, dan karena produk makanan merupakan kebutuhan, penjualan juga meningkat.

B. Penjualan keseluruhan (pendapatan) di setiap kategori.

Pengamatan.

● Penjualan rumah tangga secara kuantitas sangat rendah namun pendapatannya sangat tinggi. itu berarti produk rumah tangga mahal.

C. Berapa persentase perubahan total penjualan (kuantitas) dan pendapatan untuk masing-masing kategori secara terpisah?

Pengamatan.

D. Penjualan harian di setiap kategori.

Pengamatan.

● Total penjualan harian kategori Makanan tertinggi dan trennya meningkat (penjualan meningkat dari tahun ke tahun)

● Total penjualan harian kategori Hobi adalah yang paling sedikit dan hampir konstan selama bertahun-tahun.

● Total penjualan harian kategori Rumah Tangga juga mengalami tren meningkat (penjualan meningkat dari tahun ke tahun).

4.4 Analisis Pembagian Departemen:

A. Penjualan keseluruhan (kuantitas) di setiap departemen.

Pengamatan.

● FOODS_3 dan Hobbies_2 masing-masing memiliki jumlah penjualan yang lebih tinggi dan lebih rendah.

B. Penjualan keseluruhan (pendapatan) di setiap departemen.

Pengamatan.

● FOODS_3 dan Hobbies_2 masing-masing memiliki pendapatan lebih tinggi dan lebih rendah.

C. Berapa persentase perubahan total penjualan (kuantitas) dan pendapatan untuk masing-masing departemen secara terpisah?

B. Penjualan harian di setiap departemen.

Pengamatan.

● Penjualan tertinggi berasal dari departemen ‘FOODS_3’ dan terendah berasal dari departemen ‘HOBBIES_2’. Departemen 'FOOD_3' sendiri memiliki proporsi penjualan 50% dan 6 departemen lainnya menyumbang 50% penjualan sisanya.

● Meskipun total penjualan dari kategori 'HOBBIES' sangat sedikit (9,3%), menariknya departemen 'HOBBIES_1' memiliki jumlah penjualan yang tinggi dibandingkan dengan departemen 'FOODS_1' pada kategori FOODS.

4.5 Analisis pembagian item.

A. Keseluruhan penjualan 5 item dari atas.

Pengamatan.

● Penjualan tertinggi ‘FOODS3. Sell_prices.csv090’ berasal dari departemen FOODS.

● Penjualan tertinggi kedua adalah ‘FOODS3. Sell_prices.csv586’ juga berasal dari departemen FOODS.

B. Penjualan keseluruhan 5 item dari bawah.

Pengamatan.

● Penjualan terendah ‘HOBBIES2. Sales_train_evaluation.csv119’ berasal dari departemen HOBBIES.

Proporsi penjualan kategori Sates Vs Produk.

Pengamatan.

● Ketiga negara bagian tersebut memiliki proporsi penjualan yang serupa untuk ketiga kategori produk.

● Proporsi penjualan kategori makanan sama di negara bagian Texas dan Wisconsin

Kategori Produk Vs Proporsi Penjualan Sate

Pengamatan.

● Kategori makanan menyumbang penjualan tertinggi dan hobi terendah di ketiga negara bagian.

● Negara bagian Texas dan Wisconsin memiliki proporsi penjualan yang sama untuk kategori produk Hobi.

Harga vs Permintaan.

Ada banyak EDA yang bisa Anda periksa di sini.

6. Rekayasa Data.

Data Stasioner: - Deret waktu stasioner adalah deret waktu yang sifat-sifatnya tidak bergantung pada deret waktu yang diamati.

⭒ Rangkaian waktu dengan tren atau musiman tidaklah stasioner. Tren dan musiman akan mempengaruhi nilai deret waktu pada waktu yang berbeda.

Untuk mengurangi tren data deret waktu, ada teknik transformasi tertentu yang digunakan dan dirinci sebagai berikut.

  1. Untuk d_id, state_id, store_id, cat_id, dept_id dan item_id akan langsung memberi label pengkodean.

2. Terapkan nilai rata-rata dari semua kemungkinan kombinasi. karena item, toko, kategori, negara bagian, dll berkorelasi.

3. Di EDA, saya menemukan bahwa meskipun kita tidak dapat menemukan periodisitas dalam bulan atau tahun, kita dapat menemukannya dalam minggu. Dalam hal ini, salah satu metode untuk menangkap periodisitas adalah dengan “menunda” informasi. dimana nilai target kita adalah permintaan (kuantitas).

4. Pengguliran:mengambil mean bergulir dan deviasi standar bergulir dengan shift 28 hari.

5. Mengatasi nilai-nilai yang hilang.

isi nilai yang hilang dengan mean.

Notebook Rekayasa Fitur ada di sini.

7. Pendekatan yang Ada.

"Solusi 1":

A. Seorang ilmuwan data, merangkum temuannya dari kompetisi perkiraan penjualan M5 dalam artikel ini, yang melibatkan memperkirakan penjualan di masa depan di beberapa lokasi Walmart. Dia berbicara tentang jawabannya dan bagaimana model pembelajaran mesin melakukan tugas dengan sebaik-baiknya.

B. Dalam turnamen ini, ia menyebutkan dua tantangan ukuran, yaitu:

  • Rentang waktu yang panjang tanpa adanya penjualan berturut-turut disebut sebagai nilai intermiten.
  • Cakrawala prediksi yang diperluas: Kompetitor harus membuat proyeksi untuk periode 4 minggu selain minggu berikutnya.

C. Dia juga berbicara tentang bagian rekayasa fitur. Dia menyarankan kita untuk mencari ciri-ciri yang memungkinkan kita memperoleh tiga data berikut:

● Musiman

● Tren

● Penetapan harga

D. Kehilangan Tweedie untuk menangani nilai-nilai yang terputus-putus.

Solusi 2:

A. Dia menggunakan kombinasi model LightGBM yang berbeda, masing-masing memiliki bobot yang sama.

B. Mengumpulkan data dari setiap toko (10 model), setiap kategori toko (30 model), dan setiap departemen toko, melatih model untuk menghasilkan proyeksi untuk rangkaian toko produk (70 model).

C. Baik dalam struktur rekursif maupun non-rekursif, model tersebut memperhitungkan ID yang berbeda, data terkait kalender, acara khusus, promosi, harga, dan data penjualan unit.

D. Pendekatan ini ditingkatkan dengan menilai rata-rata dan deviasi standar kesalahan yang dihasilkan oleh masing-masing model dan kombinasinya, serta empat model 28 hari terakhir.

8. Model Pembelajaran Mesin.

Opsi (i):- Satu model untuk semua toko dan minggu.

  • Data diambil setelah 1500 hari (h 1500) untuk memudahkan pemrosesan yang cepat.
  • Bagilah data menjadi Train, Test, Validation.

ⓐ Regresi Linier.

Regresi Linier adalah algoritma pembelajaran mesin. yang didasarkan pada pembelajaran yang diawasi, yang menemukan hubungan linier antara target dan satu atau lebih prediktor.

● Skor RMSE=0,00264

Fitur Penting dalam Model Regresi Linier.

Regresor XGBoost.

Algoritme pembelajaran mesin ansambel XGBoost, yang didasarkan pada pohon keputusan, memanfaatkan kerangka peningkatan gradien.

  • Setelah menerapkan tuning hyperparmeter best learning_rate = 0.0451, max_leaves = 80, dan min_child_weight = 36 yang memberikan nilai RMSE sebesar 0.1637.

● Skor RMSE=0,1637

Fitur Penting dalam Model Regresor XGBoost.

ⓒ Regresor LGBTM.

Ini adalah versi ringan dari Model Peningkatan Gradien. Ini adalah model ansambel berbasis pohon.

  • Setelah menerapkan tuning hyperparmeter best learning_rate = 0.0355, max_ depth = 135, dan num_leaves = 54 yang memberikan nilai RMSE sebesar 0.1637.

● Skor RMSE=0,1080

Fitur Penting dalam Model Regresor LGBTM.

Regresor Peningkatan Kucing.

Peningkatan gradien adalah dasar dari Cat Boost. Untuk mengurangi waktu prediksi, yang sangat penting dalam situasi latensi rendah, Cat Boost menggunakan pohon simetris.

  • Setelah menerapkan tuning hyperparmeter best learning_rate = 0.0291, depth = 4, dan num_leaves = 199 yang memberikan nilai RMSE sebesar 0.0471.

● Skor RMSE=0,0471

Fitur Penting dalam Model Regresor Cat Boost.

ⓔ Regresor Pohon Keputusan.

Dalam menggunakan regresi pohon keputusan, properti suatu objek diamati, dan model dilatih menggunakan struktur pohon untuk memperkirakan data di masa depan dan menghasilkan keluaran berkelanjutan yang berguna.

  • Setelah menerapkan tuning hyperparmeter best max_ depth=52, min_samples_split= 25, dan min_samples_leaf = 293 yang memberikan nilai RMSE sebesar 0.0080.

● Skor RMSE=0,0080

Fitur Penting dalam Model Regresor Pohon Keputusan.

● Kami menerapkan model ini untuk semua kombinasi.

  1. Simpan Model yang bijaksana.
  2. Toko, Kategori Model bijaksana.
  3. Toko, Model yang bijaksana dari Departemen.

Opsi (ii): Satu model untuk setiap toko selama beberapa minggu.

Pilihan yang paling jelas adalah pilihan pertama. Hal ini memerlukan penerapan model yang sama untuk meramalkan data di seluruh cakrawala perkiraan.

Regresor LGBTM.

● Rata-rata Skor RMSE di seluruh toko masing-masing 0,292 dan 0,22 untuk pelatihan dan validasi.

Regesor CatBoost

● Rata-rata Skor RMSE di seluruh toko masing-masing 0,050 dan 0,02907 untuk pelatihan dan validasi.

Regresor XGBoost

● Rata-rata Skor RMSE di seluruh toko masing-masing 0,1218 dan 0,041 untuk pelatihan dan validasi.

Model terbaik dalam prediksi yang bijaksana adalah Regresor LGBTM.

Model bulanan bijaksana Kategori Toko: -

● Rata-rata Skor RMSE di seluruh toko, berdasarkan kategori masing-masing 0,118 dan 0,021 untuk pelatihan dan validasi.

Toko, model bulanan yang bijaksana dari Departemen.

● Rata-rata Skor RMSE di seluruh toko, berdasarkan departemen masing-masing 0,28 dan 0,16 untuk pelatihan dan validasi.

Opsi (iii): Satu model untuk setiap minggu.

Simpan model mingguan yang bijaksana.

● Rata-rata Skor RMSE di seluruh toko setiap minggunya adalah 0,028 dan 0,056 untuk pelatihan dan validasi.

Toko, Kategori model mingguan yang bijaksana: -

● Rata-rata Skor RMSE di seluruh toko, kategori mingguan masing-masing 0,0592 dan 0,064 untuk pelatihan dan validasi.

Toko, model mingguan yang bijaksana dari Departemen: -

● Rata-rata Skor RMSE di seluruh toko, departemen mingguan masing-masing 0,042 dan 0,026 untuk pelatihan dan validasi.

Opsi (iv): Pemodelan rekursif.

Simpan model rekursif yang bijaksana.

● Rata-rata Skor RMSE di seluruh toko secara rekursif masing-masing 0,0892 dan 0,026 untuk pelatihan dan validasi.

Toko, Model rekursif bijaksana Kategori: -

● Rata-rata Skor RMSE di seluruh toko, kategori, dan minggu secara rekursif masing-masing 0,098 dan 0,026 untuk pelatihan dan validasi.

Toko, model rekursif bijaksana Departemen: -

● Rata-rata Skor RMSE di seluruh toko, departemen, dan minggu secara rekursif masing-masing 0,052 dan 0,026 untuk pelatihan dan validasi.

9. Model Pembelajaran Mendalam.

“Hidup ini sangat sederhana, tetapi kami bersikeras menjadikannya rumit” - Konfusius

Setelah bereksperimen dengan pembelajaran mesin yang kompleks ini, saya memutuskan untuk mencoba model pembelajaran mendalam yang sangat sederhana dengan hanya beberapa lapisan LSTM, Dense, Dropout

Satu model untuk semua toko dan minggu.

Model a: - 4 lapisan LSTM dan 1 lapisan Padat.

● Skor RMSE masing-masing 0,0935 dan 0,0332 untuk pelatihan dan validasi.

Model b:- 2 LSTM, 2 Konv1D dan 3 lapisan Padat.

● Skor RMSE masing-masing 0,192 dan 0,36 untuk pelatihan dan validasi.

Model c:- 3LSTM, 2 lapisan Konv1D dan 5Dense.

● Skor RMSE masing-masing 0,362 dan 0,302 untuk pelatihan dan validasi.

10. Eksperimen yang tidak berjalan dengan baik.

  • Model Pembelajaran Mendalam yang Kompleks dengan LSTM untuk setiap toko.
  • Model Pembelajaran Mendalam untuk setiap Toko, Model bijaksana Kategori.
  • Model Pembelajaran Mendalam untuk setiap Toko, Model bijaksana Kategori.
  • ARIMA dan teman-temannya.

11. Penerapan.

12. Pekerjaan dan Peningkatan di Masa Depan.

● Model ansambel dengan penumpukan (menggunakan prediksi dari beberapa model untuk membangun model baru yang selanjutnya digunakan untuk membuat prediksi pada set pengujian)

● Gunakan beberapa model yang lebih kompleks dan penyetelan parameter Hyper.

● Gunakan GRU dan LSTM Dua Arah, bukan LSTM.

13. Referensi.

https://www.artefact.com/blog/sales-forecasting-in-retail-what-we-learned-from-the-m5-competition-published-in-medium-tech-blog/

https://dipanshurana.medium.com/m5-forecasting-accuracy-1b5a10218fcf

https://github.com/Mcompetitions/M5-methods

https://medium.com/thecyphy/m5-forecasting-accuracy-af6c45fb7d58

Proyek Lengkap tersedia diGithub. Untuk pertanyaan apa pun mengenai proyek, hubungi saya di Linkedin.