Menguraikan salah satu distribusi yang kurang terkenal dalam ilmu data

Latar belakang

"Distribusi binomial" adalah distribusi yang terkenal di dalam dan di luar ilmu data. Namun, pernahkah Anda mendengar tentang sepupunya yang kurang populer, yaitu distribusi hipergeometri? Jika belum, postingan kali ini akan memberi Anda penjelasan detail tentang apa itu dan mengapa berguna bagi kita para data scientist.

Intuisi

Distribusi hipergeometri mengukur probabilitas keberhasilan k dalam jumlah n percobaan (sampel), tanpa penggantian,diberikan beberapa informasi tentang populasi. Ini sangat mirip dengan bilah distribusi binomial, satu-satunya perbedaan utama dalam pengambilan sampel tanpa pengembalian. Oleh karena itu, probabilitas setiap keberhasilan (atau hasil) berubah setiap kali seri/percobaan, sedangkan dalam distribusi binomial probabilitas keberhasilan (dan kegagalan) tetap.

Contoh yang mudah dipahami adalah menentukan probabilitas terambilnya keempat raja dalam sampel acak yang terdiri dari 20 kartu dari setumpuk kartu standar. Jika kita menggambar seorang raja, kemungkinan terambilnya raja berikutnya akan berbeda dari yang pertama karena komposisi populasi telah berubah. Dengan demikian, kemungkinan keberhasilan bersifat dinamis.

Teori

fungsi massa probabilitas (PMF) dari distribusi hipergeometri terlihat seperti ini:

Di mana:

  • n adalah jumlah percobaan
  • k adalah jumlah keberhasilan
  • N adalah ukuran populasi
  • K adalah jumlah total keberhasilan dalam populasi
  • X adalah variabel acak dari distribusi hipergeometri

Pembaca yang tertarik dapat menemukan turunan dari PMF di sini.

Notasi seperti tanda kurung mengacu pada koefisien binomial:

faktorial menunjukkan bahwa kita berurusan dengan kombinasi dan permutasi. Anda dapat membaca lebih lanjut tentang mereka di blog saya sebelumnya di sini:



Rata-rata distribusi diberikan oleh:

Contoh

Mari kita kembali ke contoh sebelumnya dalam menggambar 4 raja dalam sampel 20 kartu acak dari setumpuk kartu biasa. Informasi yang kami miliki adalah:

  • N = 52: Jumlah kartu di dek
  • n = 20: Jumlah kartu yang kami sampel
  • k = 4: Jumlah raja yang kita inginkan (berhasil)
  • K = 4: Jumlah raja di dek

Memasukkan angka-angka ini ke PMF:

Oleh karena itu, kemungkinannya sangat rendah. Hal ini masuk akal karena kemungkinan memilih raja dari dek adalah ~0,077 (1/13),sehingga dengan sampel yang lebih kecil lagi, hal ini akan semakin berkurang seiring dengan bertambahnya jumlah sampel yang kita miliki. ditunjukkan di atas.

Jika Anda ingin bermain-main dengan beberapa angka dan skenario berbeda, saya telah menautkan di sini kalkulator distribusi hipergeometri.

Kode & Plot

Contoh di atas adalah demonstrasi yang berguna mengenai penerapan distribusi hipergeometri. Namun, kita bisa mendapatkan gambaran yang lebih lengkap dengan memplot PMF sebagai fungsi dari jumlah keberhasilan k.

Di bawah ini adalah plot, dengan Python, untuk contoh di atas di mana kita memvariasikan jumlah raja, k, yang kita inginkan:

Seperti yang bisa kita lihat, peluang mendapatkan 5 raja dari sampel 20 kartu adalah 0, karena tidak ada lima raja di dek! Jumlah raja yang paling mungkin kita dapatkan adalah 1.

Sekarang mari kita pertimbangkan masalah baru. Berapa distribusi hipergeometris jumlah kartu yang cocok dengan sekop dari sampel acak 30 kartu?

Jumlah sekop yang paling mungkin kita dapatkan adalah 8 dalam sampel 30 kartu. Hampir tidak mungkin bagi kita untuk tidak mendapatkan sekop dalam sampel seperti yang ditunjukkan dalam plot.

Aplikasi

Distribusi hipergeometri menyentuh โ€œbanyak bidangโ€ termasuk:

  • Kemungkinan memenangkan permainan poker
  • Analisis populasi pemilih
  • Kontrol kualitas di bidang manufaktur
  • Variasi genetik dalam suatu populasi

Oleh karena itu, hipergeometri adalah sesuatu yang kemungkinan besar akan Anda temui dalam karier ilmu data Anda dan karenanya patut untuk diketahui.

Ringkasan & Pemikiran Lebih Lanjut

Pada artikel ini kita telah membahas distribusi hipergeometri. Hal ini sangat mirip dengan distribusi binomial tetapi probabilitas keberhasilannya berubah ketika kita melakukan pengambilan sampel tanpa pengembalian. Distribusi ini sangat berguna dalam ilmu data dan dapat diterapkan dalam kontrol kualitas dan industri perjudian. Oleh karena itu, hal ini sangat berharga untuk diketahui sebagai ilmuwan data

Kode lengkap tersedia di GitHub saya di sini:



Referensi

Terhubung Dengan Saya!

  • "Untuk membaca cerita tanpa batas di Medium, pastikan untuk mendaftar di sini!" ๐Ÿ’œ
  • "Untuk mendapat informasi terkini ketika saya mengeposkan pemberitahuan email pendaftaran di sini!" ๐Ÿ˜€
  • "LinkedIn"๐Ÿ‘”
  • "Twitter"๐Ÿ–Š
  • "GitHub"๐Ÿ–ฅ
  • "Kaggle"๐Ÿ…

(Semua emoji dirancang oleh OpenMoji โ€” proyek emoji dan ikon sumber terbuka. Lisensi: CC BY-SA 4.0)