แจกแจงการกระจายที่ไม่ค่อยมีใครรู้จักในด้านวิทยาศาสตร์ข้อมูล
พื้นหลัง
การแจกแจงแบบทวินาม เป็นการแจกแจงที่รู้จักกันดีทั้งในและนอกวิทยาศาสตร์ข้อมูล อย่างไรก็ตาม คุณเคยได้ยินเกี่ยวกับ การกระจายตัวแบบไฮเปอร์จีโอเมตริก ซึ่งเป็นญาติที่ได้รับความนิยมน้อยกว่าหรือไม่ ถ้าไม่เช่นนั้น โพสต์นี้จะให้คำอธิบายโดยละเอียดว่ามันคืออะไรและเหตุใดจึงมีประโยชน์สำหรับนักวิทยาศาสตร์ข้อมูลอย่างเรา
ปรีชา
การกระจายแบบไฮเปอร์เรขาคณิตจะวัดความน่าจะเป็นของความสำเร็จ k ในจำนวนการทดลอง n ครั้ง (ตัวอย่าง) โดยไม่ต้องทดแทนได้รับข้อมูลบางอย่างเกี่ยวกับประชากร สิ่งนี้คล้ายกันมากกับแถบการกระจายแบบทวินามซึ่งเป็นข้อแตกต่างที่สำคัญอย่างหนึ่งของการสุ่มตัวอย่าง โดยไม่ต้องแทนที่ ด้วยเหตุนี้ ความน่าจะเป็นของแต่ละความสำเร็จ (หรือผลลัพธ์) จึงเปลี่ยนแปลงทุกการจับรางวัล/การทดลองใช้ ในขณะที่การแจกแจงแบบทวินาม ความน่าจะเป็นของความสำเร็จ (และความล้มเหลว) ได้รับการแก้ไข
ตัวอย่างที่เข้าใจง่ายคือการกำหนดความน่าจะเป็นในการจั่วไพ่ทั้ง 4 กษัตริย์ด้วยการสุ่มไพ่ 20 ใบจากไพ่สำรับมาตรฐาน หากเราจั่วกษัตริย์ ความน่าจะเป็นที่จะจั่วกษัตริย์องค์ต่อไปจะแตกต่างจากองค์แรกเนื่องจากองค์ประกอบของประชากรเปลี่ยนไป ดังนั้นความน่าจะเป็นที่จะประสบความสำเร็จจึงเป็นแบบไดนามิก
ทฤษฎี
ฟังก์ชันมวลความน่าจะเป็น (PMF) ของการแจกแจงแบบไฮเปอร์จีโอเมตริกมีลักษณะดังนี้:
ที่ไหน:
- n คือจำนวนการทดลองใช้
- k คือจำนวนความสำเร็จ
- N คือขนาดประชากร
- K คือจำนวนความสำเร็จทั้งหมดในประชากร
- X คือ ตัวแปรสุ่ม จากการแจกแจงแบบไฮเปอร์เรขาคณิต
ผู้อ่านที่สนใจสามารถค้นหาที่มาของ PMF ได้ "ที่นี่"
สัญกรณ์คล้ายวงเล็บหมายถึง สัมประสิทธิ์ทวินาม:
แฟกทอเรียล ระบุว่าเรากำลังเผชิญกับชุดค่าผสมและการเรียงสับเปลี่ยน คุณสามารถอ่านเพิ่มเติมเกี่ยวกับพวกเขาได้ในบล็อกก่อนหน้าของฉันที่นี่:
ค่าเฉลี่ยของการแจกแจงกำหนดโดย:
ตัวอย่าง
ย้อนกลับไปที่ตัวอย่างก่อนหน้าของเราในการจั่วไพ่ 4 กษัตริย์ในตัวอย่างไพ่แบบสุ่ม 20 ใบจากไพ่สำรับปกติ ข้อมูลที่เรามีคือ:
- N = 52: จำนวนไพ่ในสำรับ
- n = 20: จำนวนไพ่ที่เราสุ่มตัวอย่าง
- k = 4: จำนวนราชาที่เราต้องการ (ความสำเร็จ)
- K = 4: จำนวนคิงในสำรับ
เสียบตัวเลขเหล่านี้เข้ากับ PMF:
ดังนั้นความน่าจะเป็นจึงต่ำมาก นี่สมเหตุสมผลแล้วเนื่องจากความน่าจะเป็นในการเลือกราชาจากสำรับคือ ~0.077 (1/13)ดังนั้นด้วยตัวอย่างที่น้อยกว่านี้ ค่านี้ก็จะลดลงอีกเมื่อเรามี แสดงไว้ด้านบน
หากคุณต้องการลองเล่นกับตัวเลขและสถานการณ์ต่างๆ ฉันมี "ลิงก์ที่นี่" เครื่องคำนวณการกระจายตัวแบบไฮเปอร์เรขาคณิต
รหัสและแปลง
ตัวอย่างข้างต้นเป็นการสาธิตที่เป็นประโยชน์เกี่ยวกับการประยุกต์ใช้การกระจายตัวแบบไฮเปอร์เรขาคณิต อย่างไรก็ตาม เราจะได้ภาพรวมที่สมบูรณ์ยิ่งขึ้นโดยพล็อต PMF ให้เป็นฟังก์ชันของจำนวนความสำเร็จ k.
ด้านล่างนี้คือโครงเรื่องใน Python สำหรับตัวอย่างข้างต้นที่เราเปลี่ยนแปลงจำนวนราชา k ที่เราต้องการ:
ดังที่เราเห็น ความน่าจะเป็นที่จะได้คิง 5 ใบจากตัวอย่างไพ่ 20 ใบคือ 0 เนื่องจากไม่มีคิง 5 ใบในสำรับ! จำนวนกษัตริย์ที่เป็นไปได้มากที่สุดที่เราจะได้รับคือ 1
ตอนนี้เรามาพิจารณาปัญหาใหม่กัน การกระจายไฮเปอร์เรขาคณิตของจำนวนไพ่ที่เหมาะกับโพดำจากตัวอย่างไพ่สุ่ม 30 ใบเป็นเท่าใด
จำนวนโพดำที่เป็นไปได้มากที่สุดที่เราจะได้รับคือ 8 ในตัวอย่างไพ่ 30 ใบ แทบจะเป็นไปไม่ได้เลยที่เราจะไม่ได้รับโพดำในตัวอย่างดังที่แสดงไว้ในโครงเรื่อง
การใช้งาน
การกระจายแบบไฮเปอร์เรขาคณิตครอบคลุม “หลายสาขา” ได้แก่:
- ความน่าจะเป็นที่จะชนะไพ่โป๊กเกอร์
- การวิเคราะห์ประชากรที่ลงคะแนนเสียง
- การควบคุมคุณภาพในการผลิต
- ความแปรปรวนทางพันธุกรรมภายในประชากร
ดังนั้นไฮเปอร์เรขาคณิตจึงเป็นสิ่งที่คุณมักจะพบเจอในอาชีพวิทยาศาสตร์ข้อมูลของคุณ และดังนั้นจึงคุ้มค่าที่จะรู้
สรุปและความคิดเพิ่มเติม
ในบทความนี้ เราได้พูดถึงการกระจายตัวแบบไฮเปอร์เรขาคณิตแล้ว สิ่งนี้คล้ายกับการแจกแจงแบบทวินามมาก แต่ความน่าจะเป็นที่จะสำเร็จจะเปลี่ยนไปเมื่อเราสุ่มตัวอย่างโดยไม่มีการแทนที่ การกระจายนี้มีประสิทธิภาพมากในวิทยาศาสตร์ข้อมูลและมีการใช้งานในการควบคุมคุณภาพและอุตสาหกรรมการพนัน ดังนั้นจึงคุ้มค่าที่จะรู้ในฐานะนักวิทยาศาสตร์ข้อมูล
รหัสเต็มมีอยู่ที่ GitHub ของฉันที่นี่:
อ้างอิง
- ข้อมูลเพิ่มเติมเกี่ยวกับการแจกแจงแบบไฮเปอร์เรขาคณิต:https://brilliant.org/wiki/hypergeometric-distribution/
- แนวทางเชิงทฤษฎี:https://dlsun.github.io/probability/hypergeometric.html
เชื่อมต่อกับฉัน!
- หากต้องการอ่านเรื่องราวไม่จำกัดบน Medium อย่าลืมสมัครที่นี่! 💜
- หากต้องการรับข้อมูลอัปเดตเมื่อฉันโพสต์ สมัครรับการแจ้งเตือนทางอีเมลที่นี่! 😀
- LinkedIn👔
- ทวิตเตอร์🖊
- GitHub🖥
- คับเกิล🏅
(อิโมจิทั้งหมดออกแบบโดย OpenMoji — โปรเจ็กต์อีโมจิและไอคอนโอเพ่นซอร์ส ใบอนุญาต: CC BY-SA 4.0)