แจกแจงการกระจายที่ไม่ค่อยมีใครรู้จักในด้านวิทยาศาสตร์ข้อมูล

พื้นหลัง

การแจกแจงแบบทวินาม เป็นการแจกแจงที่รู้จักกันดีทั้งในและนอกวิทยาศาสตร์ข้อมูล อย่างไรก็ตาม คุณเคยได้ยินเกี่ยวกับ การกระจายตัวแบบไฮเปอร์จีโอเมตริก ซึ่งเป็นญาติที่ได้รับความนิยมน้อยกว่าหรือไม่ ถ้าไม่เช่นนั้น โพสต์นี้จะให้คำอธิบายโดยละเอียดว่ามันคืออะไรและเหตุใดจึงมีประโยชน์สำหรับนักวิทยาศาสตร์ข้อมูลอย่างเรา

ปรีชา

การกระจายแบบไฮเปอร์เรขาคณิตจะวัดความน่าจะเป็นของความสำเร็จ k ในจำนวนการทดลอง n ครั้ง (ตัวอย่าง) โดยไม่ต้องทดแทนได้รับข้อมูลบางอย่างเกี่ยวกับประชากร สิ่งนี้คล้ายกันมากกับแถบการกระจายแบบทวินามซึ่งเป็นข้อแตกต่างที่สำคัญอย่างหนึ่งของการสุ่มตัวอย่าง โดยไม่ต้องแทนที่ ด้วยเหตุนี้ ความน่าจะเป็นของแต่ละความสำเร็จ (หรือผลลัพธ์) จึงเปลี่ยนแปลงทุกการจับรางวัล/การทดลองใช้ ในขณะที่การแจกแจงแบบทวินาม ความน่าจะเป็นของความสำเร็จ (และความล้มเหลว) ได้รับการแก้ไข

ตัวอย่างที่เข้าใจง่ายคือการกำหนดความน่าจะเป็นในการจั่วไพ่ทั้ง 4 กษัตริย์ด้วยการสุ่มไพ่ 20 ใบจากไพ่สำรับมาตรฐาน หากเราจั่วกษัตริย์ ความน่าจะเป็นที่จะจั่วกษัตริย์องค์ต่อไปจะแตกต่างจากองค์แรกเนื่องจากองค์ประกอบของประชากรเปลี่ยนไป ดังนั้นความน่าจะเป็นที่จะประสบความสำเร็จจึงเป็นแบบไดนามิก

ทฤษฎี

ฟังก์ชันมวลความน่าจะเป็น (PMF) ของการแจกแจงแบบไฮเปอร์จีโอเมตริกมีลักษณะดังนี้:

ที่ไหน:

  • n คือจำนวนการทดลองใช้
  • k คือจำนวนความสำเร็จ
  • N คือขนาดประชากร
  • K คือจำนวนความสำเร็จทั้งหมดในประชากร
  • X คือ ตัวแปรสุ่ม จากการแจกแจงแบบไฮเปอร์เรขาคณิต

ผู้อ่านที่สนใจสามารถค้นหาที่มาของ PMF ได้ "ที่นี่"

สัญกรณ์คล้ายวงเล็บหมายถึง สัมประสิทธิ์ทวินาม:

แฟกทอเรียล ระบุว่าเรากำลังเผชิญกับชุดค่าผสมและการเรียงสับเปลี่ยน คุณสามารถอ่านเพิ่มเติมเกี่ยวกับพวกเขาได้ในบล็อกก่อนหน้าของฉันที่นี่:



ค่าเฉลี่ยของการแจกแจงกำหนดโดย:

ตัวอย่าง

ย้อนกลับไปที่ตัวอย่างก่อนหน้าของเราในการจั่วไพ่ 4 กษัตริย์ในตัวอย่างไพ่แบบสุ่ม 20 ใบจากไพ่สำรับปกติ ข้อมูลที่เรามีคือ:

  • N = 52: จำนวนไพ่ในสำรับ
  • n = 20: จำนวนไพ่ที่เราสุ่มตัวอย่าง
  • k = 4: จำนวนราชาที่เราต้องการ (ความสำเร็จ)
  • K = 4: จำนวนคิงในสำรับ

เสียบตัวเลขเหล่านี้เข้ากับ PMF:

ดังนั้นความน่าจะเป็นจึงต่ำมาก นี่สมเหตุสมผลแล้วเนื่องจากความน่าจะเป็นในการเลือกราชาจากสำรับคือ ~0.077 (1/13)ดังนั้นด้วยตัวอย่างที่น้อยกว่านี้ ค่านี้ก็จะลดลงอีกเมื่อเรามี แสดงไว้ด้านบน

หากคุณต้องการลองเล่นกับตัวเลขและสถานการณ์ต่างๆ ฉันมี "ลิงก์ที่นี่" เครื่องคำนวณการกระจายตัวแบบไฮเปอร์เรขาคณิต

รหัสและแปลง

ตัวอย่างข้างต้นเป็นการสาธิตที่เป็นประโยชน์เกี่ยวกับการประยุกต์ใช้การกระจายตัวแบบไฮเปอร์เรขาคณิต อย่างไรก็ตาม เราจะได้ภาพรวมที่สมบูรณ์ยิ่งขึ้นโดยพล็อต PMF ให้เป็นฟังก์ชันของจำนวนความสำเร็จ k.

ด้านล่างนี้คือโครงเรื่องใน Python สำหรับตัวอย่างข้างต้นที่เราเปลี่ยนแปลงจำนวนราชา k ที่เราต้องการ:

ดังที่เราเห็น ความน่าจะเป็นที่จะได้คิง 5 ใบจากตัวอย่างไพ่ 20 ใบคือ 0 เนื่องจากไม่มีคิง 5 ใบในสำรับ! จำนวนกษัตริย์ที่เป็นไปได้มากที่สุดที่เราจะได้รับคือ 1

ตอนนี้เรามาพิจารณาปัญหาใหม่กัน การกระจายไฮเปอร์เรขาคณิตของจำนวนไพ่ที่เหมาะกับโพดำจากตัวอย่างไพ่สุ่ม 30 ใบเป็นเท่าใด

จำนวนโพดำที่เป็นไปได้มากที่สุดที่เราจะได้รับคือ 8 ในตัวอย่างไพ่ 30 ใบ แทบจะเป็นไปไม่ได้เลยที่เราจะไม่ได้รับโพดำในตัวอย่างดังที่แสดงไว้ในโครงเรื่อง

การใช้งาน

การกระจายแบบไฮเปอร์เรขาคณิตครอบคลุม “หลายสาขา” ได้แก่:

  • ความน่าจะเป็นที่จะชนะไพ่โป๊กเกอร์
  • การวิเคราะห์ประชากรที่ลงคะแนนเสียง
  • การควบคุมคุณภาพในการผลิต
  • ความแปรปรวนทางพันธุกรรมภายในประชากร

ดังนั้นไฮเปอร์เรขาคณิตจึงเป็นสิ่งที่คุณมักจะพบเจอในอาชีพวิทยาศาสตร์ข้อมูลของคุณ และดังนั้นจึงคุ้มค่าที่จะรู้

สรุปและความคิดเพิ่มเติม

ในบทความนี้ เราได้พูดถึงการกระจายตัวแบบไฮเปอร์เรขาคณิตแล้ว สิ่งนี้คล้ายกับการแจกแจงแบบทวินามมาก แต่ความน่าจะเป็นที่จะสำเร็จจะเปลี่ยนไปเมื่อเราสุ่มตัวอย่างโดยไม่มีการแทนที่ การกระจายนี้มีประสิทธิภาพมากในวิทยาศาสตร์ข้อมูลและมีการใช้งานในการควบคุมคุณภาพและอุตสาหกรรมการพนัน ดังนั้นจึงคุ้มค่าที่จะรู้ในฐานะนักวิทยาศาสตร์ข้อมูล

รหัสเต็มมีอยู่ที่ GitHub ของฉันที่นี่:



อ้างอิง

เชื่อมต่อกับฉัน!

(อิโมจิทั้งหมดออกแบบโดย OpenMoji — โปรเจ็กต์อีโมจิและไอคอนโอเพ่นซอร์ส ใบอนุญาต: CC BY-SA 4.0)