เอนโทรปีอาจดูเป็นนามธรรม แต่ก็มีด้านที่เข้าใจง่าย นั่นคือความน่าจะเป็นที่จะเห็นรูปแบบบางอย่างในข้อมูล นี่คือวิธีการทำงาน

ในด้านวิทยาศาสตร์ข้อมูล มีแนวคิดมากมายที่เชื่อมโยงกับแนวคิดเรื่องเอนโทรปี สิ่งพื้นฐานที่สุดคือเอนโทรปีข้อมูลของแชนนอน ซึ่งกำหนดไว้สำหรับการแจกแจงใดๆ P(x) โดยใช้สูตร:

โดยที่ผลรวมอยู่เหนือหมวดหมู่ที่เป็นไปได้ทั้งหมดใน C

มีแนวคิดอื่นๆ ที่เกี่ยวข้องซึ่งมีสูตรที่ดูคล้ายกัน:

แม้จะมีสูตรที่คล้ายเอนโทรปีแพร่หลาย แต่ก็ไม่ค่อยมีการถกเถียงกันเรื่องสัญชาตญาณเบื้องหลังสูตร: เหตุใดลอการิทึมจึงเกี่ยวข้องด้วย ทำไมเราถึงคูณ P(x) และบันทึก P(x)? แม้ว่าบทความจำนวนมากจะกล่าวถึงคำต่างๆ เช่น "ข้อมูล" "สิ่งที่คาดว่าจะต้องประหลาดใจ" แต่สัญชาตญาณเบื้องหลังคำเหล่านั้นยังขาดหายไป

ปรากฎว่า เช่นเดียวกับความน่าจะเป็น เอนโทรปีสามารถเข้าใจได้ผ่านแบบฝึกหัดการนับ และสามารถเชื่อมโยงกับบันทึกความน่าจะเป็นสำหรับการแจกแจง นอกจากนี้ การนับนี้สามารถเชื่อมโยงกับจำนวนไบต์ตามตัวอักษรในคอมพิวเตอร์ได้ การตีความเหล่านี้จะช่วยให้เราเข้าใจข้อเท็จจริงมากมายเกี่ยวกับเอนโทรปีได้อย่างกระจ่างชัด อยากรู้? มาเริ่มกันเลย!

การนับเอนโทรปี

ความน่าจะเป็นสามารถกำหนดได้ในเชิงปฏิบัติ: เมื่อเราพูดว่าเหรียญมีโอกาส 50% ที่จะขึ้นหัว หมายความว่าถ้าเราพลิกเหรียญล้านครั้ง จำนวนเหรียญจะเข้าใกล้ครึ่งล้านเลยทีเดียว เศษส่วนนี้จะเข้าใกล้ความน่าจะเป็น 50% มากขึ้นเมื่อจำนวนการทดลองเพิ่มขึ้น คำจำกัดความนี้คือสิ่งที่ทำให้ความน่าจะเป็นเป็นไปตามสัญชาตญาณ

มีการตีความเอนโทรปีที่คล้ายกันหรือไม่? มีอยู่ แม้ว่าการนับจะซับซ้อนกว่าเล็กน้อย แต่ก็ต้องใช้องค์ประกอบเชิงผสมพื้นฐานบางประการ

มีกี่วิธีในการจัดเรียงลูกบอลที่แตกต่างกัน N มีตัวเลือก Nสำหรับอันแรก N− 1 สำหรับอันที่สอง… ฯลฯ คำตอบคือ N! หรือสัญลักษณ์แฟกทอเรียล : :

เช่นเดียวกับในคำจำกัดความของความน่าจะเป็น เราจะทำงานกับตัวเลขจำนวนมาก ดังนั้นจึงเป็นประโยชน์ในการประมาณวัตถุนี้ผ่าน "การประมาณค่าของสเตอร์ลิง":

โดยที่บันทึกบ่งชี้ถึงลอการิทึมธรรมชาติ สูตรที่คล้ายคลึงกันก็มีอยู่เช่นกันหากเราใช้ฐานทางเลือกเช่น log₂ และ log₁₀ (ซึ่งจะกำหนดหน่วยที่เราวัดเอนโทรปี) สัญกรณ์ big-O บ่งชี้ความถูกต้องของการประมาณเมื่อ N มีขนาดใหญ่ขึ้น คำว่า N log Nจะเป็นที่มาของ p log p ในคำจำกัดความของเอนโทรปี

ตอนนี้เราพร้อมที่จะรับสิ่งที่เอนโทรปีนับแล้ว ลองนึกภาพว่ามีออบเจ็กต์ที่สามารถแยกแยะได้จำนวนมากหรือจุดข้อมูลที่สามารถแยกแยะได้ จุดข้อมูล Nเหล่านี้ถูกจัดกลุ่มเป็นหมวดหมู่ c ดังในรูปด้านล่าง

สามารถทำได้ทั้งหมดกี่วิธี? โปรดทราบว่าเราไม่สนใจการจัดลำดับข้อมูลในหมวดหมู่ใดๆ คำตอบจะถูกจับโดยสัมประสิทธิ์พหุนามแบบคลาสสิก:

โดยที่เราใช้สัญลักษณ์ Ω เพื่อแสดงจำนวนการกำหนดค่า

เช่นเดียวกับกรณีของความน่าจะเป็น เราสนใจเฉพาะพฤติกรรม N ที่มีขนาดใหญ่เท่านั้น เมื่อต้องรับมือกับตัวเลขจำนวนมาก การใช้ลอการิทึมจะเป็นประโยชน์ ดังนั้นเราจึงสามารถใช้การประมาณค่าสเตอร์ลิงเพื่อทำให้สิ่งต่างๆ จัดการได้ง่ายขึ้น:

สามารถทำให้สูตรง่ายขึ้นได้โดยใช้ข้อเท็จจริงที่ว่าผลรวมของ nᵢ ทั้งหมดเท่ากับ N

ถ้าเราแทน nᵢ/NP(i) เราจะได้สูตรเอนโทรปีทุกประการ หรืออีกทางหนึ่ง เราสามารถเขียนได้ (สำหรับ N ขนาดใหญ่):

ดังนั้นเราจึงมาถึงคำจำกัดความในการปฏิบัติงานของเอนโทรปี:

เอนโทรปีนับ # วิธีจัดหมวดหมู่ข้อมูลจำนวนมากที่มีลักษณะการแจกแจงความน่าจะเป็นที่กำหนด (ในหน่วยลอการิทึมและต่อจำนวนจุดข้อมูล)

แบบฝึกหัดการนับนี้เป็นหัวใจสำคัญของทฤษฎีสารสนเทศ ซึ่งเราจะพูดถึงกันต่อไป

เอนโทรปีเป็นข้อมูล

แล้วแนวคิดเรื่องเอนโทรปีของเราเกี่ยวข้องกับบิตตามตัวอักษรของ 0 และ 1 ในคอมพิวเตอร์อย่างไร

ลองนึกภาพลำดับไบนารี่ที่มีความยาวคงที่ N ตามสัญชาตญาณ เรารู้ว่ามันมีข้อมูล N บิต เนื่องจากต้องใช้บิต N บิตในการจัดเก็บลำดับในฮาร์ดไดรฟ์หรือหน่วยความจำ

แต่จะเกิดอะไรขึ้นถ้าลำดับมีรูปแบบที่น่าสนใจดังต่อไปนี้?

  • 000000000000000000000000000
  • 010101010101010101010101010
  • 000000010000000000000000000

ในกรณีเหล่านี้ การแสดงลำดับไบนารี่จะไม่มีประสิทธิภาพมากนัก เรารู้โดยสัญชาตญาณว่ามีวิธีที่มีประสิทธิภาพมากกว่าในการจัดเก็บลำดับเหล่านี้: เราสามารถระบุรูปแบบซึ่งตรงข้ามกับบิตตัวอักษรทั้งหมด และจำนวนข้อมูลที่มีความหมายในลำดับเหล่านี้ควรน้อยลง

ดังนั้นหากเราเพิกเฉยต่อรูปแบบที่ละเอียดอ่อนของการซ้ำของตัวเลข และเพียงแค่ดูคุณสมบัติทางสถิติพื้นฐานของตัวเลข (สัดส่วนของ 0 และ 1) เราจะทำได้ดีเพียงใดในแง่ของการจัดเก็บลำดับเหล่านั้น

นี่คือจุดที่สูตรการนับเอนโทรปีสามารถช่วยเราได้ โดยสามารถนับจำนวนลำดับทั้งหมดโดยมีสัดส่วนคงที่คือ 0 และ 1 วินาที

ในกรณีที่สัดส่วนของ 0 และ 1 คือ 50/50 จำนวนที่เป็นไปได้ทั้งหมดคือ (ในขีดจำกัด N ขนาดใหญ่):

เราเห็นว่านี่เป็นเพียงผลลัพธ์โดยประมาณของจำนวนลำดับไบนารี่ที่เป็นไปได้ทั้งหมด 2ᴺ. ดังนั้นจำนวนบิตที่ต้องใช้ในการจัดเก็บลำดับจึงยังคงเป็น N นี่ไม่ใช่เรื่องน่าแปลกใจ เนื่องจากเรารู้ว่าลำดับแบบสุ่มไม่ควรถูกบีบอัด เนื่องจากลำดับนี้มีข้อมูลสูงสุด N บิต

แต่จะเกิดอะไรขึ้นถ้าสัดส่วนไม่เป็น 50/50 อีกต่อไป? เราควรคาดหวังความประหยัดที่อาจเกิดขึ้นได้ ในกรณีนี้ จำนวนบิตทั้งหมดที่ต้องใช้ในการจัดเก็บหนึ่งลำดับจะเป็น:

มาตรวจสอบความมีสติเมื่อตัวเลข 0 น้อยกว่าตัวเลข 1 มาก เช่น nN ในกรณีนี้สามารถละเว้นคำศัพท์ P₁ ได้ และจำนวนบิตกำหนดโดย:

ดังนั้นปริมาณข้อมูลจึงเป็นสัดส่วนกับ n แทนที่จะเป็น N เนื่องจากตอนนี้เราต้องเก็บเฉพาะตำแหน่งของ 0 แต่ละตัวแทนที่จะเป็นลำดับทั้งหมด

สิ่งนี้แสดงให้เห็นถึงพลังของเอนโทรปีที่เกี่ยวข้องกับบิตและไบต์ทางกายภาพในคอมพิวเตอร์ สรุป,

เอนโทรปีข้อมูลระบุจำนวนบิตต่อความยาวที่คาดหวังซึ่งจำเป็นในการจัดเก็บลำดับที่สร้างโดยการแจกแจงความน่าจะเป็นที่กำหนด

กล่าวอีกนัยหนึ่ง เอนโทรปีคืออัตราส่วนการบีบอัดที่เหมาะสมที่สุดสำหรับสัดส่วนคงที่ของอักขระในลำดับ นี่คือวิธีที่เอนโทรปีเชื่อมโยงกับข้อมูล

นอกเหนือจากการคิดว่าลำดับเป็นเรื่องที่เราสนใจแล้ว เรายังสามารถหันความสนใจไปที่การแจกแจงด้วยตัวมันเองได้ มุมมองนี้ช่วยให้เราตีความเอนโทรปีว่าเป็นความน่าจะเป็นประเภทหนึ่ง (หรือความน่าจะเป็นของบันทึก)

เอนโทรปีเป็นบันทึก-ความน่าจะเป็น

เอนโทรปีนับจำนวนความเป็นไปได้ เราอยากแปลงนี่ให้เป็นความน่าจะเป็น ในการทำเช่นนี้ เราเพียงแค่ต้องทำให้การนับเป็นปกติ

จำนวนวิธีทั้งหมดในการจัดหมวดหมู่จุดข้อมูล N ออกเป็นหมวดหมู่ c คือเท่าใด คำตอบนั้นง่ายมาก เนื่องจากแต่ละจุดข้อมูลมีตัวเลือก c:

ตอนนี้เราสามารถหารจำนวนเอนโทรปีด้วยผลรวมเพื่อให้ได้ความน่าจะเป็น (แทนที่ nᵢ/NP(i)):

ด้วยวิธีนี้ เอนโทรปีจะกลายเป็นความน่าจะเป็น (เส้นกำกับเนื่องจากมี N ขนาดใหญ่) ของการสังเกตการแจกแจงเฉพาะจากการจัดหมวดหมู่จุดข้อมูลแบบสุ่ม:

เอนโทรปีสามารถดูได้ว่าเป็นบันทึกความน่าจะเป็นของการสังเกตการกระจายที่กำหนด (ต่อจุดข้อมูล)

มีข้อสันนิษฐานที่ซ่อนอยู่ในการสนทนาของเรา เนื่องจากเรากำลังปฏิบัติต่อทุกการกำหนดค่าในการคำนวณของเราอย่างเท่าเทียมกัน จะเกิดอะไรขึ้นหากบางหมวดหมู่ได้รับความนิยมมากกว่าหมวดหมู่อื่นๆ

เราสามารถพิจารณาการกระจายอ้างอิงบางส่วน Q(x) หากจุดข้อมูลแต่ละจุดมีโอกาส Q(x) ที่จะอยู่ในหมวดหมู่เฉพาะ x ความน่าจะเป็นที่จะสังเกต n em>₁ ในหมวดที่ 1, n₂ ในหมวด 2 และอื่นๆ จะได้มาจากความน่าจะเป็นพหุนาม:

อีกครั้งหนึ่งที่เราสามารถพิจารณาค่าประมาณของสเตอร์ลิงได้ การคำนวณจะคล้ายกับการคำนวณก่อนหน้านี้มาก ยกเว้นว่าเรามี Q(i) เพิ่มเติมในตอนท้าย

การแทนที่ nᵢ/NP(i) คำที่อยู่ในเลขชี้กำลังจะกลายเป็น Kullback–Leibler Divergence . ดังนั้นสมการของเราจึงสรุปได้ดังนี้

โดยที่เราใช้สัญกรณ์ทั่วไปของ KL-divergence ภายในเลขชี้กำลัง KL-divergence เป็นลักษณะทั่วไปของเอนโทรปีข้อมูลของแชนนอน และสมการของเราทำให้การตีความของเราแม่นยำยิ่งขึ้น:

ความแตกต่างของ Kullback-Leibler ของ P บน Q คือความน่าจะเป็นบันทึกเชิงลบ (ต่อจุดข้อมูล) ของการสังเกต P เมื่อสุ่มตัวอย่างข้อมูลตาม Q

อีกครั้ง ทั้งหมดนี้ถือว่า N มีขนาดใหญ่มาก

ข้อเท็จจริงบางประการเกี่ยวกับ KL-divergence กลายเป็นที่ชัดเจนแล้ว:

  1. ความแตกต่างของ KL ไม่เป็นลบเสมอ เนื่องจากความน่าจะเป็นไม่สามารถมีค่ามากกว่า 1 ได้
  2. ความแตกต่างของ KL สามารถไม่มีที่สิ้นสุด: สิ่งนี้เกิดขึ้นเมื่อการแจกแจงสองแบบไม่มีการทับซ้อนกัน ดังนั้นแบบฝึกหัดการนับจะให้ผล 0 = exp[–∞]
  3. ความแตกต่างของ KL จะเป็นศูนย์ก็ต่อเมื่อ P = Q: เมื่อเราสุ่มตัวอย่างข้อมูลตาม Q เราคาดว่าการแจกแจงผลลัพธ์จะมีลักษณะดังนี้ Q —ความคาดหวังนี้ตรงกับค่า N มาก

ด้วยความเข้าใจใหม่นี้ ตอนนี้เราพร้อมที่จะตีความข้อเท็จจริงเกี่ยวกับแนวคิดเอนโทรปิกต่างๆ ในวิทยาศาสตร์ข้อมูลใหม่แล้ว!

ตัวอย่างเอนโทรปิก

ด้านล่างนี้เราจะพูดถึงสัญชาตญาณเบื้องหลังตัวแปรคล้ายเอนโทรปีทั่วไปในวิทยาศาสตร์ข้อมูล เราจะเตือนผู้อ่านอีกครั้งว่าขีดจำกัด N ที่มีขนาดใหญ่นั้นถือเป็นขีดจำกัดโดยปริยาย

เอนโทรปีข้าม

สิ่งนี้มีประโยชน์สำหรับการฝึกตัวแปรหมวดหมู่ มันถูกกำหนดให้เป็น

โปรดทราบว่าเราได้เขียนคำจำกัดความใหม่โดยเป็นผลรวมของ KL-divergence และเอนโทรปีข้อมูลของ Shannon สิ่งนี้อาจดูไม่คุ้นเคยเล็กน้อย เนื่องจากเมื่อเราฝึกโมเดลแมชชีนเลิร์นนิง เราจะคำนวณค่าประมาณผ่านตัวอย่างของเราเท่านั้น (พูดว่า S)

โดยใช้สัญชาตญาณการนับของเรา เราก็สรุปได้ว่า

การลดเอนโทรปีข้ามให้เหลือน้อยที่สุดนั้นเทียบเท่ากับการเพิ่มโอกาสบันทึกของการสังเกตสถิติเดียวกันกับสถิติจากข้อมูลตัวอย่างของเรา หากเราสุ่มตัวอย่างข้อมูลของเราจากการแจกแจง Q ที่กำลังได้รับการฝึกอบรม

สิ่งนี้ทำให้การสูญเสียข้ามเอนโทรปีอยู่บนพื้นฐานแนวคิดที่คล้ายกันกับการสูญเสีย L2 ในการถดถอย: ทั้งคู่เป็นฟังก์ชันบันทึกความน่าจะเป็นบางประเภท

ข้อมูลร่วมกัน

ข้อมูลร่วมกันถือได้ว่าเป็นความสัมพันธ์แบบทั่วไประหว่างตัวแปรสองตัว แสดงโดย I ซึ่งถูกกำหนดผ่าน KL-divergence

ในการคำนวณ KL-divergence เรากำลังเปรียบเทียบการแจกแจงของตัวแปรสองตัว กับการกระจายของการพิจารณาตัวแปรแต่ละตัวแยกกัน

สัญชาตญาณการนับของเราให้การตีความที่ดีมากแก่เรา:

ข้อมูลร่วมกันคือความเป็นไปได้ในการบันทึกเชิงลบ (ต่อจุดข้อมูล) ของการได้รับการแจกแจงที่กำหนดในตัวแปรสองตัว เมื่อเราสุ่มตัวอย่างตัวแปรทั้งสองอย่างอิสระโดยยึดตามการแจกแจงแบบชายขอบ

สิ่งนี้อธิบายว่าทำไมข้อมูลที่มีร่วมกันจึงเป็นเครื่องมืออันทรงพลังที่สามารถจับความสัมพันธ์แบบไม่เชิงเส้นระหว่างตัวแปรได้

การเพิ่มขึ้นอย่างหลีกเลี่ยงไม่ได้ในเอนโทรปี?

ในที่สุด เราก็พร้อมที่จะกล่าวถึงข้อเท็จจริงที่รู้จักกันดีที่สุดประการหนึ่งเกี่ยวกับเอนโทรปี: กฎของอุณหพลศาสตร์และการเพิ่มขึ้นอย่างหลีกเลี่ยงไม่ได้ของเอนโทรปี

สิ่งสำคัญคือต้องจำไว้ว่ามีสองแนวคิดเกี่ยวกับเอนโทรปีที่นี่:

  1. เอนโทรปีข้อมูลของแชนนอนในสาขาวิทยาศาสตร์ข้อมูล
  2. เอนโทรปีในฟิสิกส์ความร้อน

การเพิ่มขึ้นของเอนโทรปีเป็นกฎทางกายภาพที่ใช้เฉพาะในกรณีที่สองเท่านั้น อย่างไรก็ตาม เอนโทรปีในฟิสิกส์ถือได้ว่าเป็นกรณีพิเศษของเอนโทรปีของแชนนอนเมื่อนำไปใช้กับระบบทางกายภาพ ดังนั้นจึงมีความเชื่อมโยงอยู่ที่นั่น

สิ่งนี้มีความหมายในแง่ของแบบฝึกหัดการนับก็คือ จำนวนความเป็นไปได้จะเพิ่มขึ้นอย่างหลีกเลี่ยงไม่ได้ สิ่งนี้สมเหตุสมผลตามสัญชาตญาณ เพราะเมื่อระบบทางกายภาพ (วุ่นวาย) ไม่ถูกจำกัด ระบบก็ควรจะสุ่มตัวอย่างความเป็นไปได้ทั้งหมดในที่สุด มันคล้ายกับกฎของเมอร์ฟีย์ที่มีชื่อเสียงเล็กน้อยซึ่งระบุว่า “สิ่งใดที่ผิดพลาดได้ย่อมผิดพลาด”

จากมุมมองของวิทยาศาสตร์ข้อมูล ถ้าเราเชื่อว่าข้อมูลของเราเป็นผลมาจากระบบไดนามิกบางระบบ ก็อาจสมเหตุสมผลที่จะเพิ่มเอนโทรปีให้สูงสุด เพราะหากเราเชื่อว่าตัวแปรทั้งหมดถูกนำมาพิจารณา ก็ไม่มีเหตุผลที่จะคิดว่าข้อมูลของเรา จะไม่สำรวจความเป็นไปได้ทั้งหมด กล่าวอีกนัยหนึ่ง เราต้องการพิจารณาความเป็นไปได้/ชุดค่าผสมทั้งหมด แม้แต่รายการที่ไม่มีอยู่ในข้อมูลของเราก็ตาม นี่อาจเป็นสิ่งที่ทำให้แนวคิดเอนโทรปิกได้รับพลังวิเศษในด้านวิทยาศาสตร์ข้อมูล

ด้วยการนับความเป็นไปได้ทั้งหมด เอนโทรปีเป็นการวัดความไม่รู้ของเราแบบอนุรักษ์นิยม

มุมมองนี้ได้รับการสำรวจในบทความอื่นของฉันเกี่ยวกับ "เอนโทรปี"

บทสรุป

ด้วยการตีความสูตรของเอนโทรปีเป็นการนับความเป็นไปได้ เราสามารถเข้าใจบทบาทของเอนโทรปีในทฤษฎีสารสนเทศ และคิดว่าเอนโทรปีเป็นเพียงความน่าจะเป็นประเภทหนึ่ง การตีความนี้เป็นสิ่งที่ทำให้แนวคิดเกี่ยวกับเอนโทรปิกต่างๆ มีความหมายและมีประโยชน์ในที่สุด

กรุณาแบ่งปันความคิดและข้อเสนอแนะของคุณหากคุณมี ขอให้มีความสุขในการอ่าน! 😢

หากคุณชอบบทความนี้ คุณอาจสนใจบทความอื่นๆ ที่เกี่ยวข้องของฉัน: