Entropi mungkin tampak abstrak, namun memiliki sisi intuitif: sebagai kemungkinan melihat pola tertentu dalam data. Begini cara kerjanya.

Dalam ilmu data, ada banyak konsep yang terkait dengan pengertian entropi. Yang paling mendasar adalah entropi informasi Shannon, yang didefinisikan untuk distribusi apa pun, P(x), melalui rumus:

Dimana jumlahnya adalah seluruh kategori yang mungkin ada di C.

Ada konsep terkait lainnya yang memiliki rumus serupa:

Meskipun rumus mirip entropi ada di mana-mana, jarang ada diskusi mengenai intuisi di balik rumus tersebut: Mengapa logaritma terlibat? Mengapa kita mengalikan P(x) dan mencatat P(x)? Meskipun banyak artikel menyebutkan istilah-istilah seperti “informasi”, “kejutan yang diharapkan”, intuisi di balik istilah-istilah tersebut tidak ada.

Ternyata, sama seperti probabilitas, entropi dapat dipahami melalui latihan penghitungan, dan dapat dikaitkan dengan semacam log-likelihood untuk distribusi. Lebih jauh lagi, penghitungan ini dapat dikaitkan dengan jumlah byte literal di komputer. Penafsiran ini akan memungkinkan kita mengungkap banyak fakta tentang entropi. Penasaran? Mari kita mulai!

Menghitung Entropi

Probabilitas dapat didefinisikan secara operasional: Ketika kita mengatakan sebuah koin memiliki peluang 50% untuk mendapatkan gambar, itu berarti bahwa jika kita melempar koin tersebut jutaan kali, jumlah gambarnya akan mendekati setengah juta. Pecahan ini akan mendekati probabilitas 50% seiring dengan bertambahnya jumlah percobaan. Definisi inilah yang membuat probabilitas menjadi begitu intuitif.

Apakah ada interpretasi serupa untuk entropi? Memang ada, meskipun penghitungannya sedikit lebih rumit: ini memerlukan beberapa kombinatorik dasar.

Berapa banyak cara untuk menyusun Nbola yang berbeda? Ada Npilihan untuk pilihan pertama, N− 1 untuk pilihan kedua… dst. Jawabannya adalah N!, atau simbol faktorial :

Sama seperti definisi probabilitas, kita akan bekerja dengan angka yang sangat besar. Jadi akan sangat membantu untuk memperkirakan objek ini melalui perkiraan Sterling:

Dimana log menunjukkan logaritma natural; rumus analog juga ada jika kita menggunakan basis alternatif seperti log₂ dan log₁₀ (ini akan menentukan satuan yang kita gunakan untuk mengukur entropi). Notasi O besar menunjukkan validitas perkiraan ketika N menjadi besar. Istilah N log Nakan menjadi asal p log p dalam definisi entropi.

Kami sekarang siap untuk menurunkan entropi yang dihitung. Bayangkan ada sejumlah besar objek yang dapat dibedakan, atau titik data yang dapat dibedakan. Ntitik data ini dikelompokkan ke dalam kategori c, seperti pada gambar di bawah

Berapa jumlah total cara yang bisa dilakukan? Mengingat bahwa kita tidak peduli dengan pengurutan data dalam kategori apa pun, jawabannya ditentukan oleh koefisien multinomial klasik:

Dimana kami telah menggunakan simbol Ω untuk menunjukkan jumlah konfigurasi.

Sama seperti probabilitas, kami hanya tertarik pada Nperilaku yang besar. Saat menangani bilangan sebesar itu, akan berguna jika kita menggunakan logaritma, sehingga kita dapat menggunakan perkiraan Sterling untuk membuat segalanya lebih mudah dikelola:

Rumusnya dapat disederhanakan dengan memanfaatkan fakta bahwa jumlah semua nᵢ sama dengan N,

jika kita mengganti nᵢ/NP(i), kita mendapatkan rumus entropi yang tepat. Alternatifnya, kita dapat menulis (untuk N besar):

Jadi kita sampai pada definisi operasional entropi:

Entropi menghitung # cara mengkategorikan data dalam jumlah besar yang menyerupai distribusi probabilitas tertentu (dalam satuan logaritmik dan per jumlah titik data)

Latihan berhitung ini merupakan inti dari teori informasi, yang akan kita bahas selanjutnya.

Entropi sebagai Informasi

Jadi bagaimana konsep entropi kita berhubungan dengan bit literal 0 dan 1 di komputer?

Bayangkan sebuah barisan biner dengan panjang tertentu N. Secara intuitif kita tahu bahwa ini berisi N bit informasi: karena secara harfiah dibutuhkan N bit untuk menyimpan urutan dalam hard-drive atau memori.

Namun bagaimana jika rangkaian tersebut memiliki beberapa pola menarik seperti berikut ini?

  • 000000000000000000000000000
  • 010101010101010101010101010
  • 000000010000000000000000000

Dalam kasus ini, representasi barisan biner akan menjadi sangat tidak efisien. Secara intuitif kita mengetahui bahwa ada cara yang lebih efisien untuk menyimpan rangkaian ini: kita dapat menentukan polanya dibandingkan dengan semua bit literal, dan jumlah informasi bermakna dalam rangkaian ini harus lebih kecil.

Jadi jika kita mengabaikan pola halus dari pengulangan angka, dan hanya melihat sifat statistik dasar dari angka tersebut (proporsi 0 dan 1), seberapa baik yang dapat kita lakukan dalam hal menyimpan urutan tersebut?

Di sinilah rumus penghitungan entropi dapat membantu kita: rumus ini dapat menghitung jumlah total barisan dengan proporsi tetap 0 dan 1.

Jika proporsi 0 dan 1 adalah 50/50, jumlah kemungkinannya adalah (dalam batas N besar):

Kita melihat bahwa ini hanya menghasilkan kira-kira jumlah seluruh rangkaian biner yang mungkin adalah 2ᴺ. Jadi jumlah bit yang diperlukan untuk menyimpan rangkaian tersebut masih N. Hal ini tidak mengherankan, karena kita tahu bahwa urutan acak tidak mungkin dikompres: urutan tersebut memiliki informasi N maksimum.

Namun bagaimana jika proporsinya tidak lagi 50/50? Kita harus mengharapkan beberapa potensi penghematan. Dalam hal ini, jumlah bit yang diperlukan untuk menyimpan satu urutan adalah:

Mari kita periksa kewarasan kasus ketika angka 0 jauh lebih kecil daripada angka 1, misalnya nN. Dalam hal ini istilah P₁ dapat diabaikan, dan jumlah bit diberikan oleh:

Jadi jumlah informasinya sebanding dengan n dan bukannya N. Ini karena kita sekarang hanya perlu menyimpan posisi masing-masing 0, bukan keseluruhan barisan.

Ini menggambarkan kekuatan entropi yang berkaitan dengan bit dan byte fisik di komputer. Kesimpulan,

Entropi informasi menentukan jumlah bit yang diharapkan per panjang yang diperlukan untuk menyimpan urutan yang dihasilkan oleh distribusi probabilitas tertentu.

Dengan kata lain, entropi adalah semacam rasio kompresi optimal untuk proporsi karakter tetap dalam suatu urutan. Ini adalah cara entropi dikaitkan dengan informasi.

Selain memikirkan urutan sebagai subjek yang menarik perhatian kita, kita dapat mengalihkan perhatian kita ke distribusi itu sendiri. Sudut pandang ini memungkinkan kita menafsirkan entropi sebagai semacam probabilitas (atau kemungkinan log).

Entropi sebagai Kemungkinan Log

Entropi menghitung jumlah kemungkinan. Kami ingin mengubahnya menjadi semacam probabilitas. Untuk melakukan ini kita hanya perlu menormalkan hitungannya.

Berapa jumlah total cara untuk mengkategorikan Ntitik data ke dalam kategori c? Jawabannya sederhana, karena setiap titik data memiliki pilihan c:

Sekarang kita dapat membagi jumlah entropi dengan totalnya untuk memperoleh probabilitas (mengganti nᵢ/NP(i)):

Dengan cara ini, entropi menjadi probabilitas (asimtotik karena N yang besar) untuk mengamati distribusi tertentu dari titik data yang dikategorikan secara acak:

Entropi dapat dilihat sebagai kemungkinan log untuk mengamati distribusi tertentu (per titik data)

Ada asumsi tersembunyi dalam diskusi kami, karena kami memperlakukan setiap konfigurasi dengan kemungkinan yang sama dalam perhitungan kami. Apa yang terjadi jika beberapa kategori lebih diunggulkan dibandingkan kategori lainnya?

Kita dapat mempertimbangkan beberapa distribusi referensi Q(x). Jika setiap titik data mempunyai peluang Q(x) untuk berada dalam kategori tertentu x, maka peluang pengamatan n₁ dalam kategori 1, n₂ dalam kategori 2 dan seterusnya diberikan oleh probabilitas multinomial:

Sekali lagi, kita bisa melihat perkiraan Sterling. Perhitungannya sangat mirip dengan perhitungan sebelumnya, hanya saja kita mempunyai Q(i) tambahan di akhir

Mengganti nᵢ/NP(i), suku di dalam eksponensial menjadi Divergensi Kullback–Leibler . Jadi persamaan kita dapat diringkas sebagai

Dimana kami telah menggunakan notasi umum KL-divergence di dalam eksponensial. Divergensi KL adalah generalisasi entropi informasi Shannon, dan persamaan kami membuat interpretasi kami menjadi lebih tepat:

Divergensi Kullback-Leibler dari P pada Q adalah kemungkinan log negatif (per titik data) dari pengamatan P ketika pengambilan sampel data menurut Q

Sekali lagi, semua ini mengasumsikan N sangat besar.

Beberapa fakta tentang KL-divergence kini menjadi jelas:

  1. Divergensi KL selalu non-negatif: ini karena probabilitasnya tidak akan pernah lebih besar dari 1.
  2. Divergensi KL bisa jadi tidak terbatas: hal ini terjadi ketika dua distribusi tidak memiliki tumpang tindih, sehingga latihan penghitungan menghasilkan 0 = exp[–∞].
  3. Divergensi KL adalah nol jika dan hanya jika P = Q: ketika kita mengambil sampel data berdasarkan Q, kita mengharapkan distribusi yang dihasilkan terlihat seperti Q —ekspektasi ini tepat pada N.

Berbekal pemahaman baru ini, kini kami siap menafsirkan kembali fakta tentang berbagai konsep entropi dalam ilmu data!

Sampler Entropik

Di bawah ini kita akan membahas intuisi di balik beberapa variabel mirip entropi yang umum dalam ilmu data. Kami sekali lagi akan mengingatkan pembaca bahwa batas N yang besar diasumsikan secara implisit.

Entropi Silang

Ini berguna untuk melatih variabel kategori. Ini didefinisikan sebagai

Perhatikan bahwa kami telah menulis ulang definisi tersebut sebagai jumlah dari divergensi KL dan entropi informasi Shannon. Ini mungkin terlihat agak asing, karena saat kami melatih model pembelajaran mesin, kami hanya menghitung estimasi model tersebut melalui sampel kami (misalnya S)

Dengan menggunakan intuisi penghitungan kami, kami menyimpulkan hal itu

Meminimalkan cross-entropy setara dengan memaksimalkan log-likelihood dari pengamatan statistik yang sama dengan data sampel kita, jika kita mengambil sampel data dari distribusi Q yang sedang dilatih.

Hal ini menempatkan kerugian cross-entropy pada landasan konseptual yang sama dengan kerugian L2 dalam regresi: keduanya merupakan semacam fungsi log-likelihood.

Saling Informasi

Saling informasi dapat dianggap sebagai semacam korelasi umum antara dua variabel. Dilambangkan dengan I, hal ini didefinisikan melalui KL-divergence

Dimana pada perhitungan KL-divergence kita membandingkan sebaran dua variabel dengan sebaran yang mempertimbangkan masing-masing variabel secara terpisah.

Intuisi penghitungan kami memberi kami interpretasi yang sangat bagus:

Informasi timbal balik adalah kemungkinan log negatif (per titik data) untuk memperoleh distribusi tertentu pada dua variabel, ketika kita mengambil sampel kedua variabel secara independen berdasarkan distribusi marginalnya.

Hal ini menjelaskan mengapa informasi timbal balik merupakan alat yang ampuh yang dapat menangkap korelasi nonlinier antar variabel.

Peningkatan Entropi yang Tak Terelakkan?

Terakhir, kami siap membahas salah satu fakta paling terkenal tentang entropi: hukum termodinamika dan peningkatan entropi yang tak terelakkan.

Penting untuk diingat bahwa ada dua konsep entropi yang berperan di sini:

  1. Entropi Informasi Shannon dalam Ilmu Data
  2. Entropi dalam Fisika Termal

Kenaikan Entropi merupakan hukum fisika yang hanya berlaku pada kasus kedua. Namun, entropi dalam fisika dapat dipandang sebagai kasus khusus entropi Shannon ketika diterapkan pada sistem fisik, jadi ada hubungannya di sana.

Artinya dalam latihan berhitung, jumlah kemungkinan pasti akan bertambah. Hal ini masuk akal secara intuitif, karena ketika sistem fisik (kacau) tidak dibatasi, sistem tersebut pada akhirnya akan mengambil semua kemungkinan yang ada. Ini mirip dengan hukum Murphy yang terkenal yang menyatakan “segala sesuatu yang salah akan menjadi salah”.

Dari perspektif ilmu data, jika kita yakin bahwa data kita adalah hasil dari beberapa sistem dinamis, maka masuk akal untuk memaksimalkan entropi: karena jika kita yakin semua variabel telah diperhitungkan, tidak ada alasan untuk menganggap bahwa data kita tidak akan mengeksplorasi semua kemungkinan. Dengan kata lain, kami ingin mempertimbangkan semua kemungkinan/kombinasi — bahkan yang tidak ada dalam data kami. Mungkin inilah yang memberikan konsep entropis kekuatan supernya dalam ilmu data

Dengan menghitung semua kemungkinan, entropi adalah ukuran konservatif dari ketidaktahuan kita

Sudut pandang ini dieksplorasi dalam salah satu artikel saya tentang entropi.

Kesimpulan

Dengan menafsirkan rumus entropi sebagai penghitungan kemungkinan, kita dapat memahami peran entropi dalam teori informasi dan menganggap entropi sebagai semacam probabilitas. Penafsiran inilah yang pada akhirnya membuat berbagai konsep entropi bermakna dan berguna.

Silakan bagikan pemikiran dan masukan Anda jika ada, selamat membaca! 👋

Jika Anda menikmati artikel ini, Anda mungkin tertarik dengan beberapa artikel terkait saya yang lain: