Энтропия может показаться абстрактной, но у нее есть интуитивная сторона: это вероятность увидеть определенные закономерности в данных. Вот как это работает.

В науке о данных существует множество концепций, связанных с понятием энтропии. Самый простой из них — это информационная энтропия Шеннона, определяемая для любого распределения P(x) по формуле:

Где сумма по всем возможным категориям в C.

Есть и другие связанные концепции, которые имеют похожие формулы:

Несмотря на повсеместное распространение формул, подобных энтропии, редко возникают дискуссии об интуиции, стоящей за формулой: почему задействован логарифм? Почему мы умножаем P(x) и регистрируем P(x)? Хотя во многих статьях упоминаются такие термины, как «информация», «ожидаемый сюрприз», интуиция, стоящая за ними, отсутствует.

Оказывается, как и вероятности, энтропию можно понять с помощью упражнения на подсчет, и ее можно связать с своего рода логарифмическим правдоподобием для распределений. Кроме того, этот подсчет может быть связан с буквальным количеством байтов в компьютере. Эти интерпретации позволят нам демистифицировать многие факты об энтропии. Любопытный? Давайте начнем!

Подсчет энтропии

Вероятность можно определить операционально: когда мы говорим, что вероятность выпадения орла у монеты составляет 50 %, это означает, что если мы подбросим монету миллион раз, количество орлов приблизится к полумиллиону. Эта доля будет приближаться к 50% вероятности по мере увеличения числа испытаний. Именно это определение делает вероятности такими интуитивными.

Есть ли аналогичная интерпретация энтропии? Есть, хотя подсчет немного хитрее: он потребует некоторой базовой комбинаторики.

Сколькими способами можно расположить Nразличные шары? Есть N вариантов для первого, N− 1 для второго… и т. д. Ответ N!, или символ факториала :

Как и в определении вероятностей, мы будем работать с очень большими числами. Поэтому полезно аппроксимировать этот объект с помощью аппроксимации Стерлинга:

Где log указывает на натуральный логарифм; аналогичные формулы также существуют, если мы используем альтернативные базы, такие как log₂ и log₁₀ (это будет определять единицы, в которых мы измеряем энтропию). Обозначение «большой-O» указывает на правильность приближения, поскольку N становится большим. Термин N log N будет источником p log p в определении энтропии.

Теперь мы готовы вывести, что считает энтропия. Представьте, что имеется большое количество различимых объектов или различимых точек данных. Эти Nточки данных сгруппированы, скажем, в категории c, как показано на рисунке ниже.

Каким общим числом способов это можно сделать? Имея в виду, что нас не волнует порядок наших данных в какой-либо категории, ответ определяется классическими полиномиальными коэффициентами:

Где мы использовали символ Ω для обозначения количества конфигураций.

Как и в случае с вероятностью, нас интересуют только большие N варианты поведения. При работе с такими большими числами полезно логарифмировать, поэтому мы можем использовать приближение Стерлинга, чтобы упростить управление:

Формулу можно упростить, используя тот факт, что сумма всех nᵢ равна N,

если мы подставим nᵢ/NP(i), мы получим в точности формулу энтропии. В качестве альтернативы мы можем написать (для больших N):

Итак, мы пришли к рабочему определению энтропии:

Энтропия подсчитывает количество способов категоризации больших объемов данных, которые напоминают заданное распределение вероятностей (в логарифмических единицах и на количество точек данных).

Это упражнение по счету лежит в основе теории информации, к которой мы обратимся далее.

Энтропия как информация

Итак, как наша концепция энтропии соотносится с буквальными битами нулей и единиц в компьютере?

Представьте себе двоичную последовательность фиксированной длины N. Интуитивно мы знаем, что он содержит N битов информации: потому что для хранения последовательности на жестком диске или в памяти буквально требуется N битов.

Но что, если в последовательности есть интересные закономерности, подобные приведенным ниже?

  • 000000000000000000000000000
  • 010101010101010101010101010
  • 000000010000000000000000000

В этих случаях представление двоичной последовательности было бы очень неэффективным. Мы интуитивно знаем, что есть более эффективные способы хранения этих последовательностей: мы можем указать шаблоны, а не все биты-буквы, и количество значимой информации в этих последовательностях должно быть меньше.

Так что, если мы проигнорируем тонкие закономерности повторения цифр и просто посмотрим на основные статистические свойства цифр (пропорции нулей и единиц), насколько лучше мы сможем хранить эти последовательности?

Здесь нам может помочь наша формула подсчета энтропии: она может подсчитать общее количество последовательностей при заданных фиксированных пропорциях нулей и единиц.

В случае, когда пропорции нулей и единиц равны 50/50, общее количество возможностей составляет (в большом пределе N):

Мы видим, что это примерно дает количество всех возможных двоичных последовательностей 2ᴺ. Таким образом, количество битов, необходимых для хранения последовательности, по-прежнему составляет N. Это неудивительно, поскольку мы знаем, что случайные последовательности невозможно сжать: они содержат максимум N бит информации.

Но что, если пропорции уже не 50/50? Мы должны ожидать некоторую потенциальную экономию. В этом случае общее количество битов, необходимых для хранения одной последовательности, будет:

Давайте проверим на работоспособность случай, когда количество нулей намного меньше количества единиц, скажем, nN. В этом случае член P₁ можно игнорировать, а количество бит определяется как:

Таким образом, объем информации пропорционален n, а не N. Это потому, что теперь нам нужно хранить только позицию каждого 0, а не всю последовательность.

Это иллюстрирует силу энтропии по отношению к физическим битам и байтам в компьютере. В итоге,

Информационная энтропия определяет ожидаемое количество битов на длину, необходимое для хранения последовательности, сгенерированной заданным распределением вероятностей.

Другими словами, энтропия — это своего рода оптимальная степень сжатия для фиксированной доли символов в последовательности. Так энтропия связана с информацией.

Помимо размышлений о последовательности как о предмете нашего интереса, мы можем обратить внимание на сами распределения. Эта точка зрения позволяет нам интерпретировать энтропию как разновидность вероятности (или логарифмического правдоподобия).

Энтропия как логарифмическое правдоподобие

Энтропия подсчитывает количество возможностей. Мы хотим преобразовать это в своего рода вероятность. Для этого нам просто нужно нормализовать счетчики.

Каково общее количество способов разбить Nточек данных на категории c? Ответ прост, потому что у каждой точки данных есть выбор c:

Теперь мы можем разделить значение энтропии на общее значение, чтобы получить вероятность (подставив nᵢ/NP(i)):

Таким образом, энтропия становится вероятностью (асимптотической из-за большого N) наблюдения определенного распределения из случайной категоризации точек данных:

Энтропию можно рассматривать как логарифмическую вероятность наблюдения данного распределения (на точку данных).

Однако в нашем обсуждении есть скрытое предположение, поскольку в наших расчетах мы рассматриваем каждую конфигурацию как равновероятную. Что произойдет, если некоторые категории предпочтительнее других?

Мы можем рассмотреть некоторое эталонное распределение Q(x). Если у каждой точки данных есть шанс Q(x) оказаться в определенной категории x, вероятность наблюдения n₁ в категории 1, n₂ в категории 2 и так далее определяется полиномиальной вероятностью:

Мы снова можем использовать приближение Стерлинга. Вычисления очень похожи на предыдущие, за исключением того, что у нас есть дополнительный Q(i) в конце

Подставляя nᵢ/NP(i), член внутри экспоненты становится расхождением Кульбака – Лейблера . Таким образом, наше уравнение можно представить в виде

Где мы использовали общепринятое обозначение KL-дивергенции внутри экспоненты. KL-дивергенция является обобщением информационной энтропии Шеннона, и наши уравнения делают нашу интерпретацию еще более точной:

Расхождение Кульбака-Лейблера P на Q - это отрицательная логарифмическая вероятность (на точку данных) наблюдения P при выборке данных в соответствии с Q.

Опять же, все это предполагает, что N очень велико.

Теперь становятся очевидными несколько фактов о KL-дивергенции:

  1. KL-дивергенция всегда неотрицательна: это потому, что вероятность никогда не может быть больше 1.
  2. KL-дивергенция может быть бесконечной: это происходит, когда два распределения не перекрываются, поэтому упражнение по подсчету дает 0 = exp[–∞].
  3. KL-дивергенция равна нулю тогда и только тогда, когда P = Q: когда мы выбираем данные в соответствии с Q, мы ожидаем, что результирующие распределения будут выглядеть как Q —это математическое ожидание точно при больших N.

Вооружившись этим новым пониманием, мы теперь готовы переосмыслить факты о различных энтропийных концепциях в науке о данных!

Энтропический сэмплер

Ниже мы обсудим интуицию, стоящую за некоторыми распространенными энтропийными переменными в науке о данных. Мы еще раз напомним читателю, что большое ограничение N подразумевается неявно.

Перекрестная энтропия

Это полезно для обучения категориальных переменных. Это определяется как

Обратите внимание, что мы переписали определение как сумму KL-дивергенции и информационной энтропии Шеннона. Это может показаться немного незнакомым, поскольку, когда мы обучаем модель машинного обучения, мы вычисляем только ее оценку по нашим образцам (скажем, S).

Используя нашу счетную интуицию, мы заключаем, что

Минимизация перекрестной энтропии эквивалентна максимизации логарифмической вероятности наблюдения той же статистики, что и в наших выборочных данных, если мы выбираем наши данные из обучаемого распределения Q.

Это ставит потерю перекрестной энтропии на ту же концептуальную основу, что и потеря L2 в регрессиях: обе они являются своего рода функциями логарифмического правдоподобия.

Взаимная информация

Взаимную информацию можно рассматривать как обобщенный вид корреляции между двумя переменными. Обозначается I, определяется через KL-дивергенцию

Где при вычислении KL-дивергенции мы сравниваем распределение двух переменных с распределением, учитывающим каждую переменную отдельно.

Наша счетная интуиция дает нам очень хорошую интерпретацию:

Взаимная информация - это отрицательная логарифмическая вероятность (на точку данных) получения заданного распределения двух переменных, когда мы выбираем две переменные независимо на основе их маргинальных распределений.

Это объясняет, почему взаимная информация является мощным инструментом, который может фиксировать нелинейные корреляции между переменными.

Неизбежный рост энтропии?

Наконец, мы готовы обратиться к одному из самых известных фактов об энтропии: законам термодинамики и неизбежному увеличению энтропии.

Однако важно помнить, что здесь действуют две концепции энтропии:

  1. Информационная энтропия Шеннона в науке о данных
  2. Энтропия в теплофизике

Увеличение энтропии — это физический закон, применимый только во втором случае. Однако энтропию в физике можно рассматривать как частный случай энтропии Шеннона применительно к физическим системам, так что здесь есть связь.

Что это значит с точки зрения упражнения на подсчет, так это то, что количество возможностей неизбежно будет увеличиваться. Это имеет интуитивно понятный смысл, потому что, когда физическая (хаотическая) система не имеет ограничений, в конечном итоге она должна попробовать все возможности. Это немного похоже на знаменитый закон Мерфи, который гласит: «Все, что может пойти не так, пойдет не так».

С точки зрения науки о данных, если мы считаем, что наши данные являются результатом некоторых динамических систем, то может иметь смысл максимизировать энтропию: потому что, если мы считаем, что все переменные были приняты во внимание, нет причин думать, что наши данные не исследовал все возможности. Другими словами, мы хотим рассмотреть все возможности/комбинации — даже те, которых нет в наших данных. Возможно, это то, что наделяет энтропийные концепции их сверхспособностями в науке о данных.

Учитывая все возможности, энтропия является консервативной мерой нашего невежества.

Эта точка зрения была исследована в другой моей статье об энтропии.

Заключение

Интерпретируя формулу энтропии как подсчет возможностей, мы можем понять роль энтропии в теории информации и думать об энтропии как о своего рода вероятности. Эта интерпретация, в конечном счете, делает различные энтропийные концепции значимыми и полезными.

Пожалуйста, поделитесь своими мыслями и отзывами, если они у вас есть, приятного чтения! 👋

Если вам понравилась эта статья, возможно, вас заинтересуют другие мои статьи по теме: