Энтропия: золотая мера машинного обучения

Сегодня мы продолжим нашу образовательную рубрику #чтопочитать и статья будет посвящена машинному обучению - от деревьев принятия решений к нейронным сетям.

Краткое обобщение статьи: Энтропия — это мера хаоса системы. Так как она намного более динамична, чем другие менее изменчивые величины, например "доля правильных ответов" или даже среднеквадратическая ошибка, её использование для оптимизации алгоритмов машинного обучения часто приводит к повышению их скорости работы и производительности.

В машинном обучении её можно встретить повсюду: от построений деревьев решений до тренировок глубоких нейронных сетей. Энтропия - неотъемлемая часть в сфере машинного обучения.

Термин "энтропия" пришел из физики, в которой он определяется как мера беспорядка или непредсказуемости в системе. Для примера давайте представим закрытую коробку с двумя газами внутри: сначала энтропия системы низкая, так как газы отделены друг от друга, но постепенно газы смешиваются, и энтропия системы увеличивается. В замкнутой системе энтропия никогда не уменьшается - хаос не утихает без влияния посторонних сил.

Теперь давайте представим, что мы подбросили монетку и получили следующие результаты: [орел, решка, решка, орел]. Если мы (или алгоритм машинного обучения) попытаемся спрогнозировать результат следующего броска, у нас не получиться это сделать с даже минимальной долей уверенности - энтропия системы слишком велика. С другой стороны, несимметричная монета, результаты которой [орел, орел, орел, орел], имеет низкую энтропию, и, учитывая имеющуюся информацию, мы можем с почти полной уверенностью сказать, что следующий результат броска - орёл.

Чаще всего в науке о данных мы встречаем средние значения энтропии - между невероятно высокими и идеально низкими. Высокой энтропии соответствует маленький прирост информации; низкой энтропии, наоборот, большой прирост информации. Прирост информации можно определить как уровень чистоты системы - количество чистой доступной в ней информации.

Энтропия используется для построения деревьев решений. В них узлы (условия) с менее низкой энтропией располагаются выше по дереву. Это позволяет дереву максимально эффективно пропускать входные данные через ряд условий к правильному конечному узлу ("листу").

Для демонстрации работы узлов с различной энтропией, давайте представим набор гипотетических признаков, класс каждого из которых обозначен цветом (синим или красным), и вертикальную черту, обозначающую расщепление (разделение) этих признаков.

Дерево решений высчитывает энтропию признаков и располагает их так, чтобы общая энтропия модели была минимальной. Для достижения этой цели условия с меньшей энтропией размещаются выше, что помогает расположенным ниже узлам достигать более низкой энтропии.

Информационный выигрыш или относительная энтропия в построении деревьев решений определяется как расстояние между двумя вероятностными распределениями P и Q. Также оно известно как расстояние Кульбака-Лейблера, которое используется в обучении генеративно-состязательных сетей для оценки производительности сгенерированных изображений по сравнению с изображениями из первоначального набора.

Одной из самых популярных функций потерь, используемых в нейронных сетях, является кросс-энтропия (перекрестная энтропия). Будь то категорическая, разреженная или бинарная кросс-энтропия, она является стандартным выбором для высокопродуктивных нейронных сетей. Ее также используют для оптимизации почти любого алгоритма классификации, например, логической регрессии. Так же как взаимная или условная энтропия, кросс-энтропия — это лишь один из видов стандартной энтропии, приспособленный для особого применения.

Кросс-энтропия, так же как и расстояние Кульбака-Лейблера, имеет дело со взаимоотношениями между распределениями P и Q, определяя P, как истинное, и Q, как приближенное. Однако, расстояние Кульбака-Лейблера измеряет относительную энтропию между двумя распределениями, в то время как кросс-энтропия измеряет "общую энтропию" между данными распределениями.

Кросс-энтропия измеряет среднее число бит, необходимое для кодировки данных, полученных из источника, использующего распределение P, если используемая схема кодирования базируется на заданном распределении вероятностей Q. В нашем случае мы стремимся уменьшить число бит, необходимое для обозначения события, используя Q вместо P. Относительная энтропия, с другой стороны, измеряет дополнительное число бит, необходимое для обозначения события из P в распределении Q.

Может показаться, что кросс-энтропия — это просто запутанный способ измерения производительности модели, но она имеет несколько преимуществ:

Метрики, основанные на accuracy или ошибках, очень чувствительны к порядку данных в тренировочном наборе. В них не учитывается статистическая достоверность, и отсутствует устойчивость к различным атрибутам данных, что может привести к ошибочным результатам. Всё это делает их грубыми мерами.
Кросс-энтропия измеряет информационный контент, и поэтому она более динамична и устойчива, чем те метрики, которые просто проверяют, отмечены ли все отслеживаемые пункты. Прогнозы и цели в ней представлены распределениями, а не списком вопросов.
Она близко связана с природой вероятностей и хорошо сочетается с сигмоидой и SoftMax (даже если они использованы в последнем нейроне), помогая уменьшить проблему исчезающего градиента. Логистическую регрессию можно считать вариантом бинарной кросс-энтропии.

Несмотря на то, что энтропия не всегда является наилучшей функцией потерь - особенно в случаях, когда целевая функция P выражена не точно - в целом она все равно приводит к повышению производительности, что объясняет её популярность.

Используя энтропию в машинном обучении, мы можем лучше работать с его основными компонентами - неопределенностью и вероятностью - с помощью кросс-энтропии, относительной энтропии и информационного выигрыша. Энтропия напрямую работает с неизвестным, что очень важно в машинном обучении. Модели, оптимизированные с использованием энтропии, способны разгуливать на полянах неопределенности с повышенным уровнем знаний и целей.

#машинноеобучение #ml

Оригинальная статья

3 комментария

Дарья Садыкова

01.02.2021

+++ Шлю лучи поддержки автору))🙌🌈 Такие статьи должны быть более популярны на VC

это точно!

обычно конторы та ки лезут в гущу хаоса не изучая рынок и клиентов

очень полез но шабло нно
естьв едь новый термин МНОГОСЛОЙНАЯ неопределённость
там тоже только слоями
и решенеи задачки порой тупиковое
спасибки за обзор