Как правило, наиболее важными отличиями являются: гладкие, непрерывно дифференцируемые, такие как tanh и логистические по сравнению со ступенчатыми или усеченными b. конкурентное против передачи c. сигмовидная против радиальной d. симметричный (-1, + 1) против асимметричного (0,1)
Обычно для скрытых слоев необходимы дифференцированные требования, и часто рекомендуется использовать tanh как более сбалансированный. 0 для tanh - это самая быстрая точка (самый высокий градиент или усиление), а не ловушка, тогда как для логистики 0 - самая низкая точка и ловушка для всего, что углубляется в отрицательную территорию. Радиальные (базисные) функции находятся на расстоянии от типичного прототипа и хороши для выпуклых круговых областей вокруг нейрона, в то время как сигмовидные функции предназначены для линейного разделения и хороши для полупространств - и для хорошего приближения к выпуклой области потребуется много Круглые / сферические области хуже всего подходят для сигмоидов и лучше всего подходят для радиалов.
Как правило, рекомендуется использовать tanh на промежуточных уровнях для +/- баланса и соответствие выходного уровня задаче (логическое / дихотомическое решение класса с пороговым значением, логистические или конкурентные выходы (например, softmax, саморегулирующееся многоклассовое обобщение логистической системы). ); задачи регрессии могут быть даже линейными). Выходной слой не обязательно должен быть непрерывно дифференцируемым. Входной слой должен быть каким-то образом нормализован, либо до [0,1], либо, что еще лучше, стандартизация или нормализация с унижением до [-1, + 1]. Если вы включаете фиктивный вход 1, затем нормализуйте так, чтобы || x || p = 1 вы делите на сумму или длину, и эта информация о величине сохраняется во входном фиктивном смещении, а не теряется. Если вы нормализуете примеры, это технически мешает вашим тестовым данным, если вы смотрите на них, или они могут быть вне диапазона, если вы этого не сделаете. Но с нормализацией || 2 такие вариации или ошибки должны приближаться к нормальному распределению, если они являются следствием естественного распределения или ошибки. Это означает, что они с высокой вероятностью не превысят исходный диапазон (вероятно, около 2 стандартных отклонений) более чем на небольшой коэффициент (то есть такие значения превышения диапазона считаются выбросами, а не значительными).
Поэтому я рекомендую беспристрастную нормализацию экземпляров или предвзятую стандартизацию паттернов или и то, и другое на входном уровне (возможно, с сокращением данных с помощью SVD), tanh на скрытых слоях и пороговую функцию, логистическую функцию или конкурентную функцию на выходе для классификации, но линейно с ненормализованные цели или, возможно, logsig с нормализованными целями для регрессии.
person
David M W Powers
schedule
22.08.2014