В чем разница между типами масштабирования объектов?

Википедия предлагает три метода масштабирования функций. Что следует использовать, когда? (какие соображения?)

Если быть точным, мне это нужно для анализа тональности фраз, реализованного с помощью SVM.

(ПРИМЕЧАНИЕ: я видел этот пост. Он довольно хорошо объясняет различные методы, но ничего не говорит о том, когда каждый из них следует использовать).

Спасибо :)


person Cheshie    schedule 15.01.2014    source источник
comment
На какое приложение вы ориентируетесь, по большому счету не имеет значения. Ответ полностью зависит от того, как выглядит ваша модель признаков.   -  person tripleee    schedule 16.01.2014


Ответы (1)


На самом деле довольно сложно дать какие-либо разумные правила выбора масштабирования вместо стандартизации. Стандартизация ваших данных имеет хорошее теоретическое обоснование и меньше подвержена влиянию выбросов, чем масштабирование. В результате наиболее часто используемым методом предварительной обработки является стандартизация.

В частности, если вы спрашиваете о стандартизации, вы используете какое-то набор слов для представления ваших данных. В таком случае tf-idf является наиболее очевидным выбором представления данных, на который фактически почти не влияет какое-либо масштабирование/стандартизация, поскольку он сам достаточно хорошо стандартизирован (за счет внутренней нормализации и логарифмического масштабирования).

person lejlot    schedule 15.01.2014