Обязательно ли устанавливать значение загрязнения для изолированного леса в Python?

Я собираюсь построить модель для выявления аномалий в моем наборе данных. Я много исследовал и выяснил, что изоляционный лес лучше всего подходит для этого. В моем наборе данных у меня нет меток (это означает, что набор данных содержит только объясняющие переменные). Но я понятия не имею, как установить параметр загрязнения в изолированном лесу (в большинстве статей, которые объясняют, уже есть выходная переменная [помеченная как аномалия], с помощью которой они вычисляют коэффициент выбросов, а затем устанавливают его как значение загрязнения ).

Обязательно ли его устанавливать ?. Значение по умолчанию для загрязнения - 0,1. Можно ли игнорировать это? если я не придал этому значения, повлияет ли это на результаты модели?

model = IsolationForest(contamination=0.1, n_estimators=1000)

person kevin    schedule 28.08.2020    source источник


Ответы (1)


Нет, устанавливать значение загрязнения не обязательно. По умолчанию он установлен на авто.

contamination‘auto ’или float, default =’ auto ’ Степень загрязнения набора данных, т. е. доля выбросов в наборе данных. Используется при подгонке для определения порога оценки образцов.

Ссылка в документации

Поэтому вы можете игнорировать его, но это может / повлияет на результаты модели, поскольку метод прогнозирования использует порог, который устанавливается значением загрязнения.

В методе прогнозирования используется порог необработанной функции оценки, вычисляемый оценщиком. Эта функция оценки доступна через метод score_samples, в то время как порог может контролироваться параметром contamination.

Ссылка в документации

person Kim Tang    schedule 28.08.2020
comment
Спасибо за Ваш ответ. Могу я попросить вас взглянуть на соответствующее сообщение здесь? - person Mario; 16.03.2021