Apakah wajib menetapkan nilai kontaminasi untuk hutan isolasi dengan python?

Saya akan membuat model untuk mengidentifikasi anomali dalam kumpulan data saya. Saya banyak meneliti dan menemukan bahwa hutan isolasi adalah yang terbaik. Di dataset saya, saya tidak memiliki label apa pun (artinya dataset hanya berisi variabel penjelas). Tapi saya tidak punya ide untuk mengatur parameter kontaminasi di hutan isolasi (Sebagian besar artikel yang menjelaskan sudah memiliki variabel keluaran [diberi label sebagai anomali], dengan menggunakannya mereka menghitung rasio outlier dan kemudian menetapkannya sebagai nilai kontaminasi).

Apakah wajib untuk mengaturnya?. Nilai default untuk kontaminasi adalah 0,1. Bolehkah mengabaikannya? jika saya tidak memberikan nilai, apakah hal tersebut memengaruhi hasil model?

model = IsolationForest(contamination=0.1, n_estimators=1000)

person kevin    schedule 28.08.2020    source sumber


Jawaban (1)


Tidak, tidak wajib untuk menetapkan nilai kontaminasi. Secara default, ini disetel ke otomatis.

contamination'auto' or float, default='auto' Jumlah kontaminasi pada kumpulan data, yaitu proporsi outlier dalam kumpulan data. Digunakan saat pemasangan untuk menentukan ambang batas skor sampel.

Referensi dalam dokumentasi

Oleh karena itu, Anda dapat mengabaikannya, namun hal ini dapat/akan mempengaruhi hasil model, karena metode prediksi menggunakan ambang batas, yang ditentukan oleh nilai kontaminasi.

Metode prediksi memanfaatkan ambang batas pada fungsi penilaian mentah yang dihitung oleh estimator. Fungsi penilaian ini dapat diakses melalui metode score_samples, sedangkan ambang batas dapat dikontrol melalui parameter contamination.

Referensi dalam dokumentasi

person Kim Tang    schedule 28.08.2020
comment
Terima kasih atas jawaban anda. Bolehkah saya meminta Anda untuk melihat postingan terkait di sini? - person Mario; 16.03.2021