จำเป็นต้องตั้งค่าการปนเปื้อนสำหรับฟอเรสต์แยกใน python หรือไม่

ฉันจะสร้างแบบจำลองเพื่อระบุความผิดปกติในชุดข้อมูลของฉัน ฉันค้นคว้ามามากมายและพบว่าป่าโดดเดี่ยวเป็นป่าที่ดีที่สุด ในชุดข้อมูลของฉัน ฉันไม่มีป้ายกำกับใดๆ (ซึ่งหมายความว่าชุดข้อมูลจะมีเฉพาะตัวแปรอธิบายเท่านั้น) แต่ฉันไม่มีความคิดที่จะตั้งค่าพารามิเตอร์การปนเปื้อนในฟอเรสต์การแยก (บทความส่วนใหญ่ที่อธิบายมีตัวแปรเอาท์พุตอยู่แล้ว [ติดป้ายกำกับว่าเป็นความผิดปกติ] โดยใช้พวกมันคำนวณอัตราส่วนค่าผิดปกติแล้วตั้งค่าเป็น ค่าการปนเปื้อน)

จำเป็นต้องตั้งค่ามั้ย.. ค่าเริ่มต้นสำหรับการปนเปื้อนคือ 0.1 ไม่เป็นไรหรอกที่จะเพิกเฉยต่อมัน? ถ้าฉันไม่ให้คุณค่ากับมัน มันจะส่งผลต่อผลลัพธ์ของโมเดลหรือไม่

model = IsolationForest(contamination=0.1, n_estimators=1000)

person kevin    schedule 28.08.2020    source แหล่งที่มา


คำตอบ (1)


ไม่ ไม่จำเป็นต้องตั้งค่าการปนเปื้อน โดยค่าเริ่มต้นจะถูกตั้งค่าเป็นอัตโนมัติ

การปนเปื้อน'อัตโนมัติ' หรือลอย ค่าเริ่มต้น='อัตโนมัติ' จำนวนการปนเปื้อนของชุดข้อมูล เช่น สัดส่วนของค่าผิดปกติในชุดข้อมูล ใช้เมื่อทำการประกอบเพื่อกำหนดเกณฑ์ขั้นต่ำของคะแนนของกลุ่มตัวอย่าง

ข้อมูลอ้างอิงในเอกสารประกอบ

ดังนั้นคุณจึงสามารถเพิกเฉยได้ แต่สามารถ/จะส่งผลต่อผลลัพธ์ของแบบจำลองได้ เนื่องจากวิธีการคาดการณ์ใช้เกณฑ์ที่กำหนดโดยค่าการปนเปื้อน

วิธีการทำนายใช้เกณฑ์ในฟังก์ชันการให้คะแนนดิบที่คำนวณโดยตัวประมาณค่า ฟังก์ชันการให้คะแนนนี้สามารถเข้าถึงได้ผ่านวิธี score_samples ในขณะที่เกณฑ์สามารถควบคุมได้ด้วยพารามิเตอร์ contamination

ข้อมูลอ้างอิงในเอกสารประกอบ

person Kim Tang    schedule 28.08.2020
comment
ขอบคุณสำหรับคำตอบ. ฉันขอให้คุณดูโพสต์ที่เกี่ยวข้องที่นี่ - person Mario; 16.03.2021