มาเจาะลึกเพื่อทำความเข้าใจอคติและความแปรปรวนพร้อมกับการฟิตติ้งด้านล่างและการฟิตติ้งมากเกินไป

การเรียนรู้ของเครื่องเป็นส่วนหนึ่งของปัญญาประดิษฐ์และมีการเติบโตอย่างรวดเร็วในด้านต่างๆ แมชชีนเลิร์นนิงเรียนรู้จากข้อมูลที่ป้อนเข้าไปในโมเดล ซึ่งช่วยให้คาดการณ์ได้ดีขึ้นเมื่อเวลาผ่านไป โมเดล ML ต้องการข้อมูลที่หลากหลายและจำนวนมหาศาลเพื่อทำการคาดการณ์ที่มีความหมาย

เนื่องจากขนาดที่ใหญ่โตและข้อจำกัดในโลกแห่งความเป็นจริง จึงมีข้อผิดพลาดอยู่เสมอ ซึ่งนำไปสู่การเบี่ยงเบนระหว่างผลลัพธ์ที่คาดการณ์ไว้กับผลลัพธ์จริง เป้าหมายหลักของ Data Scientist คือการลดข้อผิดพลาดเพื่อให้สามารถคาดการณ์ได้แม่นยำยิ่งขึ้น

ข้อผิดพลาดของการเรียนรู้ของเครื่อง:

ข้อผิดพลาดใน ML มีสองประเภท:

ข้อผิดพลาด #1 ที่ลดได้:

อคติและความแปรปรวนที่มีอยู่ในชุดข้อมูลเรียกว่าข้อผิดพลาดที่ลดลงได้ เนื่องจากสามารถปรับ ปรับแต่ง และปรับแต่งได้ในระดับหนึ่งเพื่อปรับปรุงความแม่นยำของแบบจำลอง

# 2 ข้อผิดพลาดที่ลดไม่ได้:

มีข้อผิดพลาดบางอย่างที่จะปรากฏในชุดข้อมูลเสมอไม่ว่าคุณจะทำอะไรก็ตาม ตัวอย่างเช่น อาจมีตัวแปรที่ไม่รู้จักซึ่งค่าไม่สามารถเปลี่ยนแปลงหรือลดได้

ข้อผิดพลาดที่ลดไม่ได้ไม่สามารถแก้ไขได้ และ Data Scientist จำเป็นต้องแก้ไขข้อจำกัดนี้

อคติ:

อคติหมายถึงความแตกต่างระหว่างค่าที่คาดการณ์โดยเฉลี่ยและค่าที่คาดหวัง อคติสูงเรียกว่าปรากฏการณ์เมื่อแบบจำลองถูกทำให้ง่ายเกินไป โมเดล ML ไม่สามารถระบุความสัมพันธ์ที่แท้จริงหรือรูปแบบที่โดดเด่นในชุดข้อมูลได้

โมเดลทุกรุ่นมีอคติในตัว เนื่องจากช่วยให้โมเดลเรียนรู้ได้เร็วและง่ายขึ้น อคติสูงทำให้เกิดความพอดีในโมเดล

โดยทั่วไปอัลกอริธึมเชิงเส้นมีอคติสูง ซึ่งช่วยให้เรียนรู้ได้อย่างรวดเร็ว ในขณะที่อัลกอริธึมแบบไม่เชิงเส้นมีอคติต่ำกว่าเนื่องจากมีความซับซ้อนมากกว่าโมเดลเชิงเส้น พูดง่ายๆ ก็คือ อัลกอริธึมยิ่งง่ายกว่า และมีความลำเอียงในโมเดลมากขึ้นเท่านั้น

ต่อไปนี้เป็นคุณลักษณะของแบบจำลองข้อมูลที่มีความเอนเอียงสูง

#1 ไม่สามารถจับกระแสได้

#2 อัตราข้อผิดพลาดสูง

#3 ฟิตติ้งด้านล่าง

#4 โมเดลที่เกินความจริง/เกินทั่วไป

ความแปรปรวน :

ความแปรปรวนจะวัดการเปลี่ยนแปลงของค่า /เอาต์พุต หากใช้ชุดข้อมูลการฝึกชุดใหม่ที่แตกต่างกัน ในสถานการณ์ที่เหมาะสม โมเดลไม่ควรแตกต่างกันสำหรับชุดข้อมูลการฝึกที่แตกต่างกัน ความแปรปรวนเกิดขึ้นเมื่อนักวิทยาศาสตร์ข้อมูลใช้แบบจำลองที่ซับซ้อนพร้อมคุณสมบัติหลายอย่าง

ความแปรปรวนสูงทำให้เกิดการโอเวอร์ฟิต ซึ่งจะจับจุดข้อมูลมากกว่าที่ต้องการพร้อมกับสัญญาณรบกวน ในขณะที่แบบจำลองที่มีความแปรปรวนต่ำมีความแตกต่างน้อยที่สุดระหว่างแบบจำลองตัวอย่างและแบบจำลองที่คาดการณ์ไว้

โมเดลที่มีความแปรปรวนสูงทำงานได้ดีกับชุดข้อมูลการฝึก แต่ไม่สามารถดำเนินการได้ตามที่คาดไว้เมื่อได้รับข้อมูลที่มองไม่เห็น

แบบจำลองการถดถอยเชิงเส้นและลอจิสติกส์มีความแปรปรวนต่ำ ในขณะที่แผนผังการตัดสินใจ เครื่องเวกเตอร์สนับสนุน และเพื่อนบ้านที่ใกล้ที่สุด k มีความแปรปรวนสูงอยู่ในตัว

ลักษณะของแบบจำลองความแปรปรวนสูง

#1 ความซับซ้อนสูง

#2 แมปจุดข้อมูลทั้งหมดให้อยู่ใกล้กัน

# 3 ฟิตเกินไป

#4 สัญญาณรบกวนในชุดข้อมูล

การติดตั้งอันเดอร์ฟิตติ้งและการโอเวอร์ฟิตติ้ง:

ตอนนี้เราเข้าใจอคติและความแปรปรวนแล้ว เรามาทำความเข้าใจกันดีกว่าว่า Overfitting และ Underfitting คืออะไร

การติดตั้งมากเกินไปและการลดขนาดลงเป็นปัญหาสองประการที่รบกวนโมเดล Machine Learning ทุกรุ่น โมเดลแมชชีนเลิร์นนิงที่เหมาะสมควรสามารถปรับให้เข้ากับอินพุตที่ไม่รู้จักทั้งหมดและให้เอาต์พุตที่เชื่อถือได้ในแต่ละครั้ง

การฟิตติ้งมากเกินไป

การติดตั้งมากเกินไปหมายถึงสถานการณ์ที่ Data Scientist ฝึกโมเดล ML ด้วยข้อมูลจำนวนมาก ลองนึกถึงคนรูปร่างผอมบางที่สวมเสื้อผ้าหลวมๆ ตัวใหญ่ๆ สิ!

เมื่อแบบจำลองได้รับการฝึกฝนจากข้อมูลขนาดใหญ่ โมเดลจะเริ่มครอบคลุมจุดข้อมูลมากกว่าที่จำเป็น และในกระบวนการนี้ โมเดลจะเริ่มรวมสัญญาณรบกวนและค่าที่ไม่ถูกต้องด้วย

โมเดลที่ติดตั้งมากเกินไปมีความแปรปรวนสูงและมีอคติต่ำ อัลกอริธึมการเรียนรู้แบบมีผู้สอนต้องทนทุกข์ทรมานจากการติดตั้งมากเกินไปตลอดเวลา

.

อะไรทำให้เกิดฟิตติ้งมากเกินไป:

ด้านล่างนี้คือสาเหตุบางประการที่ทำให้เกิดการสวมอุปกรณ์มากเกินไป

#1 ความแปรปรวนสูงในโมเดล ML

#2 ความซับซ้อนสูงของโมเดล

#3 การใช้ข้อมูลที่ไม่สะอาดและไม่มีโครงสร้าง

#4 ชุดข้อมูลการฝึกอบรมไม่เพียงพอ

วิธีแก้ไขการสวมอุปกรณ์มากเกินไป

#1 ฝึกโมเดลด้วยข้อมูลที่เพียงพอ

#2 ใช้เทคนิคการทำให้เป็นมาตรฐาน

#3 ใช้การตรวจสอบข้าม K Fold

#4 การลบคุณสมบัติ

#5 เทคนิคการประกอบ

ฟิตติ้งด้านล่าง:

Underfitting เป็นปรากฏการณ์ที่เกิดขึ้นเมื่อโมเดล ML ไม่สามารถระบุแนวโน้มของข้อมูลได้

ในเชิงเปรียบเทียบ ให้นึกถึงบุคคลที่มีสุขภาพดีที่พยายามสวมชุดที่ไม่ธรรมดา

โมเดลไม่สามารถเรียนรู้จากข้อมูลการฝึกเพื่อคาดการณ์ได้อย่างน่าเชื่อถือและแม่นยำ มันเกิดขึ้นเนื่องจากมีอคติสูงและความแปรปรวนต่ำ

อะไรทำให้เกิดฟิตติ้งอันเดอร์ฟิต:

# มีอคติสูงและมีความแปรปรวนต่ำในชุดข้อมูล

# 2 โมเดลแบบง่ายที่ใช้สำหรับการทำนาย

#3 ข้อมูลที่ไม่สะอาดที่ใช้ในการทำนาย

#4 ชุดข้อมูลการฝึกอบรมมีขนาดไม่เพียงพอ

วิธีแก้ไข Underfitting

#1 ทำให้โมเดลซับซ้อนมากขึ้น

#2 เพิ่มคุณสมบัติและระยะเวลาของชุดข้อมูลการฝึกอบรม

#3 กำจัดสัญญาณรบกวนออกจากชุดข้อมูล

พอดี:

สถานการณ์ในอุดมคติคือเมื่อค่าที่คาดการณ์ไว้ตรงกับค่าจริงในชุดข้อมูลและไม่มีการบันทึกข้อผิดพลาด อย่างไรก็ตาม ในชีวิตจริง สิ่งนี้เป็นไปไม่ได้เลยที่จะบรรลุผลสำเร็จ ทางออกที่ดีที่สุดคือการหาทางสายกลางที่ช่วยให้ได้ผลลัพธ์ที่ต้องการ

ด้วยการฝึกโมเดลอย่างต่อเนื่อง ข้อผิดพลาดในชุดข้อมูลการฝึกจะลดลงเมื่อเวลาผ่านไป สิ่งเดียวกันนี้เกิดขึ้นกับชุดข้อมูลทดสอบ หากคุณยังคงทดสอบชุดข้อมูลการฝึกต่อไป ในที่สุด มันก็จะเริ่มจับสัญญาณรบกวนเช่นกัน และนำไปสู่การติดตั้งมากเกินไป

เราจำเป็นต้องระมัดระวังและสังเกตจุดสำคัญที่ข้อผิดพลาดเริ่มเพิ่มขึ้น ในขณะนี้เราจำเป็นต้องหยุดการฝึกซ้อม โมเดลที่ได้รับการฝึกนี้ถือว่าเหมาะสมและสามารถคาดการณ์ได้ถูกต้อง