มาเจาะลึกเพื่อทำความเข้าใจอคติและความแปรปรวนพร้อมกับการฟิตติ้งด้านล่างและการฟิตติ้งมากเกินไป
การเรียนรู้ของเครื่องเป็นส่วนหนึ่งของปัญญาประดิษฐ์และมีการเติบโตอย่างรวดเร็วในด้านต่างๆ แมชชีนเลิร์นนิงเรียนรู้จากข้อมูลที่ป้อนเข้าไปในโมเดล ซึ่งช่วยให้คาดการณ์ได้ดีขึ้นเมื่อเวลาผ่านไป โมเดล ML ต้องการข้อมูลที่หลากหลายและจำนวนมหาศาลเพื่อทำการคาดการณ์ที่มีความหมาย
เนื่องจากขนาดที่ใหญ่โตและข้อจำกัดในโลกแห่งความเป็นจริง จึงมีข้อผิดพลาดอยู่เสมอ ซึ่งนำไปสู่การเบี่ยงเบนระหว่างผลลัพธ์ที่คาดการณ์ไว้กับผลลัพธ์จริง เป้าหมายหลักของ Data Scientist คือการลดข้อผิดพลาดเพื่อให้สามารถคาดการณ์ได้แม่นยำยิ่งขึ้น
ข้อผิดพลาดของการเรียนรู้ของเครื่อง:
ข้อผิดพลาดใน ML มีสองประเภท:
ข้อผิดพลาด #1 ที่ลดได้:
อคติและความแปรปรวนที่มีอยู่ในชุดข้อมูลเรียกว่าข้อผิดพลาดที่ลดลงได้ เนื่องจากสามารถปรับ ปรับแต่ง และปรับแต่งได้ในระดับหนึ่งเพื่อปรับปรุงความแม่นยำของแบบจำลอง
# 2 ข้อผิดพลาดที่ลดไม่ได้:
มีข้อผิดพลาดบางอย่างที่จะปรากฏในชุดข้อมูลเสมอไม่ว่าคุณจะทำอะไรก็ตาม ตัวอย่างเช่น อาจมีตัวแปรที่ไม่รู้จักซึ่งค่าไม่สามารถเปลี่ยนแปลงหรือลดได้
ข้อผิดพลาดที่ลดไม่ได้ไม่สามารถแก้ไขได้ และ Data Scientist จำเป็นต้องแก้ไขข้อจำกัดนี้
อคติ:
อคติหมายถึงความแตกต่างระหว่างค่าที่คาดการณ์โดยเฉลี่ยและค่าที่คาดหวัง อคติสูงเรียกว่าปรากฏการณ์เมื่อแบบจำลองถูกทำให้ง่ายเกินไป โมเดล ML ไม่สามารถระบุความสัมพันธ์ที่แท้จริงหรือรูปแบบที่โดดเด่นในชุดข้อมูลได้
โมเดลทุกรุ่นมีอคติในตัว เนื่องจากช่วยให้โมเดลเรียนรู้ได้เร็วและง่ายขึ้น อคติสูงทำให้เกิดความพอดีในโมเดล
โดยทั่วไปอัลกอริธึมเชิงเส้นมีอคติสูง ซึ่งช่วยให้เรียนรู้ได้อย่างรวดเร็ว ในขณะที่อัลกอริธึมแบบไม่เชิงเส้นมีอคติต่ำกว่าเนื่องจากมีความซับซ้อนมากกว่าโมเดลเชิงเส้น พูดง่ายๆ ก็คือ อัลกอริธึมยิ่งง่ายกว่า และมีความลำเอียงในโมเดลมากขึ้นเท่านั้น
ต่อไปนี้เป็นคุณลักษณะของแบบจำลองข้อมูลที่มีความเอนเอียงสูง
#1 ไม่สามารถจับกระแสได้
#2 อัตราข้อผิดพลาดสูง
#3 ฟิตติ้งด้านล่าง
#4 โมเดลที่เกินความจริง/เกินทั่วไป
ความแปรปรวน :
ความแปรปรวนจะวัดการเปลี่ยนแปลงของค่า /เอาต์พุต หากใช้ชุดข้อมูลการฝึกชุดใหม่ที่แตกต่างกัน ในสถานการณ์ที่เหมาะสม โมเดลไม่ควรแตกต่างกันสำหรับชุดข้อมูลการฝึกที่แตกต่างกัน ความแปรปรวนเกิดขึ้นเมื่อนักวิทยาศาสตร์ข้อมูลใช้แบบจำลองที่ซับซ้อนพร้อมคุณสมบัติหลายอย่าง
ความแปรปรวนสูงทำให้เกิดการโอเวอร์ฟิต ซึ่งจะจับจุดข้อมูลมากกว่าที่ต้องการพร้อมกับสัญญาณรบกวน ในขณะที่แบบจำลองที่มีความแปรปรวนต่ำมีความแตกต่างน้อยที่สุดระหว่างแบบจำลองตัวอย่างและแบบจำลองที่คาดการณ์ไว้
โมเดลที่มีความแปรปรวนสูงทำงานได้ดีกับชุดข้อมูลการฝึก แต่ไม่สามารถดำเนินการได้ตามที่คาดไว้เมื่อได้รับข้อมูลที่มองไม่เห็น
แบบจำลองการถดถอยเชิงเส้นและลอจิสติกส์มีความแปรปรวนต่ำ ในขณะที่แผนผังการตัดสินใจ เครื่องเวกเตอร์สนับสนุน และเพื่อนบ้านที่ใกล้ที่สุด k มีความแปรปรวนสูงอยู่ในตัว
ลักษณะของแบบจำลองความแปรปรวนสูง
#1 ความซับซ้อนสูง
#2 แมปจุดข้อมูลทั้งหมดให้อยู่ใกล้กัน
# 3 ฟิตเกินไป
#4 สัญญาณรบกวนในชุดข้อมูล
การติดตั้งอันเดอร์ฟิตติ้งและการโอเวอร์ฟิตติ้ง:
ตอนนี้เราเข้าใจอคติและความแปรปรวนแล้ว เรามาทำความเข้าใจกันดีกว่าว่า Overfitting และ Underfitting คืออะไร
การติดตั้งมากเกินไปและการลดขนาดลงเป็นปัญหาสองประการที่รบกวนโมเดล Machine Learning ทุกรุ่น โมเดลแมชชีนเลิร์นนิงที่เหมาะสมควรสามารถปรับให้เข้ากับอินพุตที่ไม่รู้จักทั้งหมดและให้เอาต์พุตที่เชื่อถือได้ในแต่ละครั้ง
การฟิตติ้งมากเกินไป
การติดตั้งมากเกินไปหมายถึงสถานการณ์ที่ Data Scientist ฝึกโมเดล ML ด้วยข้อมูลจำนวนมาก ลองนึกถึงคนรูปร่างผอมบางที่สวมเสื้อผ้าหลวมๆ ตัวใหญ่ๆ สิ!
เมื่อแบบจำลองได้รับการฝึกฝนจากข้อมูลขนาดใหญ่ โมเดลจะเริ่มครอบคลุมจุดข้อมูลมากกว่าที่จำเป็น และในกระบวนการนี้ โมเดลจะเริ่มรวมสัญญาณรบกวนและค่าที่ไม่ถูกต้องด้วย
โมเดลที่ติดตั้งมากเกินไปมีความแปรปรวนสูงและมีอคติต่ำ อัลกอริธึมการเรียนรู้แบบมีผู้สอนต้องทนทุกข์ทรมานจากการติดตั้งมากเกินไปตลอดเวลา
.
อะไรทำให้เกิดฟิตติ้งมากเกินไป:
ด้านล่างนี้คือสาเหตุบางประการที่ทำให้เกิดการสวมอุปกรณ์มากเกินไป
#1 ความแปรปรวนสูงในโมเดล ML
#2 ความซับซ้อนสูงของโมเดล
#3 การใช้ข้อมูลที่ไม่สะอาดและไม่มีโครงสร้าง
#4 ชุดข้อมูลการฝึกอบรมไม่เพียงพอ
วิธีแก้ไขการสวมอุปกรณ์มากเกินไป
#1 ฝึกโมเดลด้วยข้อมูลที่เพียงพอ
#2 ใช้เทคนิคการทำให้เป็นมาตรฐาน
#3 ใช้การตรวจสอบข้าม K Fold
#4 การลบคุณสมบัติ
#5 เทคนิคการประกอบ
ฟิตติ้งด้านล่าง:
Underfitting เป็นปรากฏการณ์ที่เกิดขึ้นเมื่อโมเดล ML ไม่สามารถระบุแนวโน้มของข้อมูลได้
ในเชิงเปรียบเทียบ ให้นึกถึงบุคคลที่มีสุขภาพดีที่พยายามสวมชุดที่ไม่ธรรมดา
โมเดลไม่สามารถเรียนรู้จากข้อมูลการฝึกเพื่อคาดการณ์ได้อย่างน่าเชื่อถือและแม่นยำ มันเกิดขึ้นเนื่องจากมีอคติสูงและความแปรปรวนต่ำ
อะไรทำให้เกิดฟิตติ้งอันเดอร์ฟิต:
# มีอคติสูงและมีความแปรปรวนต่ำในชุดข้อมูล
# 2 โมเดลแบบง่ายที่ใช้สำหรับการทำนาย
#3 ข้อมูลที่ไม่สะอาดที่ใช้ในการทำนาย
#4 ชุดข้อมูลการฝึกอบรมมีขนาดไม่เพียงพอ
วิธีแก้ไข Underfitting
#1 ทำให้โมเดลซับซ้อนมากขึ้น
#2 เพิ่มคุณสมบัติและระยะเวลาของชุดข้อมูลการฝึกอบรม
#3 กำจัดสัญญาณรบกวนออกจากชุดข้อมูล
พอดี:
สถานการณ์ในอุดมคติคือเมื่อค่าที่คาดการณ์ไว้ตรงกับค่าจริงในชุดข้อมูลและไม่มีการบันทึกข้อผิดพลาด อย่างไรก็ตาม ในชีวิตจริง สิ่งนี้เป็นไปไม่ได้เลยที่จะบรรลุผลสำเร็จ ทางออกที่ดีที่สุดคือการหาทางสายกลางที่ช่วยให้ได้ผลลัพธ์ที่ต้องการ
ด้วยการฝึกโมเดลอย่างต่อเนื่อง ข้อผิดพลาดในชุดข้อมูลการฝึกจะลดลงเมื่อเวลาผ่านไป สิ่งเดียวกันนี้เกิดขึ้นกับชุดข้อมูลทดสอบ หากคุณยังคงทดสอบชุดข้อมูลการฝึกต่อไป ในที่สุด มันก็จะเริ่มจับสัญญาณรบกวนเช่นกัน และนำไปสู่การติดตั้งมากเกินไป
เราจำเป็นต้องระมัดระวังและสังเกตจุดสำคัญที่ข้อผิดพลาดเริ่มเพิ่มขึ้น ในขณะนี้เราจำเป็นต้องหยุดการฝึกซ้อม โมเดลที่ได้รับการฝึกนี้ถือว่าเหมาะสมและสามารถคาดการณ์ได้ถูกต้อง