การวิเคราะห์การถดถอยคือชุดของวิธีการทางสถิติที่ใช้สำหรับการประมาณความสัมพันธ์ระหว่างตัวแปรตามกับตัวแปรอิสระหนึ่งตัวหรือมากกว่า สามารถใช้เพื่อประเมินความแข็งแกร่งของความสัมพันธ์ระหว่างตัวแปรและสำหรับการสร้างแบบจำลองความสัมพันธ์ในอนาคตระหว่างตัวแปรเหล่านั้น
การวิเคราะห์การถดถอยประกอบด้วยรูปแบบต่างๆ เช่น เชิงเส้น หลายเส้น และไม่เชิงเส้น โมเดลที่พบบ่อยที่สุดคือเชิงเส้นอย่างง่ายและหลายเส้นตรง การวิเคราะห์การถดถอยแบบไม่เชิงเส้นมักใช้กับชุดข้อมูลที่ซับซ้อนมากขึ้น ซึ่งตัวแปรตามและตัวแปรอิสระแสดงความสัมพันธ์แบบไม่เชิงเส้น ช่วยให้เราเข้าใจว่าค่าของตัวแปรตามเปลี่ยนแปลงไปอย่างไรตามตัวแปรอิสระ เมื่อตัวแปรอิสระอื่นๆ ได้รับการแก้ไขแล้ว
การถดถอยคืออะไร?
การถดถอยเป็นเทคนิคการเรียนรู้แบบมีผู้สอนซึ่งช่วยในการค้นหาความสัมพันธ์ระหว่างตัวแปร และช่วยให้เราสามารถทำนายตัวแปรเอาท์พุตต่อเนื่องโดยอิงจากตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไป ส่วนใหญ่จะใช้สำหรับการคาดการณ์ การคาดการณ์ การสร้างแบบจำลองอนุกรมเวลา และการกำหนดความสัมพันธ์เชิงสาเหตุและผลกระทบระหว่างตัวแปร
คำศัพท์ที่เกี่ยวข้องกับการวิเคราะห์การถดถอย:
- ตัวแปรตาม: ปัจจัยหลักในการวิเคราะห์การถดถอยที่เราต้องการคาดการณ์หรือทำความเข้าใจเรียกว่าตัวแปรตาม เรียกอีกอย่างว่า ตัวแปรเป้าหมาย
- ตัวแปรอิสระ: ปัจจัยที่ส่งผลต่อตัวแปรตามหรือที่ใช้ในการทำนายค่าของตัวแปรตามเรียกว่าตัวแปรอิสระ หรือที่เรียกว่า ตัวทำนาย
- ค่าผิดปกติ: ค่าผิดปกติคือการสังเกตที่มีค่าต่ำมากหรือค่าสูงมากเมื่อเปรียบเทียบกับค่าอื่นๆ ที่สังเกตได้ ค่าผิดปกติอาจขัดขวางผลลัพธ์ ดังนั้นจึงควรหลีกเลี่ยง
- ความเป็นหลายคอลลิเนียร์: หากตัวแปรอิสระมีความสัมพันธ์กันอย่างมากมากกว่าตัวแปรอื่นๆ เงื่อนไขดังกล่าวจะเรียกว่ามัลติคอลลิเนียร์ ไม่ควรปรากฏในชุดข้อมูล เนื่องจากจะสร้างปัญหาในขณะที่จัดอันดับตัวแปรที่ส่งผลกระทบมากที่สุด
- การติดตั้งอันเดอร์ฟิตติ้งและการโอเวอร์ฟิตติ้ง: หากอัลกอริทึมของเราทำงานได้ดีกับชุดข้อมูลการฝึกแต่ทำงานได้ไม่ดีกับชุดข้อมูลทดสอบ ปัญหาดังกล่าวจะเรียกว่า โอเวอร์ฟิตติ้ง และหากอัลกอริทึมของเราทำงานได้ไม่ดีแม้จะมีชุดข้อมูลการฝึก ปัญหาดังกล่าวจะเรียกว่า การปรับให้เหมาะสมที่สุด
สมมติฐานการวิเคราะห์การถดถอย:
การวิเคราะห์การถดถอยเชิงเส้นขึ้นอยู่กับสมมติฐานพื้นฐาน 6 ข้อ:
- ตัวแปรตามและตัวแปรอิสระแสดงความสัมพันธ์เชิงเส้นระหว่างความชันและจุดตัดกัน
- ตัวแปรอิสระไม่เป็นแบบสุ่ม
- ค่าคงเหลือ (ข้อผิดพลาด) คือศูนย์
- ค่าของส่วนที่เหลือ (ข้อผิดพลาด) จะคงที่ตลอดการสังเกตทั้งหมด
- ค่าของส่วนที่เหลือ (ข้อผิดพลาด) ไม่มีความสัมพันธ์กันในการสังเกตทั้งหมด
- ค่าคงเหลือ (ข้อผิดพลาด) เป็นไปตามการแจกแจงแบบปกติ
ประเภทของการถดถอย
มีการถดถอยหลายประเภทที่ใช้ในวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง แต่ละประเภทมีความสำคัญของตัวเองในสถานการณ์ที่แตกต่างกัน แต่ที่แกนหลัก วิธีการถดถอยทั้งหมดจะวิเคราะห์ผลกระทบของตัวแปรอิสระต่อตัวแปรตาม ที่นี่เรากำลังพูดถึงการถดถอยบางประเภทที่สำคัญซึ่งมีดังต่อไปนี้:
- การถดถอยเชิงเส้น
- การถดถอยโลจิสติก
- การถดถอยพหุนาม
- รองรับการถดถอยเวกเตอร์
- การถดถอยแบบแผนผังการตัดสินใจ
- การถดถอยของฟอเรสต์แบบสุ่ม
- การถดถอยแบบริดจ์
- การถดถอยแบบ Lasso:
การถดถอยเชิงเส้น:
- การถดถอยเชิงเส้นเป็นวิธีการถดถอยทางสถิติที่ใช้สำหรับการวิเคราะห์เชิงคาดการณ์
- มันเป็นหนึ่งในอัลกอริธึมที่ง่ายและสะดวกซึ่งทำงานเกี่ยวกับการถดถอยและแสดงความสัมพันธ์ระหว่างตัวแปรต่อเนื่อง
- ใช้สำหรับแก้ปัญหาการถดถอยในการเรียนรู้ของเครื่อง
- การถดถอยเชิงเส้นแสดงความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระ (แกน X) และตัวแปรตาม (แกน Y) จึงเรียกว่าการถดถอยเชิงเส้น
- หากมีตัวแปรอินพุตเพียงตัวเดียว (x) การถดถอยเชิงเส้นดังกล่าวจะเรียกว่า การถดถอยเชิงเส้นอย่างง่าย และหากมีตัวแปรอินพุตมากกว่าหนึ่งตัว การถดถอยเชิงเส้นดังกล่าวจะเรียกว่า การถดถอยเชิงเส้นหลายตัว
- ความสัมพันธ์ระหว่างตัวแปรในแบบจำลองการถดถอยเชิงเส้นสามารถอธิบายได้โดยใช้รูปภาพด้านล่าง ในที่นี้ เรากำลังคาดการณ์เงินเดือนของพนักงานโดยพิจารณาจาก ปีแห่งประสบการณ์
- ด้านล่างนี้เป็นสมการทางคณิตศาสตร์สำหรับการถดถอยเชิงเส้น:
Y = a + bX
ที่นี่
Y = ตัวแปรตาม (ตัวแปรเป้าหมาย)
X= ตัวแปรอิสระ (ตัวแปรทำนาย)
a และ b เป็นค่าสัมประสิทธิ์เชิงเส้น
การประยุกต์ใช้การถดถอยเชิงเส้นที่เป็นที่นิยมได้แก่:
- การวิเคราะห์แนวโน้มและการประมาณการยอดขาย
- การคาดการณ์เงินเดือน
- การทำนายอสังหาริมทรัพย์
- มาถึง ETA ด้วยการจราจรติดขัด
การถดถอยโลจิสติก:
- การถดถอยโลจิสติกเป็นอีกอัลกอริธึมการเรียนรู้แบบมีผู้สอนซึ่งใช้ในการแก้ปัญหาการจำแนกประเภท ในปัญหาการจำแนกประเภท เรามีตัวแปรตามในรูปแบบไบนารีหรือแบบไม่ต่อเนื่อง เช่น 0 หรือ 1
- อัลกอริทึมการถดถอยลอจิสติกทำงานร่วมกับตัวแปรหมวดหมู่ เช่น 0 หรือ 1 ใช่หรือไม่ใช่ จริงหรือเท็จ สแปมหรือไม่ใช่สแปม เป็นต้น
- เป็นอัลกอริธึมการวิเคราะห์เชิงคาดการณ์ที่ทำงานบนแนวคิดเรื่องความน่าจะเป็น
- การถดถอยแบบโลจิสติกเป็นการถดถอยประเภทหนึ่ง แต่จะแตกต่างจากอัลกอริธึมการถดถอยเชิงเส้นในแง่วิธีการใช้
- การถดถอยโลจิสติกใช้ ฟังก์ชันซิกมอยด์ หรือฟังก์ชันโลจิสติกซึ่งเป็นฟังก์ชันต้นทุนที่ซับซ้อน ฟังก์ชันซิกมอยด์นี้ใช้เพื่อสร้างแบบจำลองข้อมูลในการถดถอยโลจิสติก ฟังก์ชันสามารถแสดงเป็น:
ที่นี่,
- f(x)= เอาต์พุตระหว่างค่า 0 ถึง 1
- x= อินพุตของฟังก์ชัน
- e= ฐานของลอการิทึมธรรมชาติ
ใช้แนวคิดเรื่องระดับเกณฑ์ ค่าที่สูงกว่าระดับเกณฑ์จะปัดเศษขึ้นเป็น 1 และค่าที่ต่ำกว่าระดับเกณฑ์จะปัดเศษขึ้นเป็น 0
การถดถอยโลจิสติกมีสามประเภท:
- ไบนารี่(0/1, ผ่าน/ไม่ผ่าน)
- หลากหลาย (แมว สุนัข สิงโต)
- ลำดับ (ต่ำ กลาง สูง)
การถดถอยพหุนาม:
- การถดถอยพหุนามเป็นการถดถอยประเภทหนึ่งซึ่งสร้างแบบจำลอง ชุดข้อมูลที่ไม่ใช่เชิงเส้น โดยใช้แบบจำลองเชิงเส้น
- คล้ายกับการถดถอยเชิงเส้นพหุคูณ แต่จะพอดีกับเส้นโค้งที่ไม่เป็นเชิงเส้นระหว่างค่า x และค่าตามเงื่อนไขของ y ที่สอดคล้องกัน
- สมมติว่ามีชุดข้อมูลที่ประกอบด้วยจุดข้อมูลที่มีอยู่ในรูปแบบที่ไม่ใช่เชิงเส้น ดังนั้นในกรณีเช่นนี้ การถดถอยเชิงเส้นจะไม่เหมาะสมกับจุดข้อมูลเหล่านั้นมากที่สุด เพื่อให้ครอบคลุมจุดข้อมูลดังกล่าว เราจำเป็นต้องมีการถดถอยพหุนาม
- ด้วยการถดถอยพหุนาม คุณลักษณะดั้งเดิมจะถูกแปลงเป็นคุณลักษณะพหุนามในระดับที่กำหนด จากนั้นจึงสร้างแบบจำลองโดยใช้แบบจำลองเชิงเส้น ซึ่งหมายความว่าจุดข้อมูลจะเหมาะสมที่สุดโดยใช้เส้นพหุนาม
- สมการสำหรับการถดถอยพหุนามแสดงไว้ด้านล่าง:
Y= b0+b1x+ b2x^2+ b3x^3+…..+ bnx^n
- โดยที่ Y คือผลลัพธ์ที่คาดการณ์/เป้าหมาย b0, b1,… bn คือสัมประสิทธิ์การถดถอย x คือตัวแปรอิสระ/อินพุตของเรา
- แบบจำลองยังคงเป็นเส้นตรงเนื่องจากค่าสัมประสิทธิ์ยังคงเป็นเส้นตรงกับกำลังสอง
สนับสนุนการถดถอยเวกเตอร์:
Support Vector Machine เป็นอัลกอริธึมการเรียนรู้แบบมีผู้สอนซึ่งสามารถใช้สำหรับปัญหาการถดถอยและการจัดหมวดหมู่ ดังนั้นหากเราใช้สำหรับปัญหาการถดถอย ก็จะเรียกว่า Support Vector Regression
Support Vector Regression เป็นอัลกอริทึมการถดถอยที่ใช้กับตัวแปรต่อเนื่อง ด้านล่างนี้คือคำหลักบางคำที่ใช้ใน รองรับการถดถอยเวกเตอร์:
- เคอร์เนล: เป็นฟังก์ชันที่ใช้ในการแมปข้อมูลมิติล่างให้เป็นข้อมูลมิติสูงกว่า
- ไฮเปอร์เพลน: โดยทั่วไป SVM จะเป็นเส้นแบ่งระหว่างสองคลาส แต่ใน SVR จะเป็นเส้นที่ช่วยในการทำนายตัวแปรต่อเนื่องและครอบคลุมจุดข้อมูลส่วนใหญ่
- เส้นขอบเขต: เส้นขอบเขตเป็นเส้นสองเส้นที่แยกจากไฮเปอร์เพลน ซึ่งสร้างระยะขอบสำหรับจุดข้อมูล
- เวกเตอร์การสนับสนุน: เวกเตอร์การสนับสนุนคือจุดข้อมูลที่อยู่ใกล้กับไฮเปอร์เพลนและคลาสตรงข้ามมากที่สุด
ใน SVR เราพยายามกำหนดไฮเปอร์เพลนที่มีระยะขอบสูงสุดเสมอ เพื่อให้ครอบคลุมจำนวนจุดข้อมูลสูงสุดในระยะขอบนั้น เป้าหมายหลักของ SVR คือการพิจารณาจุดข้อมูลสูงสุดภายในเส้นขอบเขต และไฮเปอร์เพลน (เส้นที่เหมาะสมที่สุด) จะต้องมีจำนวนจุดข้อมูลสูงสุด พิจารณาภาพด้านล่าง:
ในที่นี้ เส้นสีเขียวเรียกว่าไฮเปอร์เพลน และอีกสองเส้นเรียกว่าเส้นเขตแดน
การถดถอยสัน:
- การถดถอยแบบสันเป็นหนึ่งในรูปแบบการถดถอยเชิงเส้นที่แข็งแกร่งที่สุด ซึ่งมีอคติจำนวนเล็กน้อยเพื่อให้เราสามารถคาดการณ์ในระยะยาวได้ดีขึ้น
- จำนวนอคติที่เพิ่มให้กับโมเดลเรียกว่า การลงโทษการถดถอยริดจ์ เราสามารถคำนวณค่าปรับนี้ได้โดยการคูณแลมบ์ดากับน้ำหนักกำลังสองของแต่ละจุด
- สมการของการถดถอยสันจะเป็น:
- การถดถอยเชิงเส้นหรือพหุนามทั่วไปจะล้มเหลวหากมีความขัดแย้งกันสูงระหว่างตัวแปรอิสระ ดังนั้น เพื่อแก้ปัญหาดังกล่าว จึงสามารถใช้การถดถอยแบบสันได้
- Ridge regression เป็นเทคนิคการทำให้เป็นมาตรฐาน ซึ่งใช้เพื่อลดความซับซ้อนของแบบจำลอง เรียกอีกอย่างว่า การทำให้เป็นมาตรฐาน L2
- จะช่วยแก้ปัญหาหากเรามีพารามิเตอร์มากกว่าตัวอย่าง
การถดถอยแบบ Lasso:
- การถดถอยแบบ Lasso เป็นอีกหนึ่งเทคนิคการทำให้เป็นมาตรฐานเพื่อลดความซับซ้อนของแบบจำลอง
- มันคล้ายกับ Ridge Regression ยกเว้นว่าเงื่อนไขการลงโทษมีเพียงน้ำหนักสัมบูรณ์แทนที่จะเป็นน้ำหนักกำลังสอง
- เนื่องจากใช้ค่าสัมบูรณ์ ดังนั้นจึงสามารถลดขนาดความชันลงเหลือ 0 ในขณะที่ Ridge Regression สามารถย่อขนาดได้ใกล้ถึง 0 เท่านั้น
- เรียกอีกอย่างว่า การทำให้เป็นมาตรฐาน L1 สมการสำหรับการถดถอยแบบ Lasso จะเป็น:
การถดถอยแบบแผนผังการตัดสินใจ:
- แผนผังการตัดสินใจเป็นอัลกอริธึมการเรียนรู้แบบมีผู้สอนซึ่งสามารถใช้สำหรับการแก้ปัญหาทั้งการจำแนกประเภทและการถดถอย
- สามารถแก้ปัญหาทั้งข้อมูลเชิงหมวดหมู่และข้อมูลเชิงตัวเลข
- Decision Tree regression สร้างโครงสร้างคล้ายต้นไม้โดยแต่ละโหนดภายในแสดงถึง "การทดสอบ" สำหรับคุณลักษณะ แต่ละสาขาแสดงถึงผลลัพธ์ของการทดสอบ และแต่ละโหนดปลายสุดแสดงถึงการตัดสินใจหรือผลลัพธ์ขั้นสุดท้าย
- แผนผังการตัดสินใจถูกสร้างขึ้นโดยเริ่มจากโหนดรูท/โหนดหลัก (ชุดข้อมูล) ซึ่งแยกออกเป็นโหนดย่อยด้านซ้ายและขวา (ชุดย่อยของชุดข้อมูล) โหนดย่อยเหล่านี้จะถูกแบ่งออกเป็นโหนดย่อยเพิ่มเติม และกลายเป็นโหนดหลักของโหนดเหล่านั้น พิจารณาภาพด้านล่าง:
การถดถอยของฟอเรสต์แบบสุ่ม:
- ฟอเรสต์สุ่มเป็นหนึ่งในอัลกอริธึมการเรียนรู้ภายใต้การดูแลที่ทรงพลังที่สุด ซึ่งสามารถดำเนินการการถดถอยและงานการจำแนกประเภทได้
- การถดถอยแบบสุ่มของฟอเรสต์เป็นวิธีการเรียนรู้ทั้งมวลที่รวมแผนผังการตัดสินใจหลายรายการและทำนายผลลัพธ์สุดท้ายโดยอิงตามค่าเฉลี่ยของผลลัพธ์ของแผนภูมิแต่ละต้น แผนผังการตัดสินใจแบบรวมเรียกว่าแบบจำลองพื้นฐาน และสามารถแสดงได้อย่างเป็นทางการมากขึ้นเป็น:
g(x)= f0(x)+ f1(x)+ f2(x)+....
- ฟอเรสต์สุ่มใช้เทคนิค Bagging หรือ Bootstrap Aggregation ของการเรียนรู้แบบ Ensemble โดยที่แผนผังการตัดสินใจแบบรวมจะทำงานแบบขนานและไม่มีปฏิสัมพันธ์ซึ่งกันและกัน
- ด้วยความช่วยเหลือของ Random Forest Regression เราสามารถป้องกันการ Overfitting ในโมเดลได้โดยการสร้างชุดย่อยแบบสุ่มของชุดข้อมูล