ความรู้เบื้องต้นเกี่ยวกับการวิเคราะห์การถดถอย

การวิเคราะห์การถดถอยคือชุดของวิธีการทางสถิติที่ใช้สำหรับการประมาณความสัมพันธ์ระหว่างตัวแปรตามกับตัวแปรอิสระหนึ่งตัวหรือมากกว่า สามารถใช้เพื่อประเมินความแข็งแกร่งของความสัมพันธ์ระหว่างตัวแปรและสำหรับการสร้างแบบจำลองความสัมพันธ์ในอนาคตระหว่างตัวแปรเหล่านั้น

การวิเคราะห์การถดถอยประกอบด้วยรูปแบบต่างๆ เช่น เชิงเส้น หลายเส้น และไม่เชิงเส้น โมเดลที่พบบ่อยที่สุดคือเชิงเส้นอย่างง่ายและหลายเส้นตรง การวิเคราะห์การถดถอยแบบไม่เชิงเส้นมักใช้กับชุดข้อมูลที่ซับซ้อนมากขึ้น ซึ่งตัวแปรตามและตัวแปรอิสระแสดงความสัมพันธ์แบบไม่เชิงเส้น ช่วยให้เราเข้าใจว่าค่าของตัวแปรตามเปลี่ยนแปลงไปอย่างไรตามตัวแปรอิสระ เมื่อตัวแปรอิสระอื่นๆ ได้รับการแก้ไขแล้ว

การถดถอยคืออะไร?

การถดถอยเป็นเทคนิคการเรียนรู้แบบมีผู้สอนซึ่งช่วยในการค้นหาความสัมพันธ์ระหว่างตัวแปร และช่วยให้เราสามารถทำนายตัวแปรเอาท์พุตต่อเนื่องโดยอิงจากตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไป ส่วนใหญ่จะใช้สำหรับการคาดการณ์ การคาดการณ์ การสร้างแบบจำลองอนุกรมเวลา และการกำหนดความสัมพันธ์เชิงสาเหตุและผลกระทบระหว่างตัวแปร

คำศัพท์ที่เกี่ยวข้องกับการวิเคราะห์การถดถอย:

ตัวแปรตาม: ปัจจัยหลักในการวิเคราะห์การถดถอยที่เราต้องการคาดการณ์หรือทำความเข้าใจเรียกว่าตัวแปรตาม เรียกอีกอย่างว่า ตัวแปรเป้าหมาย
ตัวแปรอิสระ: ปัจจัยที่ส่งผลต่อตัวแปรตามหรือที่ใช้ในการทำนายค่าของตัวแปรตามเรียกว่าตัวแปรอิสระ หรือที่เรียกว่า ตัวทำนาย
ค่าผิดปกติ: ค่าผิดปกติคือการสังเกตที่มีค่าต่ำมากหรือค่าสูงมากเมื่อเปรียบเทียบกับค่าอื่นๆ ที่สังเกตได้ ค่าผิดปกติอาจขัดขวางผลลัพธ์ ดังนั้นจึงควรหลีกเลี่ยง
ความเป็นหลายคอลลิเนียร์: หากตัวแปรอิสระมีความสัมพันธ์กันอย่างมากมากกว่าตัวแปรอื่นๆ เงื่อนไขดังกล่าวจะเรียกว่ามัลติคอลลิเนียร์ ไม่ควรปรากฏในชุดข้อมูล เนื่องจากจะสร้างปัญหาในขณะที่จัดอันดับตัวแปรที่ส่งผลกระทบมากที่สุด
การติดตั้งอันเดอร์ฟิตติ้งและการโอเวอร์ฟิตติ้ง: หากอัลกอริทึมของเราทำงานได้ดีกับชุดข้อมูลการฝึกแต่ทำงานได้ไม่ดีกับชุดข้อมูลทดสอบ ปัญหาดังกล่าวจะเรียกว่า โอเวอร์ฟิตติ้ง และหากอัลกอริทึมของเราทำงานได้ไม่ดีแม้จะมีชุดข้อมูลการฝึก ปัญหาดังกล่าวจะเรียกว่า การปรับให้เหมาะสมที่สุด

สมมติฐานการวิเคราะห์การถดถอย:

การวิเคราะห์การถดถอยเชิงเส้นขึ้นอยู่กับสมมติฐานพื้นฐาน 6 ข้อ:

ตัวแปรตามและตัวแปรอิสระแสดงความสัมพันธ์เชิงเส้นระหว่างความชันและจุดตัดกัน
ตัวแปรอิสระไม่เป็นแบบสุ่ม
ค่าคงเหลือ (ข้อผิดพลาด) คือศูนย์
ค่าของส่วนที่เหลือ (ข้อผิดพลาด) จะคงที่ตลอดการสังเกตทั้งหมด
ค่าของส่วนที่เหลือ (ข้อผิดพลาด) ไม่มีความสัมพันธ์กันในการสังเกตทั้งหมด
ค่าคงเหลือ (ข้อผิดพลาด) เป็นไปตามการแจกแจงแบบปกติ

ประเภทของการถดถอย

มีการถดถอยหลายประเภทที่ใช้ในวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง แต่ละประเภทมีความสำคัญของตัวเองในสถานการณ์ที่แตกต่างกัน แต่ที่แกนหลัก วิธีการถดถอยทั้งหมดจะวิเคราะห์ผลกระทบของตัวแปรอิสระต่อตัวแปรตาม ที่นี่เรากำลังพูดถึงการถดถอยบางประเภทที่สำคัญซึ่งมีดังต่อไปนี้:

การถดถอยเชิงเส้น
การถดถอยโลจิสติก
การถดถอยพหุนาม
รองรับการถดถอยเวกเตอร์
การถดถอยแบบแผนผังการตัดสินใจ
การถดถอยของฟอเรสต์แบบสุ่ม
การถดถอยแบบริดจ์
การถดถอยแบบ Lasso:

การถดถอยเชิงเส้น:

การถดถอยเชิงเส้นเป็นวิธีการถดถอยทางสถิติที่ใช้สำหรับการวิเคราะห์เชิงคาดการณ์
มันเป็นหนึ่งในอัลกอริธึมที่ง่ายและสะดวกซึ่งทำงานเกี่ยวกับการถดถอยและแสดงความสัมพันธ์ระหว่างตัวแปรต่อเนื่อง
ใช้สำหรับแก้ปัญหาการถดถอยในการเรียนรู้ของเครื่อง
การถดถอยเชิงเส้นแสดงความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระ (แกน X) และตัวแปรตาม (แกน Y) จึงเรียกว่าการถดถอยเชิงเส้น
หากมีตัวแปรอินพุตเพียงตัวเดียว (x) การถดถอยเชิงเส้นดังกล่าวจะเรียกว่า การถดถอยเชิงเส้นอย่างง่าย และหากมีตัวแปรอินพุตมากกว่าหนึ่งตัว การถดถอยเชิงเส้นดังกล่าวจะเรียกว่า การถดถอยเชิงเส้นหลายตัว
ความสัมพันธ์ระหว่างตัวแปรในแบบจำลองการถดถอยเชิงเส้นสามารถอธิบายได้โดยใช้รูปภาพด้านล่าง ในที่นี้ เรากำลังคาดการณ์เงินเดือนของพนักงานโดยพิจารณาจาก ปีแห่งประสบการณ์
ด้านล่างนี้เป็นสมการทางคณิตศาสตร์สำหรับการถดถอยเชิงเส้น:

Y = a + bX

ที่นี่

Y = ตัวแปรตาม (ตัวแปรเป้าหมาย)
X= ตัวแปรอิสระ (ตัวแปรทำนาย)
a และ b เป็นค่าสัมประสิทธิ์เชิงเส้น

การประยุกต์ใช้การถดถอยเชิงเส้นที่เป็นที่นิยมได้แก่:

การวิเคราะห์แนวโน้มและการประมาณการยอดขาย
การคาดการณ์เงินเดือน
การทำนายอสังหาริมทรัพย์
มาถึง ETA ด้วยการจราจรติดขัด

การถดถอยโลจิสติก:

การถดถอยโลจิสติกเป็นอีกอัลกอริธึมการเรียนรู้แบบมีผู้สอนซึ่งใช้ในการแก้ปัญหาการจำแนกประเภท ในปัญหาการจำแนกประเภท เรามีตัวแปรตามในรูปแบบไบนารีหรือแบบไม่ต่อเนื่อง เช่น 0 หรือ 1
อัลกอริทึมการถดถอยลอจิสติกทำงานร่วมกับตัวแปรหมวดหมู่ เช่น 0 หรือ 1 ใช่หรือไม่ใช่ จริงหรือเท็จ สแปมหรือไม่ใช่สแปม เป็นต้น
เป็นอัลกอริธึมการวิเคราะห์เชิงคาดการณ์ที่ทำงานบนแนวคิดเรื่องความน่าจะเป็น
การถดถอยแบบโลจิสติกเป็นการถดถอยประเภทหนึ่ง แต่จะแตกต่างจากอัลกอริธึมการถดถอยเชิงเส้นในแง่วิธีการใช้
การถดถอยโลจิสติกใช้ ฟังก์ชันซิกมอยด์ หรือฟังก์ชันโลจิสติกซึ่งเป็นฟังก์ชันต้นทุนที่ซับซ้อน ฟังก์ชันซิกมอยด์นี้ใช้เพื่อสร้างแบบจำลองข้อมูลในการถดถอยโลจิสติก ฟังก์ชันสามารถแสดงเป็น:

ที่นี่,

f(x)= เอาต์พุตระหว่างค่า 0 ถึง 1
x= อินพุตของฟังก์ชัน
e= ฐานของลอการิทึมธรรมชาติ

ใช้แนวคิดเรื่องระดับเกณฑ์ ค่าที่สูงกว่าระดับเกณฑ์จะปัดเศษขึ้นเป็น 1 และค่าที่ต่ำกว่าระดับเกณฑ์จะปัดเศษขึ้นเป็น 0

การถดถอยโลจิสติกมีสามประเภท:

ไบนารี่(0/1, ผ่าน/ไม่ผ่าน)
หลากหลาย (แมว สุนัข สิงโต)
ลำดับ (ต่ำ กลาง สูง)

การถดถอยพหุนาม:

การถดถอยพหุนามเป็นการถดถอยประเภทหนึ่งซึ่งสร้างแบบจำลอง ชุดข้อมูลที่ไม่ใช่เชิงเส้น โดยใช้แบบจำลองเชิงเส้น
คล้ายกับการถดถอยเชิงเส้นพหุคูณ แต่จะพอดีกับเส้นโค้งที่ไม่เป็นเชิงเส้นระหว่างค่า x และค่าตามเงื่อนไขของ y ที่สอดคล้องกัน
สมมติว่ามีชุดข้อมูลที่ประกอบด้วยจุดข้อมูลที่มีอยู่ในรูปแบบที่ไม่ใช่เชิงเส้น ดังนั้นในกรณีเช่นนี้ การถดถอยเชิงเส้นจะไม่เหมาะสมกับจุดข้อมูลเหล่านั้นมากที่สุด เพื่อให้ครอบคลุมจุดข้อมูลดังกล่าว เราจำเป็นต้องมีการถดถอยพหุนาม
ด้วยการถดถอยพหุนาม คุณลักษณะดั้งเดิมจะถูกแปลงเป็นคุณลักษณะพหุนามในระดับที่กำหนด จากนั้นจึงสร้างแบบจำลองโดยใช้แบบจำลองเชิงเส้น ซึ่งหมายความว่าจุดข้อมูลจะเหมาะสมที่สุดโดยใช้เส้นพหุนาม

สมการสำหรับการถดถอยพหุนามแสดงไว้ด้านล่าง:

Y= b0+b1x+ b2x^2+ b3x^3+…..+ bnx^n

โดยที่ Y คือผลลัพธ์ที่คาดการณ์/เป้าหมาย b0, b1,… bn คือสัมประสิทธิ์การถดถอย x คือตัวแปรอิสระ/อินพุตของเรา
แบบจำลองยังคงเป็นเส้นตรงเนื่องจากค่าสัมประสิทธิ์ยังคงเป็นเส้นตรงกับกำลังสอง

สนับสนุนการถดถอยเวกเตอร์:

Support Vector Machine เป็นอัลกอริธึมการเรียนรู้แบบมีผู้สอนซึ่งสามารถใช้สำหรับปัญหาการถดถอยและการจัดหมวดหมู่ ดังนั้นหากเราใช้สำหรับปัญหาการถดถอย ก็จะเรียกว่า Support Vector Regression

Support Vector Regression เป็นอัลกอริทึมการถดถอยที่ใช้กับตัวแปรต่อเนื่อง ด้านล่างนี้คือคำหลักบางคำที่ใช้ใน รองรับการถดถอยเวกเตอร์:

เคอร์เนล: เป็นฟังก์ชันที่ใช้ในการแมปข้อมูลมิติล่างให้เป็นข้อมูลมิติสูงกว่า
ไฮเปอร์เพลน: โดยทั่วไป SVM จะเป็นเส้นแบ่งระหว่างสองคลาส แต่ใน SVR จะเป็นเส้นที่ช่วยในการทำนายตัวแปรต่อเนื่องและครอบคลุมจุดข้อมูลส่วนใหญ่
เส้นขอบเขต: เส้นขอบเขตเป็นเส้นสองเส้นที่แยกจากไฮเปอร์เพลน ซึ่งสร้างระยะขอบสำหรับจุดข้อมูล
เวกเตอร์การสนับสนุน: เวกเตอร์การสนับสนุนคือจุดข้อมูลที่อยู่ใกล้กับไฮเปอร์เพลนและคลาสตรงข้ามมากที่สุด

ใน SVR เราพยายามกำหนดไฮเปอร์เพลนที่มีระยะขอบสูงสุดเสมอ เพื่อให้ครอบคลุมจำนวนจุดข้อมูลสูงสุดในระยะขอบนั้น เป้าหมายหลักของ SVR คือการพิจารณาจุดข้อมูลสูงสุดภายในเส้นขอบเขต และไฮเปอร์เพลน (เส้นที่เหมาะสมที่สุด) จะต้องมีจำนวนจุดข้อมูลสูงสุด พิจารณาภาพด้านล่าง:

ในที่นี้ เส้นสีเขียวเรียกว่าไฮเปอร์เพลน และอีกสองเส้นเรียกว่าเส้นเขตแดน

การถดถอยสัน:

การถดถอยแบบสันเป็นหนึ่งในรูปแบบการถดถอยเชิงเส้นที่แข็งแกร่งที่สุด ซึ่งมีอคติจำนวนเล็กน้อยเพื่อให้เราสามารถคาดการณ์ในระยะยาวได้ดีขึ้น
จำนวนอคติที่เพิ่มให้กับโมเดลเรียกว่า การลงโทษการถดถอยริดจ์ เราสามารถคำนวณค่าปรับนี้ได้โดยการคูณแลมบ์ดากับน้ำหนักกำลังสองของแต่ละจุด
สมการของการถดถอยสันจะเป็น:

การถดถอยเชิงเส้นหรือพหุนามทั่วไปจะล้มเหลวหากมีความขัดแย้งกันสูงระหว่างตัวแปรอิสระ ดังนั้น เพื่อแก้ปัญหาดังกล่าว จึงสามารถใช้การถดถอยแบบสันได้
Ridge regression เป็นเทคนิคการทำให้เป็นมาตรฐาน ซึ่งใช้เพื่อลดความซับซ้อนของแบบจำลอง เรียกอีกอย่างว่า การทำให้เป็นมาตรฐาน L2
จะช่วยแก้ปัญหาหากเรามีพารามิเตอร์มากกว่าตัวอย่าง

การถดถอยแบบ Lasso:

การถดถอยแบบ Lasso เป็นอีกหนึ่งเทคนิคการทำให้เป็นมาตรฐานเพื่อลดความซับซ้อนของแบบจำลอง
มันคล้ายกับ Ridge Regression ยกเว้นว่าเงื่อนไขการลงโทษมีเพียงน้ำหนักสัมบูรณ์แทนที่จะเป็นน้ำหนักกำลังสอง
เนื่องจากใช้ค่าสัมบูรณ์ ดังนั้นจึงสามารถลดขนาดความชันลงเหลือ 0 ในขณะที่ Ridge Regression สามารถย่อขนาดได้ใกล้ถึง 0 เท่านั้น
เรียกอีกอย่างว่า การทำให้เป็นมาตรฐาน L1 สมการสำหรับการถดถอยแบบ Lasso จะเป็น:

การถดถอยแบบแผนผังการตัดสินใจ:

แผนผังการตัดสินใจเป็นอัลกอริธึมการเรียนรู้แบบมีผู้สอนซึ่งสามารถใช้สำหรับการแก้ปัญหาทั้งการจำแนกประเภทและการถดถอย
สามารถแก้ปัญหาทั้งข้อมูลเชิงหมวดหมู่และข้อมูลเชิงตัวเลข
Decision Tree regression สร้างโครงสร้างคล้ายต้นไม้โดยแต่ละโหนดภายในแสดงถึง "การทดสอบ" สำหรับคุณลักษณะ แต่ละสาขาแสดงถึงผลลัพธ์ของการทดสอบ และแต่ละโหนดปลายสุดแสดงถึงการตัดสินใจหรือผลลัพธ์ขั้นสุดท้าย
แผนผังการตัดสินใจถูกสร้างขึ้นโดยเริ่มจากโหนดรูท/โหนดหลัก (ชุดข้อมูล) ซึ่งแยกออกเป็นโหนดย่อยด้านซ้ายและขวา (ชุดย่อยของชุดข้อมูล) โหนดย่อยเหล่านี้จะถูกแบ่งออกเป็นโหนดย่อยเพิ่มเติม และกลายเป็นโหนดหลักของโหนดเหล่านั้น พิจารณาภาพด้านล่าง:

การถดถอยของฟอเรสต์แบบสุ่ม:

ฟอเรสต์สุ่มเป็นหนึ่งในอัลกอริธึมการเรียนรู้ภายใต้การดูแลที่ทรงพลังที่สุด ซึ่งสามารถดำเนินการการถดถอยและงานการจำแนกประเภทได้
การถดถอยแบบสุ่มของฟอเรสต์เป็นวิธีการเรียนรู้ทั้งมวลที่รวมแผนผังการตัดสินใจหลายรายการและทำนายผลลัพธ์สุดท้ายโดยอิงตามค่าเฉลี่ยของผลลัพธ์ของแผนภูมิแต่ละต้น แผนผังการตัดสินใจแบบรวมเรียกว่าแบบจำลองพื้นฐาน และสามารถแสดงได้อย่างเป็นทางการมากขึ้นเป็น:

   g(x)= f0(x)+ f1(x)+ f2(x)+....

ฟอเรสต์สุ่มใช้เทคนิค Bagging หรือ Bootstrap Aggregation ของการเรียนรู้แบบ Ensemble โดยที่แผนผังการตัดสินใจแบบรวมจะทำงานแบบขนานและไม่มีปฏิสัมพันธ์ซึ่งกันและกัน
ด้วยความช่วยเหลือของ Random Forest Regression เราสามารถป้องกันการ Overfitting ในโมเดลได้โดยการสร้างชุดย่อยแบบสุ่มของชุดข้อมูล