คุณเคยสงสัยบ้างไหมว่าเหตุใด Logistic Regression จึงใช้สำหรับปัญหาการจำแนกประเภท แต่ยังคงมี "Regression" อยู่ในนั้น

ในโพสต์นี้ เราจะตอบคำถามเช่น ทำไมจึงมีคำว่าการถดถอยในการถดถอยแบบลอจิสติก และ สามารถแปลงเป็นความน่าจะเป็นของชั้นเรียนได้อย่างไร

สำหรับปัญหาการจำแนกประเภทในแมชชีนเลิร์นนิง เรามักจะต้องการทราบว่าอินสแตนซ์นั้น มีแนวโน้ม อย่างไร แทนที่จะเป็นคลาสใด ดังนั้นในหลายกรณี เราต้องการใช้ความน่าจะเป็นระดับโดยประมาณในการตัดสินใจ

พิจารณาสถานการณ์ที่เราต้องตรวจจับการฉ้อโกงเครดิต ผู้จัดการแผนกควบคุมการฉ้อโกงต้องการทราบว่าใครบ้างที่มีแนวโน้มที่จะฉ้อโกง แต่ยังต้องการทราบกรณีที่ความเสี่ยงด้านเครดิตเป็นเดิมพัน เช่น บัญชีที่บริษัทคาดว่าจะขาดทุนทางการเงินสูงสุด

ที่นี่ เราต้องทราบความน่าจะเป็นระดับของการฉ้อโกงสำหรับกรณีนั้นๆ

การประมาณความน่าจะเป็นของการเป็นสมาชิกชั้นเรียนที่แม่นยำคืออะไรนั้นเป็นประเด็นถกเถียงที่อยู่นอกเหนือขอบเขตของโพสต์นี้

ประมาณว่าเราต้องการ

(i) การประมาณการความน่าจะเป็นได้รับการปรับเทียบอย่างดี ซึ่งหมายความว่า หากคุณรับ 100 กรณีที่มีความน่าจะเป็นสมาชิกของชั้นเรียนประมาณ 0.2 ก็จะมีประมาณ 20 กรณีที่อยู่ในชั้นเรียนจริงๆ

(ii) การประมาณการความน่าจะเป็นเป็นแบบเลือกปฏิบัติ หมายความว่าควรให้ค่าประมาณความน่าจะเป็นที่แตกต่างกันสำหรับตัวอย่างที่แตกต่างกัน สมมติว่าความน่าจะเป็นระดับ 0.5 บ่งชี้ว่า 50% ของประชากรเป็นการฉ้อโกง ซึ่งเป็นอัตราพื้นฐาน ดังนั้นเราจึงต้องมีการเลือกปฏิบัติเพื่อให้ได้ขอบเขตความน่าจะเป็นระดับสูงกว่าหรือต่ำกว่าสำหรับการประมาณค่า

ทำความเข้าใจว่าอะไรคือความยากในการใช้โมเดลเชิงเส้นในการทำนายความน่าจะเป็นของคลาส

สมมติว่า f(x) คือฟังก์ชันเชิงเส้นของเรา x คือตัวอย่างที่อยู่ไกลจากขอบเขตการแยกตามสัญชาตญาณ ควรจะนำไปสู่ความน่าจะเป็นที่สูงขึ้นที่จะอยู่ในคลาสหนึ่งหรืออีกคลาสหนึ่ง ดังนั้น f(x) จึงให้ระยะห่างจากเส้นแบ่ง ดังที่เราทราบแล้วว่าการถดถอยเชิงเส้นสามารถรับค่าตั้งแต่ -อนันต์ ถึง +อนันต์ แต่ความน่าจะเป็นในชั้นเรียนของเรามีตั้งแต่ 0 ถึง 1

แนวคิดที่เป็นประโยชน์ประการหนึ่งเกี่ยวกับความน่าจะเป็นของเหตุการณ์คืออัตราต่อรอง

อัตราต่อรองของเหตุการณ์คืออัตราส่วนของเหตุการณ์ที่เกิดขึ้นต่อความน่าจะเป็นของเหตุการณ์ที่ไม่เกิดขึ้น อัตราต่อรองมีตั้งแต่ 0 ถึง +อนันต์ ดังนั้นเราจึงไม่สามารถแมปการแจกแจงเชิงเส้นของเราจาก 0 ถึง +อนันต์โดยใช้ฟังก์ชันอัตราต่อรอง

แต่เดี๋ยวก่อน! เนื่องจากตัวเลขใดๆ ที่มีค่าตั้งแต่ 0 ถึง +อนันต์ ค่าบันทึกจะมีค่าตั้งแต่ -อนันต์ ถึง +อนันต์ ลองเปรียบเทียบกันดู เช่น log-odds กับโมเดลเชิงเส้นของเรา

สมมติว่าเรามีอินสแตนซ์ คลาส c ที่จะทำนายจากโมเดลเชิงเส้น ดังนั้นโอกาสที่จะบันทึกของมันจะเป็น

ด้านบน w0, w1, w2, …. คือน้ำหนักที่กำหนดโดยโมเดลเชิงเส้นของเรา และ x1, x2, x3,… คือคุณลักษณะของชุดข้อมูล P(c) คือความน่าจะเป็นของกรณีที่ไม่มีการฉ้อโกงเครดิต และ 1-P(c) คือความน่าจะเป็นของอินสแตนซ์ที่จะไม่เป็นเช่นนั้น การฉ้อโกงเครดิต

ตอนนี้ เรามักต้องการความน่าจะเป็นของคลาส c เช่น P(c) เป็นความน่าจะเป็นของคลาสที่คาดการณ์ไว้ และไม่ต้องการบันทึกอัตราต่อรองสำหรับฟังก์ชัน เราสามารถแก้หา P(c) ได้

ดังนั้นเราจึงหาค่าเอ็กซ์โปเนนเชียลของทั้งสองข้างด้วย e.

ทางด้านซ้ายเราสามารถยกเลิก e และ log เพื่อให้เทอมกำลังเป็นค่าได้

การแก้หา P(c)

ในสมการที่ 2 ถ้าเราพลอตกราฟโดยใช้ค่าสำหรับ x และ w เราจะได้เส้นโค้งประมาณนี้

เส้นโค้งด้านบนเรียกว่า "เส้นโค้งซิกมอยด์"เนื่องจากรูปร่าง S ซึ่งบีบความน่าจะเป็นให้อยู่ในช่วงที่ถูกต้องตามลำดับ (ระหว่างศูนย์ถึงหนึ่ง)

เส้นโค้งซิกมอยด์แสดงให้เห็นว่าค่าที่อยู่ใกล้ขอบเขตนั้นมีความไม่แน่นอนในคลาส และเมื่อคุณเคลื่อนออกจากขอบเขต ความไม่แน่นอนก็ลดลง และด้วยเหตุนี้การเป็นสมาชิกของชนชั้นจึงแน่นอน

สิ่งนี้นำเราไปสู่ฟังก์ชันวัตถุประสงค์มาตรฐานสำหรับการปรับ การถดถอยโลจิสติก ดังนั้น "ความน่าจะเป็น" ของตัวอย่างที่ให้มาจะอยู่ในคลาสที่ถูกต้องสามารถให้ได้โดย

แบบจำลองความน่าจะเป็นสูงสุด "โดยเฉลี่ย" ให้ความน่าจะเป็นสูงสุดกับตัวอย่างเชิงบวก และความน่าจะเป็นต่ำสุดสำหรับตัวอย่างเชิงลบ

ฉันหวังว่าคุณจะชอบบทความนี้ กรุณาแสดงความคิดเห็นสำหรับการแก้ไขใด ๆ