การเลือกตัวชี้วัดการประเมินที่เหมาะสม

โมเดลของคุณพร้อมสำหรับการผลิตแล้วหรือยัง? ขึ้นอยู่กับวิธีการวัด และการวัดด้วยตัวชี้วัดที่เหมาะสมสามารถปลดล็อกประสิทธิภาพที่ดียิ่งขึ้นได้ การประเมินประสิทธิภาพของโมเดลเป็นขั้นตอนสำคัญในการสร้างโมเดลการเรียนรู้ของเครื่องที่มีประสิทธิภาพ เมื่อคุณ "เริ่มต้นใช้งาน Continual" และเริ่มสร้างโมเดล การทำความเข้าใจเมตริกการประเมินจะช่วยในการผลิตโมเดลที่มีประสิทธิภาพดีที่สุดสำหรับกรณีการใช้งานของคุณ แม้ว่า "เวิร์กโฟลว์ Gitops สมัยใหม่" และ "การผสานรวม dbt ที่ราบรื่น" ของ Continual มีแนวโน้มที่จะดึงดูดความสนใจจากทีมข้อมูล แต่การเรียนรู้วิธีใช้ตัวชี้วัดการประเมินอย่างถูกต้องก็เป็นสิ่งสำคัญมากเช่นกัน

ในบล็อกสองส่วนนี้ เราจะพูดถึงเกณฑ์ชี้วัดการประเมินที่กำหนดค่าได้ของ Continual เพื่อเพิ่มประสิทธิภาพและเลือกโมเดลที่มีประสิทธิภาพดีที่สุดใน Continual

ตัวชี้วัดการประเมินผลคืออะไร?

เมตริกการประเมินโมเดลเป็นกลไกในการประเมินประสิทธิภาพของโมเดลการเรียนรู้ของเครื่อง ตัวชี้วัดที่ดีควรให้ข้อมูลสรุปของการแจกแจงข้อผิดพลาด ตัวชี้วัดในอุดมคติจะต้องมีความน่าเชื่อถือ เรียบง่ายในเชิงคำนวณและตามแนวคิด ไม่ขึ้นกับขนาด มีการป้องกันค่าผิดปกติ และไวต่อการเปลี่ยนแปลง ไม่มีเมตริกใดที่มีประสิทธิภาพดีกว่าเมตริกอื่นๆ ทั้งหมดตามเกณฑ์นี้ ดังนั้นจึงขอแนะนำให้พิจารณาหลายเมตริกเมื่อเลือกแบบจำลอง เมื่อเข้าใจจุดแข็งและข้อจำกัดของแต่ละเมตริก เรามีแนวโน้มที่จะใช้เมตริกเหล่านั้นอย่างมีประสิทธิภาพมากขึ้น

ปัญหาที่ต่างกันต้องใช้คลาสเมตริกที่แตกต่างกัน ตัวอย่างเช่น สำหรับปัญหาการจำแนกประเภท ความแม่นยำอาจเป็นตัวชี้วัดที่มีประโยชน์ เนื่องจากเราต้องการทราบว่าแบบจำลองคาดการณ์คลาสที่ถูกต้องบ่อยเพียงใด แต่ความแม่นยำไม่มีประโยชน์เมื่อทำการทำนายมูลค่า เช่น จำนวนเงินดอลลาร์หรืออุปทานสินค้าคงคลัง เนื่องจากค่าเป้าหมายมีความต่อเนื่องและไม่ต่อเนื่อง สำหรับปัญหาการถดถอย เราต้องการวัดว่าการคาดการณ์ของเราใกล้เคียงกับค่าจริงเพียงใด

ในส่วนที่ 1 เราจะครอบคลุมการวัดผลการประเมิน 4 รายการที่ใช้สำหรับปัญหา "การถดถอย" ในส่วนที่ 2 เราจะครอบคลุมตัวชี้วัดหลัก 4 ประการสำหรับปัญหา "การจำแนกประเภท"

การวัดผลการประเมินสำหรับการถดถอย

ค่าเฉลี่ยข้อผิดพลาดสัมบูรณ์ (MAE)

ค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ย (MAE)เป็นเพียงระยะห่างเฉลี่ยระหว่างค่าที่คาดการณ์ของแบบจำลองกับค่าที่สังเกตได้จริง โดยไม่สนใจทิศทางของข้อผิดพลาด (ไม่ว่าจะเป็นค่าบวกหรือค่าลบ) และคำนวณระยะทางเฉลี่ย คะแนนยิ่งน้อยยิ่งดี ความเรียบง่ายทำให้คำนวณและเข้าใจได้ง่าย แม้แต่ผู้มีส่วนได้ส่วนเสียทางธุรกิจซึ่งถือเป็นข้อได้เปรียบอย่างมาก MAE เป็นที่นิยมอย่างมากสำหรับกรณีการใช้งานอนุกรมเวลา ดีและเรียบง่ายใช่ไหม? ไม่ชอบอะไร?

ด้วยความเรียบง่ายที่ยิ่งใหญ่ MAE ปฏิบัติต่อทุกข้อผิดพลาดเหมือนกันไม่ว่าจะเล็กหรือใหญ่แค่ไหนก็ตาม เป็นเรื่องยากที่จะทำลายความยุติธรรม แต่สำหรับกรณีการใช้งานที่มีค่าสุดโต่งเกินกว่าจะยอมรับได้หรือแม้กระทั่งเป็นอันตราย ตัวชี้วัดอื่นเช่น RSME อาจเหมาะสมกว่า ตัวอย่างเช่น ตัวควบคุมอุปกรณ์โรงไฟฟ้านิวเคลียร์ที่ตั้งอุณหภูมิสูงเกินไปอาจเป็นหายนะอย่างแท้จริง แต่การคาดการณ์ว่าจำนวนผู้เข้าชมคอนเสิร์ตสูงเกินไปจะไม่ใช่จุดจบของโลก

เมื่อตีความ MAE สิ่งสำคัญคือต้องจำไว้ว่าขึ้นอยู่กับขนาด ขนาดของข้อผิดพลาดสัมพันธ์กับระดับข้อมูลการฝึก ซึ่งหมายความว่าการตีความขนาดของข้อผิดพลาดนั้นขึ้นอยู่กับบริบทของปัญหา ตัวอย่างเช่น หากคุณคาดการณ์ราคาบ้าน ค่า MAE จะเป็นหลักร้อย หลักหมื่น หรือล้านดอลลาร์ แต่ถ้าคุณคาดการณ์ปริมาณบ้านที่ขายได้ในเมืองหนึ่งๆ ข้อผิดพลาด MAE ของคุณก็จะอยู่ที่หลักร้อยหรืออาจเป็นพัน ขอแนะนำสำหรับการประเมินประสิทธิภาพของแบบจำลองในชุดปัญหาเดียว แต่ไม่เพียงพอสำหรับการเปรียบเทียบชุดต่างๆ ของหน่วยต่างๆ

สำหรับโมเดลการฝึก หน่วยที่เราใช้ไม่ได้มีความสำคัญมากนัก เนื่องจากเราเพียงแต่ต้องรู้ว่าเรากำลังลดหรือเพิ่มข้อผิดพลาดในการวนซ้ำแต่ละครั้ง เราให้ความสำคัญกับขนาดสัมพัทธ์ของข้อผิดพลาดมากขึ้น แต่เมื่อประเมินโมเดลที่ได้รับการฝึกอบรม เช่นเดียวกับที่คุณทำใน Continual เราจะสนใจว่าเราใช้หน่วยใดเพราะเราต้องการทราบว่าโมเดลที่ได้รับการฝึกอบรมนั้นสามารถแก้ไขปัญหาในโลกแห่งความเป็นจริงของเราได้อย่างเพียงพอหรือไม่

MAE เป็นตัวชี้วัดง่ายๆ ในการประเมินประสิทธิภาพของแบบจำลองของคุณ แต่สิ่งสำคัญคือต้องคำนึงถึงการขึ้นต่อขนาดและการจัดการค่าผิดปกติ

ข้อผิดพลาดเปอร์เซ็นต์เฉลี่ยสัมบูรณ์แบบสมมาตร (sMAPE)

เพื่อช่วยให้เราเข้าใจ sMAPE ก่อนอื่นเรามาพูดถึงรุ่นก่อนกันก่อน: Mean Absolute Percentage Error (MAPE)

เช่นเดียวกับ MAE MAPE จะคำนวณระยะห่างสัมบูรณ์ระหว่างค่าที่คาดการณ์ (F) และค่าจริง (A) แล้วจึงหารระยะทางด้วยค่าจริง โดยแสดงออกมาเป็นเปอร์เซ็นต์ การแสดงข้อผิดพลาดเป็นเปอร์เซ็นต์ทำให้ง่ายต่อการเปรียบเทียบประสิทธิภาพของโมเดลในระดับต่างๆ สิ่งนี้มีประโยชน์สำหรับสถานการณ์เช่นการคาดการณ์สินค้าคงคลังสำหรับ SKU ของผลิตภัณฑ์ต่างๆ ธุรกิจสามารถพึ่งพาเปอร์เซ็นต์ข้อผิดพลาดที่สอดคล้องกันสำหรับผลิตภัณฑ์ต่างๆ ในช่วงราคาต่างๆ เช่น ผลิตภัณฑ์ที่ถูกกว่า เช่น ที่ชาร์จแล็ปท็อป และผลิตภัณฑ์ที่มีราคาแพงกว่า เช่น แล็ปท็อป

ปัญหาเกี่ยวกับ MAPE เกิดขึ้นเมื่อค่าจริงอยู่ที่หรือใกล้กับศูนย์ ในกรณีเช่นนี้ MAPE จะแสดงค่าที่ไม่มีที่สิ้นสุดหรือไม่ได้กำหนดไว้ เนื่องจากเลขศูนย์เป็นเรื่องปกติในกรณีการใช้งานหลายๆ กรณี เช่น ยอดขายที่ไม่ต่อเนื่องในการคาดการณ์การขาย นี่จึงเป็นข้อจำกัดที่ร้ายแรง

MAPE แบบสมมาตรถูกสร้างขึ้นเพื่อแก้ไขปัญหานี้โดยการหารตัวเศษด้วยผลรวมครึ่งหนึ่งของค่าสัมบูรณ์ของค่าจริง (A) และค่าที่คาดการณ์ (F) อย่างมีประสิทธิภาพ เมื่อค่าจริงหรือค่าที่คาดการณ์อยู่ที่หรือใกล้กับศูนย์ คะแนน sMAPE จะถึงขอบเขตบนโดยอัตโนมัติที่ 200% แทนที่จะหัก

ยิ่งคะแนนต่ำก็ยิ่งคาดการณ์ได้ดีขึ้น แต่เมื่อตีความคะแนน โปรดทราบว่าคะแนนนั้นไม่ได้สมมาตรอย่างสมบูรณ์ จะลงโทษข้อผิดพลาดเชิงบวก (ตามจริง › ที่คาดการณ์ไว้) มากกว่าข้อผิดพลาดเชิงลบ (ตามจริง ‹ ที่คาดการณ์ไว้) ตัวอย่างเช่น หากค่าจริงของเรา = 100 และค่าที่คาดการณ์ = 120 คะแนน sMAPE จะเป็น 18.2% แต่ถ้าค่าจริง = 100 และค่าที่คาดการณ์ = 80 ดังนั้น sMAPE จะออกมาเป็น 22.2%

เอาล่ะ เราได้กล่าวถึง sMAPE และ MAE แล้ว ทั้งสองอย่างมีประโยชน์ในกรณีที่คุณไม่กังวลเกี่ยวกับข้อผิดพลาดใหญ่ แต่เมื่อข้อผิดพลาดขนาดใหญ่ไม่สามารถทนได้ RMSE คือตัวชี้วัดของคุณ!

ข้อผิดพลาด Root Mean Squared (RMSE)

สมมติว่ามีแบบจำลองที่คาดการณ์ว่าเวลาใดที่ดีที่สุดในการติดตั้งสารหล่อเย็นในโรงไฟฟ้านิวเคลียร์ หากแบบจำลองคาดการณ์ช้าเกินไป ก็อาจทำให้เกิดหายนะได้! ในกรณีเช่นนี้ การลงโทษข้อผิดพลาดใหญ่ๆ อาจเป็นการดี

ในขณะที่ sMAPE และ MAE จะลงโทษข้อผิดพลาดตามสัดส่วน ข้อผิดพลาด Root Mean Squared Error (RMSE) จะทำแบบกำลังสองโดยการยกกำลังสองข้อผิดพลาด

แต่นั่นไม่ได้หมายความว่าหน่วยวัดเป็นกำลังสอง RMSE นำรากที่สองของข้อผิดพลาดมาแปลงกลับเป็นขนาดดั้งเดิมได้อย่างมีประสิทธิภาพ ตัวอย่างเช่น หากคุณกำลังใช้งานกรณีการใช้งานการตลาดดิจิทัลและตัวแปรเป้าหมายของคุณใช้ "การแสดงผล" เป็นหน่วย ข้อผิดพลาด RMSE ก็จะมีหน่วย "การแสดงผล" ด้วย ไม่ใช่ "การแสดงผลกำลังสอง" สวยเก๋ใช่มั้ย?

สิ่งสุดท้ายที่ต้องรู้เกี่ยวกับ RMSE คือขึ้นอยู่กับชุดข้อมูล ดังนั้นจึงไม่ควรใช้เพื่อเปรียบเทียบระหว่างชุดข้อมูล ควรใช้เพื่อวัดประสิทธิภาพของแบบจำลองที่เหมาะสมต่อชุดข้อมูลและอ้างอิง MAE หรือ sMAPE เพื่อวัตถุประสงค์ในการเปรียบเทียบ

R² สัมประสิทธิ์การกำหนด

R² หรือที่เรียกว่าสัมประสิทธิ์การกำหนด คืออัตราส่วนระหว่าง "ความแปรปรวน" ที่อธิบายโดยแบบจำลองและความแปรปรวนทั้งหมด

ตัวเศษจะคำนวณโดยผลรวมของระยะห่างระหว่างค่าจริงกับเส้นที่เหมาะสมที่สุด (รุ่น) ตัวส่วนจะคล้ายกัน แต่แทนที่จะค้นหาผลรวมของระยะห่างระหว่างค่าจริงกับเส้นตรงที่ลงตัวที่สุด เราจะหาระยะทางถึงค่าเฉลี่ย

คะแนนที่ดีที่สุดที่เป็นไปได้คือ 1.0 ซึ่งหมายความว่าแบบจำลองอธิบายความแปรปรวนได้ 100% และค่าที่ติดตั้งจะเท่ากับค่าจริงเสมอ กล่าวอีกนัยหนึ่ง ตัวแปรอิสระจะอธิบายความแปรปรวนทั้งหมดในข้อมูล ในทางกลับกัน หากโมเดลเป็นศูนย์ หมายความว่าโมเดลนั้นไม่ได้อธิบายความแปรปรวนใดๆ R² อาจเป็นลบได้ เนื่องจากโมเดลอาจแย่กว่าปกติและเหมาะสมกับข้อมูล แย่กว่ามากกว่าค่าเฉลี่ย

เมื่อตีความข้อผิดพลาด R² ให้คำนึงถึงแนวโน้มที่จะถูกหลอก เช่นเดียวกับตัวชี้วัดอื่นๆ ตัวชี้วัดก็มีจุดอ่อนและสามารถให้คะแนนสูงสำหรับโมเดลที่ไม่ดีหรือคะแนนต่ำสำหรับโมเดลที่ดี มันสามารถได้รับอิทธิพลจากการเปลี่ยนช่วงของตัวแปรอิสระของเรา และคะแนนที่ต่ำอาจเป็นเพราะกำลังประเมินโมเดลที่ไม่ใช่เชิงเส้น (R² ใช้ได้กับโมเดลเชิงเส้นเท่านั้น) การวัดอาจผิดพลาดได้หลายวิธี ดังนั้น จึงแนะนำให้ใช้มาตรการทางสถิติอื่นๆ เพื่อดูแบบจำลองของคุณให้ครบถ้วนยิ่งขึ้น

โอ้และอย่าลืมว่าR²นั้นขึ้นอยู่กับชุดข้อมูล (เพราะเป็นการวัดความแปรปรวน) ไม่เหมาะที่จะใช้เปรียบเทียบระหว่างซีรีส์ต่างๆ เช่นเดียวกับ RMSE ไม่เหมาะ

การวัดผลการประเมินอย่างต่อเนื่อง

ตอนนี้เราได้ผ่านเกณฑ์ชี้วัดการประเมินสำหรับปัญหาการถดถอยแล้ว มาดูวิธีการใช้งานแบบต่อเนื่องกัน

คำนวณเกณฑ์ชี้วัดการประเมินหลายรายการอย่างต่อเนื่อง และใช้เกณฑ์ชี้วัดเริ่มต้นเพื่อเปรียบเทียบประสิทธิภาพและเลือกแบบจำลองที่มีประสิทธิภาพดีที่สุด

ในภาพรวมโมเดล เมทริกการประเมินจะแสดงสำหรับโมเดลที่ได้รับการเลื่อนระดับในปัจจุบัน

เวอร์ชันของโมเดลจะแสดงหน่วยเมตริกสำหรับโมเดลแต่ละโมเดลที่ได้รับการฝึก และวิธีที่โมเดลที่ชนะเปรียบเทียบกับเวอร์ชันก่อนหน้า

ผู้ใช้สามารถตั้งค่าเมตริกเริ่มต้นที่ Continual จะใช้ประเมินและเลือกโมเดลใน UI หรือ CLI

การตั้งค่าเมตริกเริ่มต้นใน UI

เมื่อสร้างหรือแก้ไขโมเดล คลิกเมนูแบบเลื่อนลงเมตริกประสิทธิภาพในขั้นตอน "ตรวจสอบนโยบาย" และเลือกเมตริกที่คุณต้องการใช้ เมื่อ Continual ฝึก ทดสอบ และประเมินโมเดลต่างๆ สำหรับกรณีการใช้งานของคุณ ระบบจะเลือกโมเดลที่ทำงานได้ดีที่สุดเทียบกับเมตริกที่คุณกำหนดไว้ในขั้นตอน "ตรวจสอบนโยบาย"

การตั้งค่าเมตริกเริ่มต้นใน CLI

หากต้องการกำหนดตัววัดเริ่มต้นจาก CLI ให้แก้ไขไฟล์ YAML โมเดลของคุณด้วยตัววัดที่คุณเลือก ที่นี่ฉันใช้ข้อผิดพลาด Root Mean Squared Error (RMSE) เป็นหน่วยเมตริกเริ่มต้น แต่อีกทางหนึ่ง ฉันสามารถระบุ 'mae' หรือ 'r2' ได้

หลังจากอัปเดต YAML แล้ว ให้พุชโมเดลใหม่เป็นแบบต่อเนื่อง:

continual push example.yml

สำหรับคำแนะนำในการใช้ CLI โปรดดูที่ "เอกสารประกอบ" ของเรา

ส่วนที่ 2: การวัดการประเมินสำหรับปัญหาการจำแนกประเภท

ในโพสต์ถัดไป เราจะหารือเกี่ยวกับตัวชี้วัดการประเมินที่ใช้สำหรับปัญหาการจำแนกประเภท และแสดงให้เห็นว่าผู้ใช้สามารถสร้างแบบจำลองการจำแนกประเภทที่มีประสิทธิภาพดีขึ้นได้อย่างไร โดยใช้ตัวชี้วัดที่เหมาะสมสำหรับปัญหาของพวกเขา‍

คุณยังใหม่กับ Continual หรือไม่?

ทดลองใช้ฟรีโดย ลงทะเบียนเพื่อทดลองใช้งานฟรี