20 คำถามถึง Ace ก่อนที่จะได้งาน Machine Learning

ข้อมูลเบื้องต้นเกี่ยวกับการเรียนรู้ของเครื่องด้วยทวีต

เรียกได้ว่าเป็นการค้นพบที่โชคดีบน Twitter มันเป็นอย่างแน่นอน Santiago ทวีต 20 คำถามที่คุณต้องตอบก่อนที่จะได้งานแมชชีนเลิร์นนิง ฉันคิดว่าจะใช้คำถามเหล่านี้เพื่อทำความเข้าใจการทำงานของนักพัฒนาให้ดีขึ้น และอาจได้ข้อมูลคร่าวๆ เกี่ยวกับแอปพลิเคชันในอนาคต

คำถามแรกเกี่ยวกับแนวคิดพื้นฐานต่างๆ ของการเรียนรู้ของเครื่อง ลองจินตนาการว่าเราได้รับปริศนาเป็นของขวัญ เอามารวมกันยังไงครับ? คุณต้องการโปสเตอร์ปริศนาที่เสร็จแล้วเป็นพื้นฐานหรือคุณเอาขอบมารวมกันก่อน? ลองเรียงลำดับสีดูมั้ย? ขึ้นอยู่กับประเภทของข้อมูลที่คุณมี การเลือกวิธีการอื่นและอัลกอริทึมที่แตกต่างกันก็สมเหตุสมผล

เช่นเดียวกับวิธีการเรียนรู้เชิงลึก เช่น การเรียนรู้แบบมีผู้ดูแล แบบไม่มีผู้ดูแล กึ่งมีผู้ดูแล และการเรียนรู้แบบเสริมกำลัง นักวิทยาศาสตร์ตัดสินใจเลือกรูปแบบการฝึกอบรมสำหรับอัลกอริธึม โดยขึ้นอยู่กับ "ข้อมูลที่มีอยู่และคำถามในการวิจัย" เขาตั้งชื่อทวีตส่วนนี้ว่าช่วง "อุ่นเครื่อง" สิ่งสำคัญสำหรับผู้ไม่ใช้เทคโนโลยี:

ขึ้นอยู่กับคำถามในการวิจัย นักพัฒนาใช้อัลกอริธึมเฉพาะ การตัดสินใจจะขึ้นอยู่กับข้อมูลก่อน จากนั้นจึงใช้โมเดลการฝึกอบรม และสุดท้ายคืออัลกอริทึม

ระยะ “เจาะลึก”

ในระยะนี้ เขาถามคำถามเกี่ยวกับวิธีการเรียนรู้แบบมีผู้สอน เราจะเรียนรู้ได้อย่างไรเมื่อได้รับการดูแล? ครูตีตราสิ่งต่าง ๆ และเราเข้าใจว่าสิ่งเหล่านี้เป็นจริง (เช่น รู้จักประธานาธิบดีทุกคนด้วยใจ) ในการเรียนรู้ของเครื่อง หมายความว่าอัลกอริทึมจะเรียนรู้จากชุดข้อมูลที่มีป้ายกำกับเพื่อประเมินข้อมูลการฝึก ดังนั้นเมื่อมีคำถามเกิดขึ้นเมื่อใดควรใช้การจำแนกประเภทกับปัญหาการถดถอย ประเด็นหลักสองประการที่การเรียนรู้แบบมีผู้สอนมีประโยชน์จะถูกหยิบยกขึ้นมา ตามที่ "Isha Salian" กล่าวไว้ "ปัญหาการจำแนกประเภทขอให้อัลกอริธึมทำนายค่าที่ไม่ต่อเนื่อง โดยระบุข้อมูลอินพุตเป็นสมาชิกของคลาสหรือกลุ่มเฉพาะ ปัญหาการถดถอยจะดูที่ข้อมูลที่ต่อเนื่องกัน" ดังนั้นเราจึงต้องจำไว้ว่าในฐานะคนไม่ใช้เทคโนโลยี:

โมเดลการเรียนรู้ภายใต้การดูแลจำเป็นต้องมีชุดจุดอ้างอิงที่มีอยู่ที่สะอาดและมีป้ายกำกับอย่างดี หรือความจริงภาคพื้นดินเพื่อฝึกอัลกอริทึม
หากเราต้องการแยกสุนัขและแมวออกจากรูปภาพและมีข้อมูลที่แม่นยำรวมกัน การใช้วิธีเดียวจะเหมาะสมกว่า ไม่ว่านักวิทยาศาสตร์จะเลือกอะไรก็ตาม เขาจะทำเช่นนั้นโดยพิจารณาจากคำถามในการวิจัยและความเป็นไปได้ที่ข้อมูลนำเสนอ

ช่วง "นี่กำลังจะกลายเป็นจริง"

คำสาปแห่งมิติคืออะไร? ปรากฎว่าปรากฏการณ์นี้ส่งผลกระทบต่อพื้นที่ต่าง ๆ เมื่อวิเคราะห์และจัดระเบียบชุดข้อมูลในพื้นที่มิติสูง ยิ่งข้อมูลของคุณมีคุณสมบัติมากเท่าไร การ "เข้าถึงประเด็น" ก็ยิ่งยากขึ้นตามที่ระบุไว้ใน "บทความของเขา" เกี่ยวกับคำสาป เนื่องจากคำสาปนี้ นักวิทยาศาสตร์จึงจำเป็นต้องใช้อัลกอริธึมการลดขนาด เช่น อัลกอริธึม PCA (การวิเคราะห์องค์ประกอบหลัก) คุณเคยมีบทสนทนาที่สับสนและไม่มีวันจบสิ้นกับเพื่อนหรือสมาชิกในครอบครัว คุณรู้จักบทสนทนาที่เริ่มต้นด้วยการไปร้านขายของชำและจบลงด้วยงานศพหรือไม่? จากที่ผมรวบรวมมาก็เป็นเช่นนั้นจริงๆ คำสาปขัดขวางไม่ให้คุณมีโมเดลการเรียนรู้เชิงลึกที่ใช้งานได้ซึ่งสามารถสร้างรูปแบบและผลลัพธ์ที่จับต้องได้ ประเด็นสำคัญ:

คุณลักษณะที่มากเกินไปทำให้เกิดการรบกวนมากเกินไป: หากคุณลักษณะดังกล่าวมีมากกว่าการสังเกต นักวิทยาศาสตร์และนักพัฒนาก็เสี่ยงต่อการปรับเปลี่ยนโมเดลของตนมากเกินไป

“ตอนนี้มาเจาะลึกขั้นตอนนี้กันดีกว่า”

คุณช่วยอธิบาย "การแลกเปลี่ยนระหว่างอคติและความแปรปรวน" ได้ไหม หมายความว่าข้อผิดพลาดในการทำนายสำหรับอัลกอริธึมแมชชีนเลิร์นนิงมีสามส่วน: ข้อผิดพลาดอคติ ข้อผิดพลาดความแปรปรวน และข้อผิดพลาดที่ลดไม่ได้

นักวิทยาศาสตร์และนักพัฒนาผลลัพธ์ต้องการได้รับอคติต่ำและความแปรปรวนต่ำเพื่อให้ได้ความแม่นยำสูงสุด อย่างไรก็ตาม Jason Brownlee จาก Machine Learning Mastery Pty. Ltd. สรุปว่า “เราไม่สามารถคำนวณค่าอคติที่แท้จริงและความแปรปรวนได้เนื่องจากเราไม่ทราบฟังก์ชันเป้าหมายที่แท้จริงที่แท้จริง อย่างไรก็ตาม ตามกรอบการทำงาน อคติและความแปรปรวนถือเป็นเครื่องมือในการทำความเข้าใจพฤติกรรมของอัลกอริธึมการเรียนรู้ของเครื่องในการแสวงหาประสิทธิภาพเชิงคาดการณ์”

เป้าหมายคือการบรรลุความสมดุลที่ดีที่สุดที่เป็นไปได้ของอคติต่ำและความแปรปรวนต่ำ น่าเสียดายที่มีวิธีการไม่มากนักที่จะหลีกเลี่ยงการแลกเปลี่ยนนี้

ในทวีตของเขา Santiago ถามเกี่ยวกับวิธีที่นักวิทยาศาสตร์ข้อมูลสามารถวัดความแม่นยำของโมเดลการเรียนรู้ของเครื่องบนชุดข้อมูลโดยใช้คะแนน F1 ได้อย่างไร คะแนน F จะรวม "ความแม่นยำและการจดจำของแบบจำลอง" และกำหนด "ค่าเฉลี่ยฮาร์มอนิก" ของความแม่นยำและการจดจำของแบบจำลอง

นักวิทยาศาสตร์ใช้คะแนน F ในแอปพลิเคชันการประมวลผลภาษาธรรมชาติ เช่น เมื่อประเมินการจดจำเอนทิตีที่มีชื่อและการแบ่งส่วนคำ

คำถามสุดท้าย: ความแม่นยำของโมเดลหรือประสิทธิภาพของโมเดล

ความแม่นยำของแบบจำลอง แสดงให้เห็นว่าค่าที่คาดการณ์ไว้ใกล้กับค่าเป้าหมายมากน้อยเพียงใด ประสิทธิภาพของโมเดลสามารถเร่งความเร็วได้ อย่างไรก็ตาม หากพูดตามหลักวิทยาศาสตร์แล้ว ประสิทธิภาพยังสามารถระบุได้ว่าโมเดลดำเนินงานตามความต้องการของผู้ใช้ได้ดีเพียงใด กล่าวอีกนัยหนึ่ง: ขึ้นอยู่กับแอปพลิเคชัน

หากเราบอกว่าประสิทธิภาพของโมเดลนั้นเชื่อมโยงกับความเร็ว แอปพลิเคชันบางตัวก็ต้องการประสิทธิภาพแบบเรียลไทม์ เช่น สายพานลำเลียงที่บรรทุกมะเขือเทศโดยให้ภารกิจเป็นสีเขียวจากสีแดง แม้ว่าข้อผิดพลาดที่เกิดขึ้นเป็นครั้งคราวจะเป็นสิ่งที่ไม่พึงประสงค์ แต่ความสำเร็จของเครื่องนี้จะขึ้นอยู่กับความสามารถในการทนทานต่อปริมาณงานของมันมากกว่า อย่างไรก็ตาม หากเราหันมาใช้งานทางการแพทย์ ความแม่นยำมีความสำคัญมากกว่าความเร็ว หากแอปพลิเคชันนี้ควรสนับสนุนแพทย์ในการวินิจฉัยผู้ป่วย ฉันอยากได้แอปพลิเคชันที่แม่นยำมากกว่าแอปพลิเคชันที่รวดเร็ว

สิ่งที่ทำให้ฉันประหลาดใจขณะตอบคำถามคือความขัดแย้งและการกระทำที่สมดุลที่มาพร้อมกับดินแดน ดังนั้นผมคิดว่าคำถามทั้ง 20 ข้อนี้มีคุณค่าอย่างยิ่งสำหรับนักพัฒนาในอนาคต เนื่องจากมีการระบุวิธีการที่แตกต่างกันและตั้งคำถามขั้นสูงขึ้น แม้ว่าฉันพยายามทำความเข้าใจคำถามให้มากที่สุดเท่าที่จะเป็นไปได้ แต่ก็ไม่จำเป็นต้องพูด แต่สุดท้ายฉันก็ไม่ผ่านการสัมภาษณ์อย่างแน่นอน

แล้วคุณล่ะ

เผยแพร่ครั้งแรกที่ https://www.unlikelytechie.com เมื่อวันที่ 6 ตุลาคม 2020