คำแนะนำเกี่ยวกับ MLOps สำหรับนักวิทยาศาสตร์ข้อมูล: ตอนที่ 2

โพสต์ครั้งแรกในบล็อก “Machine Learning Insights” ของ Kaskada ที่นี่

ใน ส่วนที่ 1 ของซีรีส์นี้ เราได้พูดถึงวงจรชีวิต ML ที่ต่อเนื่อง และความหมายของนักวิทยาศาสตร์ข้อมูลในการนำ MLOps มาใช้ คุณจะใช้เครื่องมือใหม่ๆ เพลิดเพลินกับความโปร่งใสที่เพิ่มขึ้น และใช้กระบวนการใหม่ๆ และโครงสร้างทีมที่อาจเป็นไปได้ใหม่ ดูเหมือนจะเป็นงานใหญ่และน่าจะเป็นงานของคนอื่นในการดูวงจรชีวิตทั้งหมดของทีมต่างๆ และแนะนำเครื่องมือใหม่เพื่อเริ่มใช้เครื่องมือวงจรการใช้งาน ML อย่างไรก็ตาม สิ่งที่คุณต้องทำเพื่อเริ่มต้นเส้นทางสู่อนาคตของ MLOps คือคุณ ซึ่งเป็นนักวิทยาศาสตร์ข้อมูลรายบุคคล เป็นศูนย์กลาง ความเจ็บปวดของนักวิทยาศาสตร์ข้อมูลและผู้คนที่อยู่ภายใต้อัลกอริทึม ML ของเรา

สำหรับฉัน วิทยาศาสตร์ข้อมูลเป็นเรื่องเกี่ยวกับการแก้ปัญหาที่ซับซ้อนด้วยอัลกอริธึมแมชชีนเลิร์นนิงที่สร้างผลกระทบเชิงบวกในวิชาของการคาดการณ์ของเรา ตัวอย่างที่เห็นได้ชัดเจนคือ เมื่อใช้ AI กับข้อมูลโควิด-19 ไม่ว่าด้วยวิธีใดก็ตาม การสร้างแบบจำลองที่ควร ลดต้นทุน> ในระบบการดูแลสุขภาพของเรายังไม่เพียงพอ ฉันยังต้องแสดงให้เห็นว่าโมเดลจะได้รับผลกระทบอย่างไรและ «ปกป้องชุมชนที่เปราะบาง ต่อไป

ปัญหาคือวิศวกร Devops และวิศวกรซอฟต์แวร์มักเข้าใจผิดคิดว่าเป้าหมายสุดท้ายคือ "ทำให้การเรียนรู้ของเครื่องทำงานเหมือนวิทยาการคอมพิวเตอร์" ดังที่ระบุไว้ใน "บล็อกล่าสุด" ของ Google เกี่ยวกับเครื่องมือสำหรับ MLOps เราอาจสันนิษฐานว่าพวกเขารู้ความต้องการหลักในการกำกับดูแล ระบบอัตโนมัติ และการตรวจสอบบริการอยู่แล้ว เนื่องจาก DevOps มีความสำคัญมานานกว่า 10 ปีแล้ว อย่างไรก็ตาม วงจรการใช้งานของโมเดล ML นั้นแตกต่างจากบริการหรือแอปพลิเคชันอื่นๆ ที่ทีมของคุณเคยใช้งานมาก่อน บ่อยครั้ง ซึ่งหมายความว่าข้อกำหนดต่างๆ จะถูกมองข้ามไปตลอดทั้งทางวิศวกรรมคุณลักษณะและการสร้างโมเดล คุณจะต้องมีความสามารถในการตรวจสอบ ติดตาม และรักษาทั้งข้อมูลที่ป้อนคุณลักษณะของคุณ และ ผลกระทบที่โมเดลของคุณมี ในเรื่องของการทำนายในการผลิต

พื้นที่สำหรับเครื่องมือ MLOps

คุณคงทราบดีว่าสถิติทั่วไปที่มักถูกยกมาอ้าง — 80% ของเวลาของนักวิทยาศาสตร์ข้อมูลถูกใช้ไปกับงานที่ต้องอาศัยแรงคนสูง โดยมีเวลาเหลือน้อยมากในการทำงานในส่วนวิทยาศาสตร์ข้อมูลของงาน เมื่อทีมของคุณเริ่มใช้เครื่องมือวงจรการใช้งาน ML นี่เป็นโอกาสที่ไม่เพียงแต่ทำให้เป็นอัตโนมัติเท่านั้น แต่ยังช่วยให้คุณแก้ปัญหาที่ซับซ้อนได้อีกด้วย

มาดูด้านต่างๆ มากมายที่อาจใช้เครื่องมือเพื่อรองรับวงจรการใช้งาน ML ตั้งแต่ต้นจนจบ:

  • การนำเข้าและการทำความสะอาดแหล่งข้อมูลดิบ
  • การดำเนินการกำกับดูแลและการตรวจสอบ
  • จัดให้มีสภาพแวดล้อมในการพัฒนา แบ่งปัน และทำงานร่วมกันเกี่ยวกับคุณสมบัติต่างๆ
  • ส่งออกชุดข้อมูลการฝึกอบรม การทดสอบ และการตรวจสอบความถูกต้อง
  • การติดตามการทดลอง การรัน ไฮเปอร์พารามิเตอร์ คุณลักษณะ อาร์ติแฟกต์ ฯลฯ
  • การทดสอบโมเดลและฟีเจอร์ ML เพื่อประสิทธิภาพ ความแม่นยำ และผลกระทบ
  • การเปิดตัวโมเดลและฟีเจอร์เวกเตอร์เป็นบริการ
  • การติดตามเชื้อสาย เวอร์ชันของโมเดล และประสิทธิภาพ
  • การปรับใช้การให้คะแนนแบบกลุ่ม การให้บริการแบบเรียลไทม์ คอนเทนเนอร์ และบริการอนุมานบนคลาวด์
  • การอัปเดตโมเดลที่ใช้งานจริงเนื่องจากล้าสมัยอย่างหลีกเลี่ยงไม่ได้

เห็นได้ชัดว่าในฐานะนักวิทยาศาสตร์ข้อมูลซึ่งเป็นฟีเจอร์ทางวิศวกรรมและโมเดล ML คุณจะต้องรับผิดชอบในการระบุข้อกำหนดด้านวิศวกรรมฟีเจอร์และเครื่องมือวนซ้ำโมเดล และเป็นเรื่องที่น่าสนใจที่จะแบ่งพื้นที่ที่เหลือตามบทบาทต่างๆ ในบริษัทของคุณ โดยมีเป้าหมายในการนำโมเดลที่มีอยู่ไปใช้งานจริงได้เร็วขึ้น อย่างไรก็ตาม วิธีการนี้สูญเสียข้อกำหนดที่สำคัญด้านวิทยาศาสตร์ข้อมูลไป นักวิทยาศาสตร์ด้านข้อมูลมีการฝึกอบรมพิเศษที่ช่วยให้เราสามารถระบุข้อกำหนดเกี่ยวกับวิธีการดำเนินการวนรอบความคิดเห็นให้เสร็จสิ้น โดยการวัดผลกระทบเมื่อเวลาผ่านไปในเรื่องของแบบจำลองของคุณ

นี่อาจฟังดูเป็นงานใหญ่ แทนที่จะเขียนข้อกำหนดโดยละเอียดสำหรับทุกพื้นที่และสำรวจเครื่องมือทั้งหมดในตลาด แทนที่จะเขียนความต้องการในระดับสูงของคุณแทน

วิธีจัดศูนย์วิทยาศาสตร์ข้อมูล

คุณเป็น Data Scientist คุณต้องการอะไร? วางกรอบสิ่งต่างๆ เหมือนกับที่ผู้จัดการผลิตภัณฑ์ทำและกำหนดสถานการณ์ที่ทำให้สามารถเลือกเครื่องมือที่เหมาะสมได้ หากย้อนกลับไปที่ตัวอย่างด้านการดูแลสุขภาพเกี่ยวกับโรคโควิด-19 ของฉัน สิ่งหนึ่งที่ฉันต้องการคือการเปิดใช้การทดสอบและตรวจสอบความถูกต้องของผลกระทบของแบบจำลองของฉันต่อข้อมูลประชากร รวมถึงการตรวจสอบอย่างต่อเนื่องเพื่อให้มั่นใจถึงผลกระทบเชิงบวก

สิ่งนี้ทำให้คุณเป็นผู้มีส่วนได้ส่วนเสียในการบูรณาการแพลตฟอร์มภายนอกวันต่อวันของคุณ คุณจะต้องเจรจาลำดับความสำคัญของความต้องการเหล่านี้ ให้ข้อเสนอแนะ และประเมินเครื่องมือที่ช่วยให้มองเห็นได้ตลอดกระบวนการ และเนื่องจากแพลตฟอร์ม DevOps แบบดั้งเดิมไม่ได้ให้ความสามารถในการวัดมากกว่าการใช้หน่วยความจำและเวลาตอบสนอง คุณจะต้องทำงานควบคู่กันเพื่อกำหนดสิ่งที่ได้รับการตรวจสอบและวิธีที่จะแสดงทั่วทั้งบริษัท

ภาพรวมของเครื่องมือที่จัดการกับแต่ละพื้นที่ข้างต้นนั้นมีมากมายมหาศาล และไม่ใช่หน้าที่ของคุณที่จะต้องตามทันพื้นที่เก็บข้อมูล ระบบแบบกระจาย หรือวิธีการปรับใช้หรือบูรณาการอย่างต่อเนื่อง ในฐานะนักวิทยาศาสตร์ข้อมูล ลองเขียนสิ่งที่คุณต้องมีเพื่อให้สามารถรับความรับผิดชอบใหม่ๆ และสิ่งที่ ผลกระทบทั้งที่ตั้งใจและไม่ตั้งใจที่เป็นไปได้ อาจเกิดขึ้นกับบุคคลที่อยู่ภายใต้โมเดล ML ที่คุณกำลังสร้าง

หากตอนนี้คุณเป็นผู้รับผิดชอบคุณสมบัติทางวิศวกรรมที่สามารถเปลี่ยนจากสภาพแวดล้อมการทดลองของคุณได้อย่างราบรื่นโดยไม่ต้องเขียนโค้ดใหม่ ข้อมูลที่ป้อนสภาพแวดล้อมสำหรับวิศวกรรมคุณสมบัติของคุณมีความหมายอย่างไร นี่คือ มุมมองเดียว จาก Max Boyd หัวหน้าฝ่ายวิทยาศาสตร์ข้อมูลที่ Kaskada เกี่ยวกับวิธีที่ข้อมูลที่ถือเป็นข้อเท็จจริงลดความแม่นยำของโมเดล และวิธีที่สตรีมเหตุการณ์สามารถแก้ไขปัญหานี้ได้

หากโมเดลเริ่มล้าสมัย การฝึกโมเดล ML ใหม่โดยอัตโนมัติอาจไม่ใช่คำตอบสำหรับธุรกิจของคุณ โดยเฉพาะอย่างยิ่งหากบุคคลที่ได้รับผลกระทบจากแบบจำลองอาจถูกเลือกปฏิบัติอย่างเป็นระบบตามชั้นเรียนที่ได้รับการคุ้มครอง แต่หากคุณรับผิดชอบในการอัปเดตโมเดลในการผลิตตามจังหวะที่กำหนดหรือต่อเนื่อง คุณต้องมีการตรวจสอบข้อมูลใดบ้าง และคุณต้องการการแจ้งเตือนอะไรบ้างเพื่อแจ้งเตือนเมื่อเกิดปัญหา

สำหรับนักวิทยาศาสตร์ด้านข้อมูลเพียงคนเดียวที่สร้างผลกระทบและเริ่มนำ MLOps มาใช้ สิ่งที่คุณสามารถทำได้ในวันนี้ ให้เริ่มเขียนเกี่ยวกับความต้องการและปัญหาของคุณ จากนั้นแมปความต้องการเหล่านั้นกับทุกขั้นตอนของวงจรการใช้งาน ML และดูว่าสามารถแก้ไขได้ด้วยเครื่องมืออย่างไร ไม่ใช่ทุกอย่างจะสามารถแก้ไขได้ด้วยเครื่องมือเพียงอย่างเดียว แต่ครั้งต่อไปใน "ส่วนที่ 3" เราจะพูดถึงกระบวนการที่คุณสามารถเสนอเพื่อเปิดใช้งาน MLOps ในบริษัทของคุณได้