ทำให้ Amazon จ้าง AI อย่างเป็นกลาง

ข่าว ของอคติทางเพศในอัลกอริทึมการจ้างงานของ Amazon มีอยู่ทั่วอินเทอร์เน็ต และสิ่งนี้ได้เปิดหัวข้อใหม่ในหัวข้อการตีความของโมเดลการเรียนรู้ของเครื่อง ขอเล่าเบื้องหลังของเรื่องหน่อยนะครับ Amazon มีจำนวนพนักงานอย่างน้อย 575700 คน หากอายุงานเฉลี่ยของพนักงานคือ 3 ปี พวกเขาจะต้องจ้างงาน (191900 + จำนวนพนักงานเพิ่มขึ้น) ทุกปี หากมีการเลือก 1 ครั้งจากการสัมภาษณ์ผู้สมัคร 5 ครั้ง และผู้สมัคร 1 คนถูกเลือกจากทุก 3 เรซูเม่ พวกเขาจะต้องตรวจสอบจำนวนเรซูเม่ 191900*3*5 = 2878500 ทุกปี แม้ว่าจำนวนพนักงานจะยังคงเท่าเดิมก็ตาม ตัวเลขเหล่านี้ — 3 และ 5 — จะแตกต่างกันไปตามโปรไฟล์ที่แตกต่างกัน เนื่องจากเด็กส่งของจะจ้างได้ง่ายกว่าเมื่อเทียบกับวิศวกร แต่อย่าทำให้การคำนวณนี้ซับซ้อนโดยไม่จำเป็น ประเด็นก็คือเพื่อวัดว่าตัวเลขนี้สามารถมีขนาดใหญ่เพียงใด รวมถึงต้องใช้ความพยายามและทรัพยากรไปมากเพียงใด

หากคุณเคยสัมภาษณ์มาก่อน คุณจะยอมรับว่าการกรองเรซูเม่นั้นน่าเบื่อเพียงใด โดยเฉพาะอย่างยิ่งหากเป็นงานของคุณ มันเป็นงานที่เน้นรูปแบบซ้ำๆ — ซึ่งเป็นสิ่งที่ AI ทำได้ดีมาก ดังนั้นจึงสมเหตุสมผลอย่างยิ่งที่บริษัทยักษ์ใหญ่ด้านนวัตกรรมอย่าง Amazon จะต้องเข้าใจแนวทางการจ้างงานของตนเองและทำซ้ำด้วยอัลกอริธึม เนื่องจากเรซูเม่และคำอธิบายงานเป็นข้อมูลที่เป็นข้อความ เราจึงจำเป็นต้องใช้ประโยชน์จาก NLP (การประมวลผลภาษาธรรมชาติ)

หากฉันต้องสร้างอัลกอริธึมด้วยตัวเอง ฉันจะใช้ไปป์ไลน์นี้ และอาจเป็นสิ่งที่ Amazon ก็ทำเช่นกัน

ข้อความเรซูเม่ก่อนประมวลผล
Vectorise ข้อความที่มี TF-IDF หรือ BM25
ฝึกอบรมตัวแยกประเภทที่ได้รับการดูแลสำหรับโปรไฟล์ระดับเริ่มต้นที่ซ้ำกันมากในด้านลอจิสติกส์และวิศวกรรม เรายังสามารถทำได้สำหรับโปรไฟล์ที่ไม่ใช่ระดับเริ่มต้นหากมีข้อมูลเพียงพอ ตัวแยกประเภทสามารถเป็นอะไรก็ได้เช่น Naive-Bayes, RandomForest หรือโมเดลลำดับการเรียนรู้เชิงลึก และหมวดหมู่สำหรับการจัดหมวดหมู่จะถูกเลือกและไม่ได้เลือก
ทำนายความน่าจะเป็นของเรซูเม่ใหม่ที่ถูกเลือก
กรองเรซูเม่ที่มากกว่าความน่าจะเป็นแบบตัดออก เช่น 0.8
เลือกโปรไฟล์ x อันดับต้น ๆ ด้วยความน่าจะเป็นสำหรับการสัมภาษณ์ โดยที่ x ขึ้นอยู่กับจำนวนผู้สมัครที่เราต้องการจ้างและอัตราส่วนการแปลงที่ผ่านมา

อีกวิธีหนึ่งคือการจับคู่เรซูเม่ที่คล้ายคลึงกันกับคำอธิบายงานโดย Lucene/Elasticsearch และเลือกผลลัพธ์ k อันดับแรกด้วยคะแนนความคล้ายคลึงกันแบบตัดออก ผลลัพธ์อันดับต้นๆ จะรับประกันว่าเหมาะสมกับ JD และไม่เหมาะสมกับบทบาท ดังนั้นแนวทางนี้จึงไม่เหมาะสมมากนัก

ปัญหา

ตอนนี้เรามาเจาะลึกว่ามีข่าวอะไรบ้าง: ระบบสรรหาใหม่ของพวกเขาไม่ชอบผู้หญิง บริษัทเทคโนโลยีชั้นนำของสหรัฐฯ ยังไม่ได้ปิดช่องว่างระหว่างเพศในการจ้างงาน ซึ่งเป็นความแตกต่างที่เด่นชัดที่สุดในหมู่พนักงานด้านเทคนิค เช่น นักพัฒนาซอฟต์แวร์ ซึ่งผู้ชายมีจำนวนมากกว่าผู้หญิงมาก ระบบสรรหาบุคลากรรุ่นทดลองของ Amazon ดำเนินตามรูปแบบเดียวกัน โดยเรียนรู้ที่จะลงโทษเรซูเม่รวมถึงคำว่า “ผู้หญิง” จนกว่าบริษัทจะค้นพบปัญหา*

มุมมองคนข่าวในปัจจุบันคือ:

การตอบสนองทันทีของผู้คนคือ AI มีข้อบกพร่อง
AI จะมีอคติพอๆ กับข้อมูลเท่านั้น ดังนั้น AI จึงเปิดเผยว่านายหน้าของ Amazon อาจมีอคติต่อผู้ชาย
Amazon เป็นบริษัทที่กล้าหาญพอที่จะเปิดเผยข้อบกพร่องในแบบจำลองของตน บริษัทส่วนใหญ่จะไม่ทำเช่นนี้

การแก้ปัญหา

ตอนนี้ฉันต้องการหารือเกี่ยวกับวิธีทำให้อัลกอริทึมเป็นกลาง ปัญหาคือคำที่เข้ามาในเรซูเม่ของผู้หญิงมีความสำคัญน้อยกว่า เนื่องจากคำเหล่านี้จะพบเห็นน้อยลงในเรซูเม่ที่เลือก ระบบของ Amazon ได้ลงโทษเรซูเม่ที่มีคำว่า "ผู้หญิง" เช่นเดียวกับ "กัปตันชมรมหมากรุกหญิง" และลดระดับผู้สำเร็จการศึกษาจากวิทยาลัยสตรีล้วนสองแห่ง* อาจมีปัญหาเกี่ยวกับคำเกี่ยวกับชาติพันธุ์ด้วย

เนื่องจากคำเกี่ยวกับเพศและชาติพันธุ์ไม่ใช่ตัวบ่งชี้ทักษะของบุคคล เราจึงสามารถจับคู่คำเหล่านี้กับโทเค็นทั่วไป เช่น AAA ได้ ดังนั้นตอนนี้ทั้ง กัปตันชมรมหมากรุกชายและกัปตันชมรมหมากรุกหญิง ได้รับการแมปกับ กัปตันชมรมหมากรุกของ AAA ดังนั้นหาก กัปตันชมรมหมากรุกของ AAA เข้ามาถูกเลือก ผู้สมัคร ประวัติย่อของทั้งชายและหญิงจะได้รับความสำคัญเท่าเทียมกันสำหรับคำเหล่านี้ นอกจากนี้ ไม่ใช่เพียงคำเดียวเกี่ยวกับชายหรือหญิง ในขณะที่การทำเวกเตอร์เสร็จสิ้น เรายังสร้างคุณลักษณะแบบไบแกรมและไตรแกรมซึ่งจะเป็น “หมากรุกของ AAA” และ “ชมรมหมากรุกของ AAA” ในกรณีนี้ — ซึ่งจะ ก่อนหน้านี้มีคำผู้ชายและผู้หญิงที่แตกต่างกัน

ดังนั้นสิ่งที่เราต้องมีคือขั้นตอนการประมวลผลข้อความลบอคติล่วงหน้า ก่อนการสร้างเวกเตอร์ โดยเราจะจับคู่คำเกี่ยวกับเพศ/ชาติพันธุ์กับโทเค็นทั่วไป รายการคำดังกล่าวสามารถรวบรวมได้โดยการสังเกตของ HR หรือจาก "รายการ" (ไม่ใช่ทุกคำในรายการนี้ที่จะมีประโยชน์) ในความคิดของฉัน แบบฝึกหัดและการทดลองนี้ไม่ได้พิสูจน์ว่า AI มีข้อบกพร่อง แต่ให้ความกระจ่างเกี่ยวกับความรู้ทั่วไปที่ว่า AI ดีพอๆ กับข้อมูล และหากข้อมูลไม่พร้อมก็จะต้องมีการประมวลผล

ความคิดภายหลัง

เป็นเรื่องน่าเศร้าที่เห็นพวกเขาแก้ไขอคติ แต่ยกเลิกโครงการตามที่บทความกล่าวถึง - “Amazon แก้ไขโปรแกรมเพื่อให้เป็นกลางต่อข้อกำหนดเฉพาะเหล่านี้ แต่นั่นไม่ได้รับประกันว่าเครื่องจักรจะไม่คิดหาวิธีอื่นในการคัดแยกผู้สมัครที่อาจพิสูจน์ว่าเป็นการเลือกปฏิบัติ” เช่นเดียวกับงานวิจัยอื่นๆ AI ก็มีกระบวนการทำซ้ำเช่นกัน Amazon ใช้เวลาอย่างมากในการสร้างอัลกอริทึม และตอนนี้เมื่อมีการค้นพบและแก้ไขข้อบกพร่องแล้ว ก็นำไปสู่อัลกอริทึมที่ดีขึ้น มีเพียงการผ่านวงจรการปรับปรุงเหล่านี้เท่านั้นที่เราหวังว่าจะบรรลุอัลกอริธึมที่เป็นกลางและสมบูรณ์แบบ ฉันไม่แน่ใจว่าทำไม Amazon ถึงปิดตัวลง

บทความนี้ยังกล่าวถึงเรซูเม่ที่มีคำเช่น 'ดำเนินการ' และ 'จับ' ซึ่งได้คะแนนสูงผิดปกติ การทำให้อัลกอริทึมเชื่องนั้นจำเป็นต้องมีความเข้าใจเชิงลึกเกี่ยวกับทั้งอัลกอริธึมเวกเตอร์และการจัดหมวดหมู่ TF-IDF/BM25 อาจทำให้เกิดความเสียหายได้เมื่อพบคำที่ผิดปกติอย่างมากในเรซูเม่ คำที่หายากมีค่า IDF สูง ดังนั้นค่า TF-IDF จึงอาจมีค่ามาก อัลกอริธึมการจัดหมวดหมู่ยังสามารถให้น้ำหนักที่สูงมากกับคำที่ผิดปกติเหล่านี้ซึ่งนำไปสู่ผลลัพธ์ที่แปลกประหลาด คำดังกล่าวต้องค้นพบได้จากการสำรวจข้อความ ความสำคัญของคุณลักษณะโมเดล และอัลกอริธึมสำหรับการตีความโมเดล ML ที่ได้รับการฝึกอบรม เมื่อค้นพบแล้ว พวกมันสามารถถูกลบออกจากกระบวนการเวคเตอร์ไดเซชันด้วยตนเองหรือโดยตรรกะบางอย่าง หรือเพียงแค่รักษาค่าความถี่ขั้นต่ำของเอกสารให้อยู่ในระดับสูง ซึ่งจะช่วยลดจำนวนคุณลักษณะ (คำ) และช่วยแก้ปัญหาการใส่มากเกินไป แต่สิ่งนี้ยังสามารถลบคุณลักษณะที่ดีออกจากโมเดล ซึ่งสามารถลดความแม่นยำของโมเดลที่เกี่ยวข้องกับนักวิทยาศาสตร์ข้อมูลได้

ปัญหาที่คล้ายกันยังพบได้ในอัลกอริธึมการแนะนำซึ่ง Amazon ทำได้ดี ตามหลักการแล้ว ชุดข้อมูลควรมีขนาดใหญ่+หลากหลาย และควรทดสอบอัลกอริธึมอย่างแข็งแกร่ง ปัญหาเกิดขึ้นเมื่อข้อมูลการฝึกอบรมมีน้อยลง จึงมีความเหมาะสมมากเกินไปและมีอคติเริ่มเข้ามามีบทบาท วิธีเดียวที่จะลบสิ่งนี้ได้คือการมีชุดข้อมูลขนาดใหญ่ซึ่งถูกจำกัดโดยข้อมูลการจ้างงาน (ผู้สมัครที่เลือก/ไม่ได้เลือก) ของตัวเอง เราต้องประมาณปริมาณข้อมูลที่เราอาจต้องการ และอาจต้องใช้เวลากี่ปีในการเก็บรวบรวม หากต้องใช้จำนวนปีมากหรือไม่แน่ใจ ก็สมเหตุสมผลที่จะปิดโครงการ ผู้คนอาจคิดว่า AI ล้มเหลว แต่อาจเป็นปัญหาด้านข้อมูล และนั่นคือสาเหตุที่ Amazon อาจปิดระบบชั่วคราว จำได้ไหมว่าทำไมการเรียนรู้เชิงลึกจึงเริ่มทำงานกะทันหันเมื่อไม่กี่ปีก่อน? เข้าถึงข้อมูลที่ติดแท็กจำนวนมาก การคำนวณที่ดีขึ้น และปรับปรุงอัลกอริธึม

สิ่งที่ฉันคิดก็คือ Amazon ไม่เพียงแต่ค้นพบข้อบกพร่องในรูปแบบของตัวเองเท่านั้น แต่ยังพบข้อบกพร่องในโมเดลของบริษัทอื่นๆ ที่ทำงานด้านเทคโนโลยีทรัพยากรบุคคลด้วย สิ่งนี้จะนำไปสู่โซลูชันด้านทรัพยากรบุคคลที่ดีขึ้นในอีกไม่กี่วันข้างหน้า

สุดท้าย ไม่ต้องพูดถึง ความสามารถในการตีความของโมเดลการเรียนรู้ของเครื่องกลายเป็นเรื่องสำคัญ เนื่องจากการนำ AI ไปใช้แก้ปัญหาในโลกแห่งความเป็นจริงเพิ่มมากขึ้น

แจ้งให้เราทราบความคิดของคุณโดยการแสดงความคิดเห็นหรือผ่าน LinkedIn

*https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G

เผยแพร่ครั้งแรกที่ ml-dl.com เมื่อวันที่ 12 ตุลาคม 2018

ทำให้ Amazon จ้าง AI อย่างเป็นกลาง

ปัญหา

การแก้ปัญหา

ความคิดภายหลัง

คำถามในหัวข้อ