“Berita” tentang bias gender dalam algoritme perekrutan Amazon tersebar luas di internet dan hal ini telah membuka topik baru dalam topik interpretasi model pembelajaran mesin. Izinkan saya memberi Anda latar belakang cerita tersebut. Amazon memiliki jumlah karyawan minimal 575700. Jika masa kerja rata-rata seorang karyawan adalah 3 tahun, mereka perlu merekrut (191900 + peningkatan jumlah karyawan) setiap tahun. Jika 1 seleksi dilakukan dari setiap 5 wawancara kandidat dan 1 kandidat dipilih dari setiap 3 resume, mereka perlu memeriksa 191900*3*5 = 2878500 jumlah resume setiap tahun meskipun jumlah karyawannya tetap sama. Angka-angka ini — 3 dan 5 — akan bervariasi untuk profil yang berbeda karena petugas pengiriman lebih mudah untuk dipekerjakan dibandingkan dengan insinyur, namun jangan membuat perhitungan ini menjadi rumit jika tidak perlu. Tujuannya adalah untuk mengukur seberapa besar jumlah ini dan berapa banyak upaya dan sumber daya yang dihabiskan untuk mencapainya.

Jika Anda pernah melakukan wawancara, Anda pasti setuju betapa membosankannya memfilter resume — terutama jika itu pekerjaan Anda. Ini adalah pekerjaan berbasis pola yang berulang – sesuatu yang sangat baik dilakukan oleh AI. Oleh karena itu, sangat masuk akal bagi perusahaan raksasa inovatif seperti Amazon untuk memahami praktik perekrutan mereka dan menirunya dengan algoritme. Karena resume dan deskripsi pekerjaan adalah data teks — kita perlu memanfaatkan NLP (Natural Language Processing).

Jika saya harus membuat algoritmenya sendiri, saya akan menggunakan pipeline ini dan mungkin Amazon juga melakukannya.

  • Teks resume pra-proses
  • "Vektorisasi" teks dengan TF-IDF atau "BM25"
  • Latih pengklasifikasi yang diawasi untuk profil logistik dan teknik tingkat awal yang sangat berulang. Kita juga bisa melakukannya untuk profil non-entry level jika datanya cukup. Pengklasifikasi dapat berupa apa saja seperti model urutan Naive-Bayes, RandomForest atau Deep learning dan kategori untuk klasifikasi dipilih dan tidak dipilih
  • Memprediksi kemungkinan resume baru dipilih
  • Filter resume yang lebih dari probabilitas cutoff seperti 0,8
  • Pilih profil x teratas berdasarkan probabilitas untuk wawancara di mana x bergantung pada jumlah kandidat yang ingin kita rekrut dan rasio konversi sebelumnya

Pendekatan lain untuk hal ini dapat dilakukan dengan melakukan pencocokan kesamaan resume dengan deskripsi pekerjaan oleh Lucene/Elasticsearch dan memilih hasil k teratas dengan skor kesamaan batas. Hasil teratas memastikan kecocokan untuk JD dan bukan seberapa cocok mereka untuk peran tersebut dan oleh karena itu pendekatan ini sangat tidak tepat.

Masalah

Sekarang mari kita selidiki apa yang menjadi berita: mesin perekrutan baru mereka tidak menyukai perempuan. Perusahaan-perusahaan teknologi terkemuka di AS masih belum bisa menutup kesenjangan gender dalam perekrutan, kesenjangan yang paling menonjol di antara staf teknis seperti pengembang perangkat lunak di mana jumlah laki-laki jauh lebih banyak daripada perempuan. Mesin perekrutan eksperimental Amazon mengikuti pola yang sama, belajar memberikan sanksi pada resume yang menyertakan kata “perempuan” hingga perusahaan menemukan masalahnya*.

Pandangan orang-orang terhadap berita saat ini adalah:

  1. Tanggapan langsung dari orang-orang adalah bahwa AI memiliki kelemahan.
  2. AI hanya akan menjadi bias seperti halnya data. Oleh karena itu AI telah mengungkapkan bahwa perekrut Amazon mungkin bias terhadap laki-laki.
  3. Amazon adalah perusahaan yang cukup berani untuk mengungkapkan kelemahan dalam model mereka. Kebanyakan perusahaan tidak akan melakukan hal ini.

Solusi untuk masalah tersebut

Sekarang saya ingin membahas bagian bagaimana membuat algoritma tidak bias. Permasalahannya adalah rendahnya tingkat kepentingan kata-kata yang muncul dalam resume perempuan karena kata-kata tersebut lebih sedikit terlihat dalam resume terpilih. Sistem Amazon menghukum resume yang menyertakan kata “wanita”, seperti dalam “kapten klub catur wanita”. dan menurunkan peringkat lulusan dari dua perguruan tinggi khusus perempuan*. Ada juga masalah yang berkaitan dengan kata-kata etnis.

Karena kata-kata gender dan etnis bukan merupakan indikator keterampilan seseorang, kita dapat memetakan kata-kata ini ke dalam tanda umum seperti AAA. Jadi sekarang Kapten klub catur Putra dan kapten klub catur Wanita dipetakan ke kapten klub catur AAA. Jadi, jika kapten klub catur AAA masuk dalam pilihan kandidat, baik resume pria maupun wanita akan dianggap sama pentingnya dengan kata-kata ini. Juga, ini bukan hanya tentang satu kata pria atau wanita. Sementara proses vektorisasi selesai, kami juga membuat fitur bi-gram dan tri-gram yang akan menjadi “catur AAA” dan “klub catur AAA” dalam hal ini — yang akan sudah berbeda tadi yang mengandung kata laki-laki dan perempuan.

Jadi yang kita butuhkan hanyalah langkah pra-pemrosesan teks penghapusan bias sebelum vektorisasi, yaitu dengan memetakan kata-kata gender/etnis ke dalam token umum. Daftar kata-kata tersebut dapat dikumpulkan melalui observasi HR atau dari daftar (tidak semua kata dalam daftar ini berguna). Menurut pendapat saya, latihan dan eksperimen ini tidak membuktikan bahwa AI memiliki kelemahan, namun menyoroti pengetahuan umum bahwa AI sama baiknya dengan data dan jika data belum siap, maka memerlukan pemrosesan.

renungan

Sangat menyedihkan melihat mereka mengatasi bias tersebut namun membuang proyek tersebut seperti yang disebutkan dalam artikel tersebut — “Amazon mengedit program untuk menjadikannya netral terhadap ketentuan khusus ini. Tapi itu bukan jaminan bahwa mesin tersebut tidak akan menemukan cara lain untuk memilah kandidat yang terbukti diskriminatif.” Seperti semua penelitian, AI juga bersifat iteratif. Amazon menghabiskan banyak waktu untuk membuat algoritme tersebut dan kini setelah kelemahan tersebut ditemukan dan diperbaiki, hal tersebut telah menghasilkan algoritme yang lebih baik. Hanya dengan melalui siklus perbaikan ini kita dapat berharap untuk mencapai algoritma yang hampir sempurna dan tidak memihak. Saya tidak yakin mengapa Amazon menutupnya.

Artikel tersebut juga menyebutkan resume yang berisi kata-kata seperti 'dieksekusi' dan 'ditangkap' mendapat skor yang sangat tinggi. Menjinakkan algoritma memerlukan pemahaman mendalam tentang vektorisasi dan algoritma klasifikasi. TF-IDF/BM25 dapat menyebabkan kekacauan ketika melihat kata yang sangat tidak biasa di resume. Sebuah kata langka memiliki nilai IDF yang tinggi sehingga nilai TF-IDF bisa menjadi besar. Algoritme klasifikasi juga dapat memberikan bobot yang sangat tinggi pada kata-kata yang tidak biasa ini sehingga menghasilkan hasil yang aneh. Kata-kata seperti itu harus ditemukan melalui eksplorasi teks, pentingnya fitur model, dan algoritme untuk menafsirkan model ML yang dilatih. Setelah ditemukan, mereka dapat dihapus dari proses vektorisasi secara manual atau dengan logika tertentu atau hanya dengan menjaga nilai frekuensi dokumen minimum yang tinggi. Ini membantu mengurangi jumlah fitur (kata) dan membantu mengatasi overfitting. Namun hal ini juga dapat menghilangkan fitur-fitur bagus dari model yang dapat menurunkan keakuratan model yang menjadi perhatian data scientist.

Masalah serupa juga ditemukan dalam algoritma rekomendasi yang Amazon kuasai. Idealnya, kumpulan data harus berukuran besar+bervariasi dan algoritme harus diuji secara kuat. Masalah muncul ketika data pelatihan lebih sedikit sehingga overfitting dan bias mulai terjadi. Satu-satunya cara untuk menghilangkan hal ini adalah dengan memiliki kumpulan data besar yang dibatasi oleh data perekrutannya sendiri (kandidat terpilih/tidak terpilih). Kita perlu memperkirakan berapa banyak data yang mungkin kita perlukan dan berapa tahun waktu yang dibutuhkan untuk mengumpulkannya. Jika tahun-tahun yang diperlukan terlalu lama atau tidak pasti, masuk akal untuk menutup proyek tersebut. Orang-orang mungkin berpikir AI telah gagal, tetapi mungkin ini adalah masalah data dan itulah sebabnya Amazon mungkin menutupnya untuk saat ini. Ingat mengapa pembelajaran mendalam mulai berhasil secara tiba-tiba beberapa tahun yang lalu? Akses ke sejumlah besar data yang diberi tag, komputasi yang lebih baik, dan peningkatan algoritme.

Pendapat saya adalah mungkin Amazon tidak hanya menemukan kelemahan pada modelnya sendiri tetapi juga pada model perusahaan lain yang bekerja di bidang teknologi SDM. Hal ini akan menghasilkan solusi SDM yang lebih baik dalam beberapa hari mendatang.

Dan yang terakhir, interpretasi model pembelajaran mesin menjadi sangat penting seiring dengan meningkatnya penerapan AI dalam permasalahan dunia nyata.

Beri tahu saya pendapat Anda dengan berkomentar atau melalui LinkedIn.

*https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G

Awalnya diterbitkan di ml-dl.com pada 12 Oktober 2018.