Делаем Amazon Hiring AI беспристрастным

Новости о предвзятости по признаку пола в алгоритме найма Amazon разлетелись по всему Интернету, и это открыло новую тему на тему интерпретируемости моделей машинного обучения. Позвольте мне дать вам фон этой истории. Штат Amazon составляет не менее 575700 человек. Если средний срок работы сотрудника составляет 3 года, его необходимо нанимать (191900 + увеличение численности персонала) каждый год. Если 1 кандидат выбирается из каждых 5 собеседований с кандидатами и 1 кандидат выбирается из каждых 3 резюме, им необходимо проверять 191900*3*5 = 2878500 резюме каждый год, даже если численность персонала остается прежней. Эти цифры — 3 и 5 — будут различаться для разных профилей, так как курьеров легче нанять, чем инженеров, но не будем излишне усложнять этот расчет. Суть в том, чтобы оценить, насколько большим может быть это число и сколько усилий и ресурсов затрачено на него.

Если вы когда-либо проходили собеседования, вы согласитесь, насколько скучной может быть фильтрация резюме, особенно если это ваша работа. Это повторяющаяся работа, основанная на шаблонах — в этом ИИ очень хорош. Следовательно, для инновационной гигантской компании, такой как Amazon, имеет смысл понять свои собственные методы найма и воспроизвести их с помощью алгоритмов. Поскольку резюме и описание работы представляют собой текстовые данные, нам нужно использовать NLP (обработку естественного языка).

Если бы мне пришлось создавать алгоритмы самому, я бы использовал этот пайплайн, и, вероятно, так поступила и Amazon.

Предварительная обработка текста резюме
Векторизация текста с помощью TF-IDF или BM25
Обучите контролируемого классификатора очень повторяющимся профилям начального уровня в области логистики и инженерии. Мы также можем сделать это для профилей не начального уровня, если данных достаточно. Классификатор может быть любым, например моделью Naive-Bayes, RandomForest или глубокого обучения, а категории для классификации выбираются и не выбираются.
Прогнозировать вероятность отбора новых резюме
Фильтровать возобновления, которые превышают пороговую вероятность, например 0,8.
Выберите x лучших профилей по вероятности для собеседования, где x зависит от количества кандидатов, которых мы хотим нанять, и прошлых коэффициентов конверсии.

Другой подход к этому может заключаться в сопоставлении резюме с описанием работы Lucene/Elasticsearch и выборе k лучших результатов с пороговым показателем сходства. Лучшие результаты обеспечивают соответствие для JD, а не для того, насколько они подходят для этой роли, и, следовательно, этот подход не очень подходит.

Проблема

Теперь давайте углубимся в то, о чем были новости: их новый рекрутинговый механизм не любил женщин. Ведущим американским технологическим компаниям еще предстоит сократить гендерный разрыв при приеме на работу, а это неравенство наиболее заметно среди технического персонала, такого как разработчики программного обеспечения, где мужчин намного больше, чем женщин. Экспериментальный механизм рекрутинга Amazon следовал той же схеме, научившись наказывать резюме, включающее слово «женщина», до тех пор, пока компания не обнаружила проблему*.

Текущие взгляды людей на новости:

Немедленной реакцией людей было то, что ИИ несовершенен.
ИИ будет так же предвзят, как и данные. Следовательно, ИИ показал, что рекрутеры Amazon могут предвзято относиться к мужчинам.
Amazon — компания, достаточно смелая, чтобы раскрыть недостаток своей модели. Большинство компаний не стали бы этого делать.

Решение проблемы

Теперь я хочу обсудить часть того, как сделать алгоритм беспристрастным. Проблема заключается в меньшей важности слов, которые появляются в резюме женщин, потому что эти слова реже встречаются в избранных резюме. Система Amazon штрафовала резюме, содержащее слово «женское», например «капитан женского шахматного клуба». и понизил рейтинг выпускников двух женских колледжей*. Также могут быть проблемы, связанные со словами этнической принадлежности.

Поскольку слова пола и этнической принадлежности не являются показателем навыков человека, мы можем сопоставить эти слова с общим токеном, таким как AAA. Таким образом, теперь и капитан мужского шахматного клуба, и капитан женского шахматного клуба сопоставляются с капитаном шахматного клуба AAA. Таким образом, если капитан шахматного клуба AAA выбирался кандидаты, как мужчины, так и женщины резюме будут иметь одинаковое значение для этих слов. Кроме того, речь идет не только о мужчинах или женщинах, состоящих из одного слова. Пока выполняется векторизация, мы также создаем биграммные и триграммные объекты, которые в данном случае будут «шахматы ААА» и «шахматный клуб ААА». ранее были разными, содержащими слова «мужчины» и «женщины».

Итак, все, что нам нужно, — это этап предварительной обработки текста для устранения предвзятости перед векторизацией, где мы сопоставляем слова пола/этнической принадлежности с общим токеном. Список таких слов можно собрать по наблюдению HR или из списка (не все слова в этом списке полезны). На мой взгляд, это упражнение и эксперимент не доказывают, что ИИ несовершенен, но проливают свет на общеизвестное мнение, что ИИ так же хорош, как и данные, и если данные не готовы, их необходимо обработать.

Запоздалые мысли

Печально видеть, что они устранили предвзятость, но отказались от проекта, как упоминается в статье: «Amazon отредактировала программы, чтобы сделать их нейтральными по отношению к этим конкретным терминам. Но это не гарантировало, что машины не придумают другие способы сортировки кандидатов, которые могут оказаться дискриминационными». Как и все исследования, ИИ также носит итеративный характер. Amazon потратила много времени на создание алгоритма, и теперь, когда ошибка обнаружена и устранена, алгоритм стал лучше. Только пройдя через эти циклы улучшения, мы можем надеяться получить почти идеальный беспристрастный алгоритм. Я не уверен, почему Amazon закрыл его.

В статье также упоминаются резюме, содержащие такие слова, как «казнен» и «захвачен», получившие необычно высокие оценки. Приручение алгоритма требует глубокого понимания как векторизации, так и алгоритма классификации. TF-IDF/BM25 может вызвать хаос, когда увидит очень необычное слово в резюме. Редкое слово имеет высокое значение IDF, поэтому значение TF-IDF может оказаться большим. Алгоритм классификации также может придавать очень высокий вес этим необычным словам, что приводит к странным результатам. Такие слова должны быть обнаружены путем исследования текста, важности функций модели и алгоритмов интерпретации обученных моделей ML. После обнаружения их можно удалить из процесса векторизации вручную или по определенной логике, или просто сохранив высокое значение минимальной частоты документов. Это помогает уменьшить количество функций (слов) и помогает вылечить переоснащение. Но это также может удалить из модели хорошие функции, что может снизить точность модели, которая касается специалиста по данным.

Подобные проблемы встречаются и в алгоритмах рекомендаций, в которых хорошо разбирается Amazon. В идеале набор данных должен быть огромным + разнообразным, а алгоритм должен быть надежно протестирован. Проблемы возникают, когда данных для обучения меньше, и, следовательно, в игру начинают вступать переобучение и систематическая ошибка. Единственный способ устранить это — иметь огромный набор данных, который ограничен собственными данными о найме (выбранный/невыбранный кандидат). Нам нужно оценить, какой объем данных нам может понадобиться и сколько лет может потребоваться для их сбора. Если требуемые годы велики или неопределенны, имеет смысл закрыть проект. Люди могут подумать, что ИИ потерпел неудачу, но это может быть проблема с данными, и поэтому Amazon, возможно, закрыл его на данный момент. Помните, почему глубокое обучение внезапно начало работать несколько лет назад? Доступ к большому количеству размеченных данных, улучшенные вычисления и улучшение алгоритмов.

Я считаю, что, вероятно, Amazon обнаружила недостатки не только в своей собственной модели, но и в моделях других компаний, работающих в области HR-технологий. Это приведет к лучшим HR-решениям в ближайшие дни.

Наконец, не говоря уже о том, что интерпретируемость моделей машинного обучения стала критически важной по мере все более широкого применения ИИ для решения реальных задач.

Дайте мне знать ваши мысли в комментариях или через LinkedIn.

* https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G

Первоначально опубликовано на ml-dl.com 12 октября 2018 г.

Делаем Amazon Hiring AI беспристрастным

Проблема

Решение проблемы

Запоздалые мысли

Вопросы по теме