Понимание и уменьшение систематической ошибки в обучающих данных для проектов AI/ML

Многое изменилось в мире AI/ML, но концепция «мусора внутри; выбрасывать мусор» остается стойким. Любой алгоритм хорош настолько, насколько хороши его обучающие данные. И никакие обучающие данные не являются беспристрастными, даже те, которые генерируются с помощью автоматизации.

В прошлом многие алгоритмы машинного обучения были несправедливы по отношению к определенным религиям, расам, полу, этнической принадлежности и экономическому статусу, среди прочего. Было обнаружено, что суперкомпьютер Watson от IBM, который давал советы врачам, используя набор данных медицинских исследований, отдавал предпочтение только авторитетным исследованиям. Было обнаружено, что алгоритм рекрутинга Amazon отдает предпочтение мужчинам, а не женщинам. COMPAS, алгоритм оценки риска, используемый многими судьями штатов США для помощи в вынесении приговора, оспаривался из-за того, что чернокожим приписывался более высокий фактор риска повторного совершения насильственных преступлений. В 2016 году однодневный эксперимент Microsoft с чат-ботом в Твиттере (который узнал из других твитов) закончился плохо, когда бот за 16 часов опубликовал 95 000 твитов, большинство из которых были наполнены женоненавистничеством, расизмом и антисемитскими идеями.

Но вот в чем дело — алгоритмы не являются неэтичными, расистскими или морально ущербными. Однако данные, на которых они обучаются, — это совсем другая история.

Предвзятость в данных сложна

Смещение может повредить данные на нескольких соединениях. Он может проникнуть в безобидный набор данных во время сбора, агрегирования данных, выбора модели или даже интерпретации конечным пользователем. На самом деле, почти нормально предположить, что не существует данных без той или иной систематической ошибки. Это может быть вызвано внешним предубеждением со стороны тренера-человека. Или это может появиться в результате чрезмерного упрощения или неудовлетворительного представления какой-либо группы в наборе данных.

Основная причина не всегда очевидна. Но эффект есть!

Влияние предвзятости данных на машинное обучение

Предвзятый набор данных несбалансирован. Он не может представить первоначальный мотив модели машинного обучения. Его результаты неточны, его решения предвзяты, а уровень его точности может варьироваться в зависимости от контекста, что противоречит цели модели.

COMPAS (профилирование управления исправительными преступниками для альтернативных санкций) — очень популярный пример разветвлений самодостаточного алгоритма, обученного на необъективных данных. Он использует анкету для оценки правонарушителей по различным параметрам и прогнозирует вероятность повторного совершения ими преступления. Этот прогноз используется судьями во многих штатах и ​​юрисдикциях США для вынесения приговоров.

После нескольких сомнительных решений, различных вопросов о его целостности и нескольких судебных исков ProPublica изучила факторы оценки риска алгоритма и обнаружила две основные нелепости.

Точность прогноза ниже 20%

В 2 раза больше случаев неправильной маркировки в случае чернокожих правонарушителей

COMPAS — это всего лишь один пример, демонстрирующий вполне реальные последствия, которые могут возникнуть у человека из-за предвзятой модели машинного обучения. Последствия масштаба реализации любой модели AI/ML напрямую зависят от характера обучения, которое получает алгоритм, и, следовательно, от службы аннотации данных, которая создает указанный набор данных.

Типы предвзятости данных

Выборочное смещение:

Смещение выборки (или выборки) вводится в систему, когда подгруппа данных исключается при ее изучении случайно или сознательно. Такой образец не будет действительно отражать предполагаемую наблюдаемую среду и приведет к неточным результатам.

Например, рассмотрим набор данных, в котором изучаются данные о населении местности за 15 лет, чтобы помочь спрогнозировать срок владения новым арендатором. Предвзятость может быть введена, если мы ошибочно интерпретируем 15-летний срок как абсолютный и исключаем из нашего исследования любого арендатора, который проживал в этом районе меньше этого срока. Исключение таких данных делает модель неэффективной, поскольку она не будет обучаться для каждого возможного случая.

Смещение алгоритма:

Алгоритмическое смещение — это систематическая ошибка, которая приводит к некачественным вычислениям. Это может быть ранее существовавшая проблема или возникнуть из-за ограничений программы или ограничений дизайна. Алгоритмическая предвзятость также может проявляться, если конкретный алгоритм используется в среде, для которой он не обучен.

Например, рассмотрим любую автоматическую программу проверки на плагиат, которая сравнивает строки длиной более трех слов с набором контента и возвращает коэффициент сходства. Если целевой контент вращается, а слова заменяются синонимами, точность алгоритма падает.

Предвзятое отношение:

Предрассудки имеют широкий диапазон. Это идет от региональных терминологических различий до более глубокой дискриминации по признаку расы, религии, пола, сексуальности и т. д. Предубежденная предвзятость в наборе данных возникает из-за точки зрения тренеров данных.

Например, команда по маркировке данных в Великобритании просматривает фотографии женских кошельков и помечает их как кошельки. Для получателей данных в США эта модель приведет к неэффективным результатам, потому что «кошелек» в Штатах относится к женской сумочке, а не к кошельку.

Смещение измерения:

Погрешность измерения возникает из-за проблем с измерением или сбором данных. Такая деформация может быть результатом неправильной классификации, использования различных инструментов для сбора данных или основных ошибок аннотаций.

Например, рассмотрим поставщика службы аннотирования изображений, работающего над проектом по маркировке транспортных средств для проекта автоматизированного вождения. Если в наборе данных есть только изображения транспортных средств на дороге, но нет пешеходов или бродячих животных, инструктору больше нечего будет маркировать. Окончательные помеченные данные и обучение, которое они передают модели ML, будут очень неэффективными.

Ошибка исключения:

Во время очистки взвешиваются несколько признаков набора данных, а второстепенные часто удаляются. Однако, если мы придаем низкое значение какой-либо функции, которая в остальном значима, мы можем в конечном итоге создать набор данных с несколькими недопредставленными разделами, что приведет к предвзятой модели.

Например, рассмотрим набор предменопаузальных симптомов у женщин, 90 % из которых белые, а 10 % – латиноамериканки. Вполне вероятно, что 10% игнорируются, потому что их симптомы не признаются основными. Полученный алгоритм будет с меньшей вероятностью диагностировать латиноамериканских женщин, нуждающихся в помощи.

Отзыв смещения:

Ошибка припоминания также включается в данные во время сбора. Если поставщик данных предлагает оценочное значение вместо точного, это пошатнет общую точность набора. Таким образом, мы можем считать это типом систематической ошибки измерения.

Но пример прямого смещения припоминания в аннотации данных можно наблюдать в случаях, когда данные метки тренера, основанные на приближении и несоответствии, повторяются достаточно раз, чтобы сделать данные ненадежными для определенной функции.

Предвзятость наблюдателя:

Инструктор может спроецировать свое мнение о конкретной функции данных в набор данных во время маркировки, что приведет к предвзятости наблюдателя.

Два человека, маркирующие один и тот же набор изображений, могут получить разные результаты. Например, несмотря на инструкции пометить изображение как лодки или не лодки, тренер может пометить одну лодку как яхту, а другую как корабль, нарушая согласованность результирующего набора данных.

Предвзятость наблюдателя также является очень распространенным явлением в службах текстовых аннотаций. Документы, которые мы представляем поставщику, могут попасть в список задач разных людей в разных регионах. Они могут по-разному воспринимать почерк и, таким образом, создавать поразительное несоответствие в наборе данных.

Смещение представления:

Если мы возьмем две похожие ситуации и предскажем исход одной на основе исхода другой только на основании сходства, это приведет к предвзятости репрезентации. Предвзятость репрезентации воплощена в популярной фразе: «корреляция не подразумевает причинно-следственную связь».

Например, если алгоритм оценивает оценки учащихся и предсказывает, что те, у кого одинаковые оценки, поступят в определенный колледж, потому что некоторые из них поступили, этот прогноз будет иметь низкую степень точности.

В то же время, если мы обучаем алгоритм исключительно на наборе данных, который не имеет одинакового представления для всех групп в предполагаемой среде алгоритма, это также вызовет смещение. Например, если мы обучим алгоритм на лицах сотрудников с набором данных только белых мужчин, у него возникнут проблемы с обнаружением более темного цвета кожи или женщин с более короткими волосами и т. д.

Выявление и обработка предвзятости в обучающих наборах данных для машинного обучения

Эти примеры доказывают, что систематические ошибки разнообразны по своей природе и могут появиться в выборке в любой момент ее существования. Многие предубеждения не очевидны. Многие настолько перемешаны с другими процессами, что их идентификация кажется неразрешимой задачей.

Существует несколько предложенных методов построения моделей машинного обучения с учетом справедливости. Было разработано и исследовано множество подходов, каждый из которых соответствует разным контекстам, чтобы уменьшить погрешность в обучающих данных для машинного обучения. Большинство из них сводятся к одному: важно быть внимательным и любопытным на каждом шагу.

1. Подвергните сомнению предубеждения

Модель машинного обучения учится на исторических решениях и их намерениях, если намерение известно. Следовательно, если лицо, принимающее решения в прошлом, проявляло какие-либо предубеждения в своих записанных решениях, модель ML рискует отразить их.

Если во время аннотации данных тренер пометит изображения сибирских хаски и шведского валлхунда как волков, модель научится делать то же самое. Если последние 20 наймов в компании были для 19 мужчин и 1 женщины, модель машинного обучения, учитывающая эти данные о принятии решений, скорее всего, отбросит больше резюме от женщин, чем от мужчин.

Поэтому на каждом этапе подготовки обучающих данных важно задаваться вопросом, откуда поступают данные, чье восприятие повлияло на более ранние решения и какие изменения необходимо внести в данные соответственно, чтобы очистить их для целей обучения.

2. Искорените предвзятость

Эта идея сложна; его реализация тем более.

Для устранения предубеждений требуется почти исчерпывающее понимание предубеждений, которые могли исказить данные. Но, в зависимости от цели модели машинного обучения, искоренение потенциального восприятия, вызывающего предвзятость, может варьироваться от нормального до очень сложного.

Вы можете замечать проблемы в организационных процессах и исправлять их. Но при обучении модели на нескольких динамических параметрах возникнет много новых проблем. Если, например, ваша модель машинного обучения использует сообщения в социальных сетях от сотни человек для определения их оценки возможности трудоустройства, это может быть несправедливо по отношению к потенциальным клиентам из стран, чей родной язык не английский, или из слаборазвитых стран.

Поэтому, несмотря на все наши попытки выявить потенциальную предвзятость и искоренить ее, предпочтительнее проверить вывод и проверить его эффективность.

3. Не отпускайте надзор

Алгоритм, работающий для одного набора данных, вряд ли будет работать с расширенной версией тех же данных. Возможно, если мы продолжим тестировать систему с моделями-претендентами и проверим точность ее прогнозов, прозрачность и скорость улучшения.

Несмотря на все это, предположение о самодостаточности любой модели машинного обучения является ошибкой. По мере изменения данных, предполагаемой среды и целевой задачи будет меняться и уровень точности.

На данный момент предвзятость в моделях машинного обучения, основанных на реальном мире, останется серьезной проблемой для ИИ

Несмотря на несколько разумных подходов к справедливости, модели машинного обучения останутся неудовлетворительными в той или иной области. Невозможно ожидать, что одна модель удовлетворит множеству динамических ограничений и одновременно сохранит точность предсказания. Нам нужно будет сделать выбор, исходя из контекста.

Однако в настоящее время создание достаточно честных данных для обучения машинному обучению в основном зависит от аннотирования и обработки данных. Надеюсь, в ближайшем будущем у нас появятся более конкретные способы создания достоверных наборов данных.

Также читайте:

Почему лучше отдать аннотацию данных на аутсорсинг?

Почему аутсорсинг услуг видеоаннотации выгоден для бизнеса?