Машинное обучение — это не волшебство: сопоставление наборов данных и проблемных пространств, часть. 2

В прошлый раз мы говорили о том, как плохое предварительное планирование, неправильные предположения и зацикленность на использовании машинного обучения определенным образом могут обречь инициативу в области машинного обучения на провал. В этом выпуске давайте поговорим о том, как подход к инициативе по машинному обучению как к научному проекту, в котором вы сосредотачиваетесь на проблеме и исследуете способы ее решения (среди которых ML будет лишь одним из них), может приводят к отличным результатам, даже если окончательное решение не соответствует первоначальному плану.

Эффективное решение › модель машинного обучения

У этого примера «более счастливый конец», но он начинается примерно так же: клиент хочет прогнозирующую модель, но имеет неполный набор данных, но с добавленной оговоркой, что он знает о некоторых пробелах в своем наборе(ах) данных. и надеются, что мы сможем использовать ML для их заполнения, они также знают, что нам понадобится набор исторических данных, и готовы дождаться, пока мы агрегируем эти данные. То есть собирать данные об их ежедневных бизнес-операциях в течение нескольких недель.

Я скептически относился к тому, что мы сможем заполнить эти пробелы, поэтому, пока инженеры по обработке данных создавали набор данных, мы с другим специалистом по данным провели небольшое исследование того, как аналогичные компании решили эту проблему. Мы даже копались в оперативных отчетах, годовых отчетах и тому подобном, чтобы узнать, собирают ли другие группы внутри компании необходимые нам данные. Результатом всех этих исследований стало то, что мы смогли определить тип данных и дополнительные возможности сбора данных, которые нам потребуются для решения проблемы клиента.

Представив наши выводы заинтересованным сторонам, они немного покопались в компании и помогли нам организовать встречу трех разных команд, чтобы обсудить, как они могут лучше обмениваться информацией и работать вместе. Началось немного непросто, так как исторически эти группы не очень хорошо работали вместе, но как только все сосредоточились, мы заключили соглашения об обмене данными, отправке оповещений между группами, предоставлении доступа к базам данных и т. д. В конце концов мы не сделали этого. Мы не смогли реализовать основные элементы нашего ТЗ, а именно: модель МО и интеграцию ее результатов в существующие системы, несмотря на это, у нас был клиент, который с радостью оплатил наш счет. Почему? Поскольку мы решили его проблему, а он действительно этого хотел, МО было потенциальным средством достижения цели, а не…

Машинное обучение — это не волшебство: сопоставление наборов данных и проблемных пространств, часть. 2

Вопросы по теме