Машинное обучение может показаться совершенно чуждой концепцией, однако, даже если вы еще не углубились в понимание его многочисленных ответвлений, вы можете быть удивлены, узнав, что почти наверняка применяли алгоритм машинного обучения раньше.

Прежде чем я продолжу, важно коснуться того, что на самом деле означает обучение с точки зрения машинного обучения.

Человеческое обучение

Предположим, вы идете по парку, и вдруг к вам бежит животное. Как только вы увидите животное, вы сможете идентифицировать его как собаку, приносящую игрушку. Однако что, в частности, позволило вам сделать это отождествление? Как люди, с рождения мы учимся на опыте. Мы получаем постоянный поток информации через наши органы чувств и связываем ее с соответствующим названием или ярлыком того, что мы ощущаем. В детстве мы могли увидеть новое животное, и нам сказали, что мы видим собаку. Оттуда мы узнаем узоры или характеристики собаки, будь то четыре ноги, хвост или шерсть. Это позволяет нам обобщать новый опыт. В случае с парком вы можете впервые увидеть эту конкретную собаку. Однако мы все еще можем обобщить то, что мы знаем о собаках, чтобы уверенно обозначить то, что мы видим, как тип собаки.

В более общем смысле, для людей обучение — это процесс распознавания закономерностей или особенностей, чтобы делать точные прогнозы на будущее или собирать значимую информацию. Точно так же машинное обучение предполагает предоставление компьютеру возможности использовать прошлый опыт, чтобы собирать информацию и делать соответствующие обобщения. Однако для компьютера прошлый опыт означает просто данные, которые пользователь вводит в программу.

«Говорят, что компьютерная программа учится на опыте E в отношении некоторого класса задач T и показателя производительности P, если ее производительность при выполнении задач в T, измеряемая P, улучшается с опытом E», — Том Митчелл, Машинное обучение.

Линия наилучшего соответствия

Возможно, вы помните из школы термин «линия наилучшего соответствия». Идея довольно проста; Учитывая набор точек, вы проводите линию через эти точки, чтобы минимизировать расстояние между всеми точками и линией. Другими словами, вы пытаетесь «сопоставить» линию с данными, которые вы собрали. Линия наилучшего соответствия, наряду с возможностью увидеть силу корреляции между переменными, дает нам возможность проверить новые входные данные.

Например, на двумерном графике пользователь вводит пары (x,y) в калькулятор, после чего калькулятор применяет линию к данным. Калькулятор возвращает функцию этой строки в виде f(x)=mx+b. С помощью этой функции пользователь может затем вставить новые значения x, чтобы получить предсказанное значение y, основанное на точках, которые компьютер уже видел.

Связь с машинным обучением

Линия наилучшего соответствия — это псевдоним того, что формально называется регрессией. Регрессия, выполняемая с помощью компьютера, является одним из самых основных примеров машинного обучения. Вводя значение в уравнение нашей линии наилучшего соответствия, мы пытаемся сделать точный прогноз соответствующего результата на основе предыдущего опыта.

В одном случае входными данными для функции могут быть квадратные метры дома, а выходными данными — цена этого дома. Затем цель алгоритма состоит в том, чтобы использовать известные пары квадратных метров и цен на жилье для прогнозирования цены дома на основе новых квадратных метров.

Продолжение обучения

Какой бы простой ни казалась линия наилучшего соответствия, она идеально соответствует описанию обучения, рассмотренному нами ранее. Компьютер получает опыт в виде точек данных и впоследствии использует эти точки, чтобы делать прогнозы на будущее без явного программирования.

Машинное обучение — это большая область, охватывающая множество различных категорий и реализаций. Во второй части этой статьи мы построим регрессию и представим другую форму машинного обучения, называемую классификацией.