Майнинг общего приложения: часть 1

Индустрия, построенная вокруг приема в колледжи, довольно насыщена - от частных «элитных» преподавателей в Азии до глобальных центров подготовки к тестам, таких как Kaplan, и даже до торговых площадок в стиле TaskRabbit для «консультационных услуг по эссе» (читай: скрытого плагиата). Тем не менее, репетиторы, учителя и консультанты, похоже, еще не взломали код приема. Существует ли вообще волшебная формула? Скорее всего, нет, но в приемных комитетах, скорее всего, существуют правила принятия решений, о которых мы мало что знаем, и, безусловно, есть лежащие в основе отношения между приемами и отрицаниями, из которых мы можем извлечь уроки.

Для моего заключительного проекта в Galvanize мне посчастливилось работать с AdmitSee, онлайн-ресурсом для поступления в колледж, где будущие студенты могут просматривать профили и эссе реальных поступивших студентов. Обладая этими уникальными данными, я решил ответить на два ключевых вопроса:

I) Можем ли мы создать лучшую прогностическую модель, чем существующие калькуляторы вероятностей для поступления в колледж?

II) Какие идеи мы можем почерпнуть из эссе Common App, как на индивидуальном, так и на совокупном уровне?

Этот пост отвечает на первый вопрос. Часть II можно найти здесь.

Одна модель, чтобы превзойти их всех

Для начала давайте проясним, что на самом деле нет отличного способа проверить, лучше или хуже новая модель, чем любой из существующих калькуляторов (например, StatFuse, Cappex), поскольку для этого потребуется i) делать тысячи прогнозов для реальных студентов с помощью этих калькуляторов; ii) ожидание потенциально месяцев, прежде чем эти студенты получат результаты зачисления, и iii) вычисление точности для каждой модели. Не говоря уже о получении их согласия на запись всего. Провести такой тест в принципе невозможно; однако мы знаем, что все эти модели приблизительно используют одни и те же входные факторы: результаты SAT / ACT, средний балл, демографические данные… базовую информацию, которую вы ожидаете. Если мы предположим, что производительность этих моделей также примерно одинакова, то добавление дополнительных измерений информации, то есть новых функций, вероятно, даст лучшие результаты.

Ограничение проблемы

После того, как я провёл разделение на тренировку с моим набором данных, у меня было около 12 тысяч студентов, с которыми мне пришлось работать. Среди них даже школ с наибольшим количеством данных было не более нескольких сотен. Поскольку моделирование на школьном уровне было бы потенциально неточным, я решил ограничить задачу предсказанием единственного бинарного результата: поступления в «лучшую школу». Другими словами, если учащийся был принят в любую из «лучших школ» (определяемых как Ivies, Stanford и MIT), переменная результата равна 1, в противном случае - 0.

Построение модели ансамбля

Вот упрощенное визуальное представление того, как я построил свою ансамблевую модель. Начав с набора примерно из 50 необработанных областей, я разработал несколько потенциально полезных предикторов, таких как участие в спортивных состязаниях, получение награды, занятие руководящей должности и т. Д. Что касается эссе, я использовал методы НЛП, чтобы найти распределение тем каждого эссе (я расскажу подробнее о том, как это было сделано в следующем посте). Кроме того, я создал переменную под названием word_sophistication, показывающую, сколько «причудливых» слов студент использовал в своем эссе (измеряется как общее количество сложных слов / общее количество слов). Можно предположить, что обе крайности отрицательно коррелируют с результатами поступления: нулевое значение может указывать на недостаток словесного мастерства, в то время как высокое значение может указывать на болтливого писателя, чрезмерно яркого в своем лексическом многословии (извините за иронию). Если это так, оптимум должен существовать где-то в этом спектре - тогда мы позволяем красоте машинного обучения взять верх, чтобы найти эту точку / диапазон.

Оценка модели (ей)

Чтобы оценить модель, я поговорил с ребятами из AdmitSee, и мы согласились, что точность будет наиболее подходящей метрикой для оценки успеха модели здесь (см. отступление 1 ниже для подробнее о показателях классификатора). Модели, которые ставят во главу угла точность, как правило, более консервативны в своих оценках вероятности, что довольно хорошо согласуется с целью AdmitSee по поощрению студентов использовать их продукт, даже если они могут быть «звездными студентами» с самого начала.

Кривая рабочих характеристик приемника (ROC) иллюстрирует производительность модели при изменении порогового значения, при котором мы различаем два класса. В основном цель состоит в том, чтобы максимизировать площадь под кривой. На графике ниже мы сравниваем производительность четырех моделей: i) логистическая регрессия, ii) случайный лес, iii) базовая модель ансамбля [LR + RF], iv) большой ансамбль, который строится на базовом ансамбле и объединяет его с новая модель, которая включает в себя элементы эссе. Игнорируя LR, в то время как область под кривыми выглядит визуально неразличимой, Grand Ensemble выигрывает с точностью 62,8 (по сравнению с 61,9 и RF 57,7 у Ensemble).

Кроме того, 1. Эффективность классификатора

В предыдущем посте, который я написал на тему Обучение с учителем, я кратко коснулся ошибок типа I по сравнению с ошибками типа II, и что можно было бы минимизировать одну ошибку над другой в зависимости от ситуации. Это напряжение также можно понять, взглянув на показатели успеха для оценки работы классификатора. Три самых распространенных - это "Точность", "Точность" и "Отзыв".

Точность = правильно спрогнозированные точки данных / общее количество точек данных

Точность = правильно предсказанные положительные результаты / всего прогнозируемые положительные результаты

Напомним = правильно предсказанные положительные результаты / всего истинно положительные результаты

Другими словами, точность измеряет, сколько точек данных вы точно спрогнозировали, независимо от класса (+/-); точность измеряет, сколько точек данных было фактически положительным на основе всех точек данных, которые вы определили как положительные; отзыв измеряет, сколько точек данных вы пометили как положительные, основываясь на фактических положительных точках. Важно отметить, что между точностью и запоминанием существует неизбежный компромисс: увеличение одного происходит за счет другого.

Интерпретация модели

Оптимизация точности - это здорово, но что, если бы мы хотели знать, как каждая переменная влияет на ваши шансы на поступление? Вот где сияет логистическая регрессия. Несмотря на более слабые характеристики, его легко интерпретировать. Более конкретно, мы можем использовать показатель степени коэффициентов, чтобы понять предельное влияние каждого признака на конечную переменную.

Поскольку я подписал соглашение о неразглашении, я не могу раскрывать подробности, но могу привести краткий пример. Коэффициент для двоичной переменной лидер равен 0,82. Взяв показатель в степень, получаем 2.26. Это означает, что если вы еще не занимаетесь руководящей позицией, заняв ее, ваши шансы на поступление увеличатся более чем в два раза!

Заключительные мысли и предостережения

Следует отметить, что наша модель неявно предполагает, что эти лучшие школы применяют одни и те же критерии для проверки кандидатов каждый год, тогда как на самом деле они, вероятно, обновляют (даже если немного) то, что они ищут в учениках, с течением времени. Что касается следующих шагов, я хотел бы выполнить еще несколько функций, изучив эффекты взаимодействия (например, Varsity * Captain) и исследуя более глубокие эффекты, переплетенные между переменными (например, латиноамериканский студент, занимающий руководящую должность в азиатском студенте). Общество).

Для технических подробностей, не стесняйтесь проверить мое репозиторий GitHub для этого проекта.

Прочтите часть II…