Тяжелые математические темы в науке о данных!

1. Машина опорных векторов

Учитывая набор обучающих примеров, каждый из которых помечен как принадлежащий к одной из двух категорий, обучающий алгоритм SVM строит модель, которая относит новые примеры к той или иной категории, превращая его в невероятностный двоичный линейный классификатор (хотя такие методы, как Платт существует масштабирование для использования SVM в настройках вероятностной классификации). SVM сопоставляет обучающие примеры с точками в пространстве, чтобы максимизировать ширину разрыва между двумя категориями. Затем новые примеры сопоставляются с тем же пространством, и их принадлежность к категории определяется в зависимости от того, на какую сторону разрыва они попадают.

В дополнение к выполнению линейной классификации SVM могут эффективно выполнять нелинейную классификацию, используя так называемый трюк ядра, неявно отображая свои входные данные в многомерные пространства признаков.

Ссылка на всю статью: https://en.wikipedia.org/wiki/Support-vector_machine

2. Повышение градиента

Повышение градиента — это метод машинного обучения, используемый, в частности, в задачах регрессии и классификации. Он дает модель прогнозирования в виде ансамбля слабых моделей прогнозирования, которые обычно представляют собой деревья решений. Когда дерево решений является слабым учеником, результирующий алгоритм называется деревьями с градиентным усилением; обычно он превосходит случайный лес. Модель деревьев с градиентным усилением строится поэтапно, как и в других методах повышения, но она обобщает другие методы, позволяя оптимизировать произвольную дифференцируемую функцию потерь.

Ссылка на всю статью: https://en.wikipedia.org/wiki/Gradient_boosting

3. Многомерная статистика

Многомерная статистика — это подразделение статистики, охватывающее одновременное наблюдение и анализ более чем одной переменной результата.

Многомерная статистика касается понимания различных целей и предпосылок каждой из различных форм многомерного анализа, а также того, как они соотносятся друг с другом. Практическое применение многомерной статистики к конкретной проблеме может включать несколько типов одномерного и многомерного анализа, чтобы понять отношения между переменными и их отношение к изучаемой проблеме.

Кроме того, многомерная статистика связана с многомерными распределениями вероятностей с точки зрения как

Как их можно использовать для представления распределения наблюдаемых данных?
Как их можно использовать как часть статистического вывода, особенно когда несколько разных величин представляют интерес для одного и того же анализа?

Некоторые типы задач, связанных с многомерными данными, например, простая линейная регрессия и множественная регрессия, обычно не считаются частными случаями многомерной статистики, потому что анализ проводится путем рассмотрения (одномерного) условного распределения одной переменной результата при заданном другие переменные.

Ссылка на всю статью: https://en.wikipedia.org/wiki/Multivariate_statistics

Тяжелые математические темы в науке о данных!

1. Машина опорных векторов

2. Повышение градиента

3. Многомерная статистика

Вопросы по теме