Почему статистика важна для специалистов по данным?

Статистика – это наука об обучении на основе данных. Статистические знания помогают специалистам по данным использовать правильные методы для:

  • Соберите данные
  • Используйте правильные анализы
  • Интерпретировать результаты…

Во-первых, нужно различать статистику и вероятность, я рассматриваю их как две стороны одной монеты, вот ПОЧЕМУ? (неофициально)

  • Вероятность используется, когда у нас есть некая модель или представление о мире и мы хотим ответить на такие вопросы, как «Какие данные даст эта истина?»».
  • Статистика — это то, что мы используем, когда у нас есть данные и мы хотим обнаружить «истину» или модель, лежащую в основе данных. На самом деле то, что мы сегодня называем статистикой, раньше называлось «обратной вероятностью».

по сути, статистики, люди, занимающиеся статистикой, особенно заинтересованы в том, чтобы определить, как делать надежные выводы о больших группах и общих событиях на основе поведения и наблюдаемых характеристик небольших выборок.

Заключение!!!! , статистики — детективы, потому что они пытаются найти ответы на такие вопросы, как «Почему мы получили эти баллы?» и «Что правда?».

Чтобы получить эту истину, в статистике есть две основные школы мысли:

  • Частотная точка зрения утверждает, что параметры вероятностных моделей фиксированы, но мы просто не знаем их.
  • Байесовская точка зрения утверждает, что параметры модели не только неизвестны, но и случайны. В этом случае мы закодируем наше предыдущее убеждение об использовании распределения вероятностей.

Вот отличное видео от Кэсси Козырков, объясняющее разницу:

Как только все определения будут ясны, давайте запачкаемся:

Случайная переменная

Быть статистиком означает каждый день иметь дело со случайными величинами, но что означает случайная переменная?

Согласно Википедии: случайная переменная (также называемая случайной величиной, случайной переменной или стохастической переменной) — это математическая формализация величины или объекта, зависящего от случайных событий.

Мы также можем описать его как функцию, которая отображает выборочное пространство в измеримое пространство (например, IR).

Пример: предположим, вы хотите узнать, сколько часов ваши одноклассники тратят на просмотр Netflix. Вы делаете выборку из 4 студентов и спрашиваете их.

Думайте о random variable (X) как о функции, которая принимает в качестве входных данных random student и выводит Watching hours как целое число (в общем случае вещественное число)

Абстрактно, всякий раз, когда я слышу термин «случайная переменная» без каких-либо уточнений о случайном эксперименте, я думаю о нем как о загадочном ящике, каждый раз, когда он открывается, мы получаем случайное значение.

Для дискретной случайной величины, случайной величины, которая может принимать только конечное или счетно бесконечное число различных значений, распределение вероятностей p описывает, насколько вероятно каждое из этих случайных значений, поэтому p(a) относится к вероятности наблюдения значения a.

Полезные свойства случайных величин

Ожидание случайной величины – это среднее значение, которое она принимает.

Дисперсия случайной величины – это показатель того, насколько она разбросана.

Обычно мы будем использовать обозначение x1, x2, . . . , xn для обозначения точек данных, которые мы наблюдаем. Обычно мы предполагаем, что наши выборочные точки данных независимы и одинаково распределены, или i.i.d, что означает, что они независимы и все имеют одинаковое распределение вероятностей.

Исследовательский анализ данных (EDA)

«Исследовательский анализ данных никогда не может быть исчерпывающим, но ничто другое не может служить краеугольным камнем», — Джон Тьюки.

После получения некоторых наблюдений исследовательский анализ данных (EDA) предоставляет инструменты для их анализа и исследования и суммирования их основных характеристик.

ОБЩАЯ ПОСТАНОВКА ПРОБЛЕМЫ

Теперь, получив все инструменты и определения, мы представим общую постановку задачи для специалистов по данным (также известных как статистики):

Предположим, мы собрали несколько случайно выбранных точек данных из некоторой совокупности. Если сбор данных выполнен правильно, выборочные точки должны быть хорошим представлением генеральной совокупности, но они не будут идеальными. Из этих случайных данных мы хотим оценить свойства населения (например, среднее значение).

Мы формализуем эту цель, предположив, что существует некоторое «истинное» распределение, из которого взяты наши точки данных, и что это распределение имеет определенное среднее значение μ и дисперсию σ². Мы также предположим, что наши точки данных являются i.i.d. по этому распределению.

В следующей части мы обсудим некоторые фундаментальные концепции вывода и то, как мы можем решать статистические проблемы.

bis nächste mal, tschüss !!