Обзор менее известных, но очень полезных показателей для анализа данных.

Вступление

Статистическая аналитика стала жизненно важным инструментом в принятии решений и обработке аналитических данных на предприятиях по всему миру. В последние годы наука становится все более и более полезной в приложениях как для бизнеса, так и для технологий. Есть много разных способов статистического анализа чисел. Несмотря на это, многие специалисты по данным и аналитики данных склонны воздерживаться от изучения фантастического мира статистики.

Самым популярным тестом в этом отношении является Т-тест студента. T-тест Стьюдента - это отраслевой стандарт, который используется для получения значения вероятности статистической значимости. Часто в колледже это одно из первых изученных приложений статистики. На это есть веская причина, поскольку как парный, так и независимый T-тест может предоставить много очень ценной информации о данных, с которыми можно очень легко работать.

Несмотря на обычное использование Т-теста для определения статистической значимости, в мире статистики есть гораздо больше, чем часто. Существует множество различных тестов, у которых есть собственные приложения, в зависимости от данных, с которыми работаете. Сегодня я хотел бы познакомить вас с некоторыми из этих показателей, с которыми я считаю невероятно полезными работать в своем аналитическом опыте.

Знаки Тест

Первая метрика, которую я хотел бы затронуть, - это проверка знаков. Тест знаков - это статистический тест, который использует биномиальное распределение для получения вероятности. Этот тест выполняется путем получения ряда положительных и отрицательных значений, а затем их обработки с помощью функции процедурной плотности (PDF) биномиального распределения.

Это действительно крутой тест, потому что он может обеспечить точное считывание с гораздо меньшим объемом данных, чем большинство типичных статистических тестов. Еще одна замечательная вещь заключается в том, что математические расчеты, лежащие в основе этого, относительно просты и обычно могут выполняться вручную, оставаясь при этом логическими и фактическими по своей природе. Единственное существенное препятствие для этого теста - это то, насколько сложно его программировать. Биномиальное распределение уделяет огромное внимание вычислению факториалов. Это проблематично для современных вычислений, потому что факториалы, как известно, сложно вычислить на компьютере. В большинстве случаев факториальная функция в языке программирования применяет рекурсию для последовательного цикла и добавления счетного числа. Это означает, что использование теста знаков на больших наборах данных может означать многократный масштабный факторный расчет.

Хотя у теста знаков есть свои недостатки с точки зрения производительности, это, безусловно, отличный тест, который стоит иметь в своем арсенале. Это даже более верно, когда количество данных меньше, потому что иногда бывает довольно сложно получить твердые показания из других тестов без твердого количества образцов. Если вы хотите узнать больше о тесте знаков самостоятельно, я написал об этом статью очень давно, в которой подробно рассказывается об использовании этого теста:



Обычный PDF / CDF

Если вы проработали в мире статистики хотя бы один день, весьма вероятно, что вы уже взаимодействовали с нормальным распределением раньше. Нормальное распределение - это распределение, для которого невероятно легко вычислить PDF. Нормальное распределение обычно служит основой для большинства статистических данных и преобразует данные в значения, представляющие стандартные отклонения от среднего.

Удивительно, но этот дистрибутив относительно не используется в качестве источника аналитических знаний, но вы можете многое узнать о данных, с которыми работаете, только из этого дистрибутива. Во-первых, PDF-файл может многое рассказать о том, где лежат стандартные отклонения для определенных значений. Обычно, когда значение является статистически значимым, оно оказывается на два стандартных отклонения от среднего значения или более. Фактическое измерение составляет одну целую девяносто шесть, но обычно я говорю, что вы должны искать число около двух, и как только вы достигнете его, оно, вероятно, покажет статистическую значимость. Это довольно простой способ анализа данных и обычно довольно быстрый, но описание без примера обычно сбивает с толку.

Давайте рассмотрим пример, когда у нас есть законопроект, в котором голосование открыто демократическим путем из регионов уезда. Мы хотим знать, будет ли у одного округа больше шансов получить голоса так или иначе, поэтому сначала мы обычно распределяем общее население всех голосов, поданных в округе. После этого мы могли бы разделить выборки из каждого региона округа и сравнить средние значения между значениями. Те, у которых средние значения выше двух или ниже отрицательных двух, скорее всего, являются статистически значимыми. Конечно, потребуется дальнейшее тестирование, чтобы получить подтверждение потенциальной гипотезы, но использование этих аналитических знаний, безусловно, может помочь в формировании гипотезы в первую очередь, что иногда может быть самой сложной частью анализа данных и поиска идей.

В дополнение к аналитическим возможностям, предоставляемым PDF, у нас также есть z-тест. Z-тест будет использовать кумулятивную функцию распределения (CDF) нормальных распределений. Эти функции почти всегда используются, чтобы получить вероятность кумулятивного распределения. CDF для нормального распределения, верхний CDF bnv (не уверен, что он регуляризован) может быть невероятно ценным для обеспечения богатого понимания, поскольку на самом деле это гораздо более сложный тест, чтобы пройти, чем ваш типичный T-тест студента.

Все это означает, что статистика, подтвержденная z-оценкой, часто может быть более реалистичной и даже более достоверной, чем те, которые подтверждаются вероятностью типичного T-теста студента. Это почему? Причина, по которой это верно, заключается в том, что хвосты нормального распределения обычно намного меньше. Это также одна из причин того, что Т-тесты используются гораздо чаще. Однако действительная вероятность z-значения часто может указывать на гораздо большую статистическую значимость, чем типичный T-критерий.

F-тест

Хотя Т-тест гораздо более распространен, многие ученые и статистики доверяют F-тесту. Как вы могли догадаться, в этом тесте используется F-распределение. Распределение F обладает уникальной способностью сосредоточить статистически значимое внимание на изменчивости данных. Если разница достаточно значительна, статистик может сделать вывод, что средние двух значений не равны, что, вероятно, будет указывать на постоянную статистическую значимость. Большинство F -тестов возникает при рассмотрении разложения вариативности набора данных на суммы квадратов.

Есть много веских причин использовать F-тест и добавить его в свой полк статистического тестирования. F-тест обычно считается более жестким и авторитетным, чем T-тест студента. Более того, в дистрибутиве есть приложения в регрессии, и его, безусловно, можно использовать, чтобы рассказать гораздо больше о данных. Более того, F-тест - это главная сверхмощность, лежащая в основе ANOVA, или анализа VAriance.

Ранговая сумма Уилкокса

Еще один недооцененный статистический тест - это критерий ранговой суммы Уилкокса. Тест проводится путем суммирования рангов в выборке и генеральной совокупности. Затем мы получаем суммы этих рангов из обеих популяций и сравниваем их. Излишне говорить, что математика, лежащая в основе этого теста, действительно проста и не очень хорошо работает с данными с низкой дисперсией.

Это означает, что у такого рода тестов, безусловно, есть свои приложения. Обычно мне нравится оценивать, применим ли этот тест, на самом деле с использованием нормального распределения. Мы могли подсчитать значения, которые являются несколькими стандартными отклонениями от среднего. Эти значения потенциально могут указывать на то, что существует большая разница между средним значением и остальными данными в генеральной совокупности. Конечно, мы могли бы добиться этого еще одним способом - с помощью дисперсии или даже ANOVA.

Корреляция Пирсона (r)

Последний показатель, который я хотел бы затронуть, - это коэффициент корреляции, который также обычно обозначается буквой r в статистике. Это значение может быть знакомо многим инженерам по машинному обучению или специалистам по данным, потому что обычно r² - это показатель, который используется для оценки производительности непрерывной модели.

Коэффициент корреляции может очень просто сказать многое о корреляции между двумя разными непрерывными наборами данных. И возведение в квадрат может фактически вернуть процент, который укажет, насколько коррелированы эти два набора. Таким же образом мы оцениваем модели, потому что эта процентная точность часто используется в качестве основы для процентного показателя точности для регрессионных моделей.

Заключение

Мир статистики огромен и увлекателен, и я думаю, что его изучение - это путешествие на всю жизнь. Как и в случае с любой другой частью работы в области Data Science, всегда есть что-то новое и интересное, чему можно научиться, и это одна из причин, почему я так люблю это. Может быть легко застрять в колее с общими тестами, которые выполняет большинство статистиков, но изучение и использование всего того, что математика может предложить и применить к вашей работе, - это именно то, что выделит вас среди других ученых, работающих с те же данные. Спасибо за чтение!