Что такое тест хи-квадрат?

В статистике хи-квадрат (χ²) — это тестовая статистика, которая используется для измерения значимости разницы между ожидаемой частотой и наблюдаемой частотой в категориальном наборе данных. Это непараметрический тест, который не делает никаких предположений об основном распределении данных.

Формула для расчета статистики теста хи-квадрат:

χ² = Σ (O — E)² / E

где O — наблюдаемая частота, а E — ожидаемая частота. Статистика теста представляет собой сумму квадратов разностей между наблюдаемой и ожидаемой частотами, деленную на ожидаемую частоту.

Критерий хи-квадрат обычно используется для проверки гипотезы о независимости между двумя переменными. Например, с его помощью можно определить, существует ли связь между полом и политической принадлежностью или есть ли разница в частоте тех или иных заболеваний среди разных возрастных групп. Критерий хи-квадрат также можно использовать для проверки согласия модели, для сравнения распределения двух или более выборок или для проверки однородности двух или более популяций.

Когда его использовать?

Тест хи-квадрат полезен во многих отношениях, в том числе:

1. Тестирование на независимость. Тест хи-квадрат можно использовать для определения наличия связи между двумя категориальными переменными. Например, это может помочь определить, есть ли связь между полом и политической принадлежностью или есть ли связь между курением и раком легких.

2. Проверка согласия: критерий хи-квадрат можно использовать для определения того, насколько хорошо наблюдаемое частотное распределение соответствует теоретическому распределению. Например, это может помочь определить, соответствует ли выборка данных нормальному распределению.

3. Сравнение распределений. Критерий хи-квадрат можно использовать для сравнения распределений двух или более выборок. Например, это может помочь определить, есть ли существенная разница между частотой определенных заболеваний среди разных возрастных групп.

4. Проверка однородности. Тест хи-квадрат можно использовать для проверки того, имеют ли две или более популяции одинаковое распределение. Например, это может помочь определить, существует ли значительная разница между частотой определенных признаков или характеристик среди разных групп населения.

Этапы реализации

Математическая реализация теста хи-квадрат включает несколько этапов:

1. Определите нулевую гипотезу и альтернативную гипотезу. Нулевая гипотеза предполагает, что между двумя проверяемыми переменными нет связи, а альтернативная гипотеза предполагает, что связь есть.

2. Рассчитайте ожидаемую частоту для каждой категории. Это включает в себя умножение общего количества наблюдений на вероятность каждой категории на основе нулевой гипотезы.

3. Рассчитайте статистику теста хи-квадрат по формуле:

χ² = Σ (O — E)² / E

где O — наблюдаемая частота, а E — ожидаемая частота.

4. Определить степени свободы, которые равны числу категорий минус 1.

5. Используйте таблицу распределения хи-квадрат или пакет статистического программного обеспечения, чтобы определить p-значение, связанное с рассчитанной тестовой статистикой и степенями свободы.

6. Сравните p-значение с уровнем значимости (α), чтобы определить, отвергать или не отвергать нулевую гипотезу.

Если p-значение меньше уровня значимости, мы отклоняем нулевую гипотезу и делаем вывод, что существует значительная связь между двумя проверяемыми переменными. Если p-значение больше уровня значимости, мы не можем отвергнуть нулевую гипотезу и сделать вывод об отсутствии значимой связи между двумя переменными.

Как рассчитать статистику теста хи-квадрат?

Предположим, мы хотим проверить, существует ли связь между полом человека и его политической принадлежностью. Мы собираем данные по выборке из 200 человек и классифицируем их по полу (мужской или женский) и политической принадлежности (демократ, республиканец или независимый). Наблюдаемые частоты следующие:

Чтобы рассчитать ожидаемые частоты, предполагая независимость между полом и политической принадлежностью, нам нужно сначала вычислить предельные частоты. Предельные частоты представляют собой суммы строк и столбцов:

Затем можно рассчитать ожидаемую частоту для каждой ячейки по формуле:

Ожидаемая частота = (общее количество строк x общее количество столбцов) / общий итог

Например, ожидаемая частота для ячейки в первой строке и первом столбце (мужчины и демократы):

Ожидаемая частота = (100 x 70) / 200 = 35

Используя ту же формулу, мы можем вычислить ожидаемые частоты для всех ячеек:

Теперь мы можем рассчитать статистику теста хи-квадрат, используя формулу:

χ² = Σ (O — E)² / E

где O — наблюдаемая частота, а E — ожидаемая частота. Степени свободы для этого теста: (количество строк — 1) х (количество столбцов — 1) = 2 х 2 = 4.

Используя калькулятор или статистическое программное обеспечение, мы можем рассчитать статистику теста хи-квадрат:

χ² = 14.13

Теперь мы можем использовать таблицу распределения хи-квадрат или статистическое программное обеспечение, чтобы найти p-значение, связанное со статистикой теста и степенями свободы. Допустим, мы используем уровень значимости 0,05. Из таблицы или программного обеспечения мы находим, что значение p меньше 0,05, что означает, что мы можем отвергнуть нулевую гипотезу и сделать вывод о наличии значительной связи между полом и политической принадлежностью в этой выборке.

Реализация Python

В Python библиотека SciPy предоставляет функцию с именем chi2_contingency(), которую можно использовать для выполнения теста хи-квадрат для таблиц непредвиденных обстоятельств, подобных той, что использовалась в приведенном выше примере. Вот пример кода Python, который использует эту функцию:

from scipy.stats import chi2_contingency

# Observed frequencies
observed = [[30, 50, 20], [40, 25, 35]]

# Perform Chi-Squared test
chi2, p_value, dof, expected = chi2_contingency(observed)

# Print results
print("Chi-Squared test statistic:", chi2)
print("p-value:", p_value)
print("Degrees of freedom:", dof)
print("Expected frequencies:", expected)

Это выведет следующее:

Chi-Squared test statistic: 14.126408414413628
p-value: 0.0008623391962605451
Degrees of freedom: 2
Expected frequencies: [[35. 37.5 27.5]
[35. 37.5 27.5]]

Функция chi2_contingency() принимает наблюдаемые частоты в качестве входных данных и возвращает статистику теста хи-квадрат, значение p, степени свободы и ожидаемые частоты, предполагающие нулевую гипотезу. Затем мы можем использовать эти результаты, чтобы сделать выводы о взаимосвязи между изучаемыми переменными.

Хи-квадрат как метод выбора признаков

Тест хи-квадрат можно использовать в машинном обучении в качестве метода выбора признаков. Идея выбора функций состоит в том, чтобы выбрать подмножество соответствующих функций из исходного набора данных, которые могут повысить производительность модели машинного обучения при одновременном снижении вычислительных затрат и сложности.

При выборе признаков с использованием критерия хи-квадрат статистика критерия хи-квадрат рассчитывается для каждого признака в наборе данных. Признаки с самыми высокими значениями статистики критерия хи-квадрат считаются наиболее информативными и выбираются в качестве окончательного набора признаков. Это основано на предположении, что чем выше значение статистики критерия хи-квадрат для признака, тем больше он связан с целевой переменной.

Вот пример фрагмента кода на Python, в котором используется критерий хи-квадрат для выбора функций с использованием класса SelectKBest из библиотеки sklearn:

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.datasets import load_iris

# Load iris dataset
iris = load_iris()
X = iris.data
y = iris.target

# Perform feature selection using Chi-Squared test
selector = SelectKBest(chi2, k=2)
X_new = selector.fit_transform(X, y)

# Print the selected features
print("Selected features:", selector.get_support())

В этом примере мы сначала загружаем набор данных радужной оболочки и разделяем его на функции (X) и цель (y). Затем мы используем класс SelectKBest из библиотеки sklearn для выбора функций с помощью критерия хи-квадрат. Мы установили k=2, чтобы выбрать две лучшие функции с самыми высокими статистическими значениями критерия хи-квадрат. Наконец, мы печатаем выбранные функции, используя метод get_support().

Этот метод может помочь уменьшить размерность набора данных и повысить производительность модели машинного обучения, выбрав только наиболее важные функции. Однако важно отметить, что выбор функций с помощью теста хи-квадрат не всегда может привести к наилучшему набору функций для конкретной задачи машинного обучения, и рекомендуется также попробовать другие методы выбора функций, чтобы найти оптимальный набор функций.

Плюсы и минусы использования Chi-Square

Вот некоторые плюсы и минусы использования теста хи-квадрат:

Плюсы:

  • Тест хи-квадрат — это широко используемый статистический тест, который легко понять и интерпретировать.
  • Его можно использовать для проверки независимости между категориальными переменными, что является распространенным сценарием во многих исследованиях.
  • Его можно использовать с таблицами непредвиденных обстоятельств любого размера и с любым количеством категорий.
  • Он не требует никаких предположений о распределении данных, что делает его устойчивым к нарушениям нормальности.

Минусы:

  • Тест хи-квадрат предполагает, что ожидаемые частоты в каждой ячейке таблицы непредвиденных обстоятельств составляют не менее 5. Если это предположение не выполняется, тест может быть неточным, и могут потребоваться альтернативные тесты.
  • Он не предоставляет информацию о силе или направлении взаимосвязи между переменными, а только о том, существует ли взаимосвязь или нет.
  • Оно не определяет причинно-следственную связь, а только ассоциацию.
  • Он чувствителен к размеру выборки, а большой размер выборки может привести к статистически значимому результату, даже если связь между переменными слабая.
  • Он может использоваться только с категориальными данными и может не подходить для непрерывных или порядковых данных.

Заключение

В целом, критерий хи-квадрат является полезным и широко используемым статистическим тестом для анализа взаимосвязи между категориальными переменными, но при интерпретации результатов важно помнить о его ограничениях и допущениях.