Хотя линейная регрессия как концепция линейных уравнений существует уже несколько столетий, и даже старшеклассник может составить уравнение прямой линии.
Чего они не знают, так это того, что делает исследователя данных чем они являются на самом деле.
Я имею в виду «Предположения линейной регрессии», которые устанавливают основные правила, следует ли применять модель линейной регрессии к набору данных.

Ниже приведены пять допущений:
• Линейная зависимость
• Мультиколлинеарность
• Гомоскедастичность
• Нормальное распределение ошибок
• Отсутствие автокорреляции.

Линейная связь:

Линейная регрессия предполагает наличие линейной зависимости между независимой (X) и зависимой (Y) переменными.
Пример: Емкость легких в зависимости от возраста. Емкость легких уменьшается с возрастом, и эта зависимость не является линейной.

Проблема:
• Ошибка результатов в коэффициентах и ​​стандартных ошибках.

Обнаружение:
• Остаточный график
• Тест отношения правдоподобия

Мультиколлинеарность:

Независимые переменные (X) не должны зависеть друг от друга.

Пример: Рассмотрим ниже случай, когда зарплата должна прогнозироваться на основе возраста и опыта.

Независимые переменные: X1 = возраст, X2 = опыт
Зависимая переменная: Y = заработная плата

Поскольку возраст и опыт имеют положительную корреляцию, следует рассматривать только один из них (в данном случае опыт).

Проблема:
• Ошибка результатов в коэффициентах и ​​стандартных ошибках.

Обнаружение:
• Корреляция между X1 и X2 не должна быть близкой к +1/-1.

Решение.
• Удалите одну из независимых переменных.

Гомоскедастичность:

Трудно было произнести это? Вот что это значит

«Гомо» = То же самое
«Скедастичность» = Разброс/Дисперсия

В нем говорится, что остатки (термин ошибки) должны быть равномерно распределены от линии регрессии. Другими словами, в модели не должно быть гетероскедастичности.

Проблема:
• На стандартные ошибки нельзя полагаться.

Обнаружение:
• Тест Goldfeld-Quant.

Решение:
• Используйте логарифмирование переменных X.

Нормальное распределение ошибок:

Количество точек данных должно быть равномерно распределено выше и ниже линии регрессии.

Пример: Медицинская страховка в зависимости от возраста, поскольку не все страховки будут востребованы, распределение точек данных выше и ниже линии регрессии неравномерно.

Проблема:
• На стандартные ошибки нельзя полагаться.

Обнаружение:
• Гистограмма остатков

Решение:
• Используйте логарифмирование переменных X.

Без автокорреляции:

Члены ошибок не должны быть коррелированы, т. е. они должны быть независимыми.

Пример: зависимость температуры от времени в течение года. В этом случае температура в течение года циклична, и можно предсказать, что температура будет повышаться летом и понижаться зимой.

Проблема:
• На стандартные ошибки нельзя полагаться.

Обнаружение:
• Тест Дарбина-Уотсона.

Решение.
• Исследуйте критически важные пропущенные переменные.

Заключение
Модель линейной регрессии великолепна и проста в реализации, но некоторые из приведенных выше предположений ограничивают ее работу только с линейными отношениями.

Ставьте лайки, делитесь и подписывайтесь на другие подобные материалы.