Хотя линейная регрессия как концепция линейных уравнений существует уже несколько столетий, и даже старшеклассник может составить уравнение прямой линии.
Чего они не знают, так это того, что делает исследователя данных чем они являются на самом деле.
Я имею в виду «Предположения линейной регрессии», которые устанавливают основные правила, следует ли применять модель линейной регрессии к набору данных.
Ниже приведены пять допущений:
• Линейная зависимость
• Мультиколлинеарность
• Гомоскедастичность
• Нормальное распределение ошибок
• Отсутствие автокорреляции.
Линейная связь:
Линейная регрессия предполагает наличие линейной зависимости между независимой (X) и зависимой (Y) переменными.
Пример: Емкость легких в зависимости от возраста. Емкость легких уменьшается с возрастом, и эта зависимость не является линейной.
Проблема:
• Ошибка результатов в коэффициентах и стандартных ошибках.
Обнаружение:
• Остаточный график
• Тест отношения правдоподобия
Мультиколлинеарность:
Независимые переменные (X) не должны зависеть друг от друга.
Пример: Рассмотрим ниже случай, когда зарплата должна прогнозироваться на основе возраста и опыта.
Независимые переменные: X1 = возраст, X2 = опыт
Зависимая переменная: Y = заработная плата
Поскольку возраст и опыт имеют положительную корреляцию, следует рассматривать только один из них (в данном случае опыт).
Проблема:
• Ошибка результатов в коэффициентах и стандартных ошибках.
Обнаружение:
• Корреляция между X1 и X2 не должна быть близкой к +1/-1.
Решение.
• Удалите одну из независимых переменных.
Гомоскедастичность:
Трудно было произнести это? Вот что это значит
«Гомо» = То же самое
«Скедастичность» = Разброс/Дисперсия
В нем говорится, что остатки (термин ошибки) должны быть равномерно распределены от линии регрессии. Другими словами, в модели не должно быть гетероскедастичности.
Проблема:
• На стандартные ошибки нельзя полагаться.
Обнаружение:
• Тест Goldfeld-Quant.
Решение:
• Используйте логарифмирование переменных X.
Нормальное распределение ошибок:
Количество точек данных должно быть равномерно распределено выше и ниже линии регрессии.
Пример: Медицинская страховка в зависимости от возраста, поскольку не все страховки будут востребованы, распределение точек данных выше и ниже линии регрессии неравномерно.
Проблема:
• На стандартные ошибки нельзя полагаться.
Обнаружение:
• Гистограмма остатков
Решение:
• Используйте логарифмирование переменных X.
Без автокорреляции:
Члены ошибок не должны быть коррелированы, т. е. они должны быть независимыми.
Пример: зависимость температуры от времени в течение года. В этом случае температура в течение года циклична, и можно предсказать, что температура будет повышаться летом и понижаться зимой.
Проблема:
• На стандартные ошибки нельзя полагаться.
Обнаружение:
• Тест Дарбина-Уотсона.
Решение.
• Исследуйте критически важные пропущенные переменные.
Заключение
Модель линейной регрессии великолепна и проста в реализации, но некоторые из приведенных выше предположений ограничивают ее работу только с линейными отношениями.
Ставьте лайки, делитесь и подписывайтесь на другие подобные материалы.