Термин регрессия означает попытку найти и проанализировать взаимосвязь между одной зависимой переменной и одной или несколькими независимыми переменными. В линейной регрессии у нас есть одна зависимая переменная или целевая переменная и одна независимая переменная. Независимые переменные — это переменные признаков, по которым прогнозируется целевая переменная. Например, предположим, что мы пытаемся предсказать цену дома. Существуют различные факторы, которые могут увеличивать или уменьшать цену дома, например, количество спален, размер дома, прилегающая территория и т. д. Это характеристики или независимые переменные, а цена является зависимой переменной или целевой переменной, поскольку она s в зависимости от вышеперечисленных признаков. Предположим, мы пытаемся предсказать цену с помощью одного признака, то есть размера дома, тогда это называется Lлинейной регрессией, поскольку здесь для предсказания цены используется только одна независимая переменная или переменная признака. дома. Если для прогнозирования целевой переменной или зависимой переменной используется более одного признака, этот тип регрессии называется множественной линейной регрессией.

Гипотеза, используемая в линейной регрессии, такова: h(θ)(x)=θ0+ θ1X1, это просто линейное уравнение. В этом уравнении θ0 — точка пересечения с осью y, а θ1 — вес или наклон линии. X1 — вектор признаков, а h(θ)(x) — целевая переменная или независимая переменная. Теперь вопрос в том, как мы можем найти значение этих параметров, то есть θ0 и θ1? Нам нужно найти те значения θ0 и θ1, которые могут дать минимальную ошибку.

ФУНКЦИЯ СТОИМОСТИ:

Функция стоимости также называется функцией квадрата ошибки или функцией среднеквадратичной ошибки. Эта функция в основном используется для измерения точности нашей гипотезы. В основном это разница между прогнозируемым значением и фактическим значением. Уравнение функции стоимости с деталями каждого параметра приведено на изображении ниже:

Теперь цель оптимизации нашего алгоритма обучения состоит в том, чтобы выбрать значение θ0 и θ1, которое минимизирует значение J(θ0, θ1). Это наша целевая функция для линейной регрессии. Градиентный спуск используется для нахождения значения θ0 и θ1, которое минимизирует функцию стоимости.

Градиентный спуск:

Градиентный спуск используется для минимизации функции стоимости J. Он используется не только в линейной регрессии, но и повсеместно в машинном обучении. Уравнение градиентного спуска для линейной регрессии приведено ниже:

Первоначально вы должны выбрать значение тета0, тета1 и альфа (0,01 или 0,001 или что-то в этом роде) случайным образом. Обновите значение тета 0 и тета 1 одновременно, пока они не сойдутся к оптимальным минимумам. Это означает, что вы должны остановиться в тот момент, когда ваше значение тета0 и тета1 начнет повторяться. В это время градиент будет равен нулю, что означает, что наклон будет равен нулю. Это будет точка, в которой ваши затраты будут минимальными, и вы получите наилучшее значение тета0 и тета1. Теперь я объясню эту концепцию с помощью примера, и полный математический процесс показан на изображении ниже:

Теперь мы получили наилучшее значение тета0 и тета1, потому что значения тета0 и тета1 повторяются. Теперь найдем стоимость этой функции, которая приведена ниже:

Теперь эти значения тета0 и тета1 будут использоваться в гипотезе h(θ)(x)=θ0+ θ1X1,и с помощью этих значений мы можем найти целевые данные для новой переменной признака данные.

Спасибо, что прочитали эту статью.

"Вы можете подписаться на меня, если любите читать о Python, науке о данных, искусственном интеллекте и Интернете вещей".

Ссылка: Coursera — Машинное обучение