Машинное обучение (МО)

Машинное обучение, также называемое прогностическим моделированием или интеллектуальным анализом данных, представляет собой процесс создания и обучения моделей с использованием данных. Реальные приложения ML включают в себя предсказание того, является ли электронное письмо спамом или ветчиной, предсказание того, какая футбольная команда выиграет английскую премьер-лигу и т. д.

Модель представляет собой вероятностную математическую связь между различными переменными. Например, бизнес-модель создается путем вычитания расходов из выручки, где выручка определяется путем умножения цены за единицу на количество продаж. Расходы, с другой стороны, получаются путем накопления всех затрат, понесенных при получении дохода.

Другим классическим примером модели является определение цен на недвижимость с использованием таких переменных, как местоположение, возраст и уровень преступности в районе, в котором находится недвижимость.

Модель может быть как контролируемой, так и неконтролируемой.

Контролируемые и неконтролируемые модели

Модель с учителем — это когда модель знакомится с набором помеченных данных с правильными ответами для обучения и обучения. Однако в неконтролируемых моделях нет помеченных данных, на которых можно учиться.

Переоснащение и недообучение

Переобучение — распространенная проблема при обучении моделей машинного обучения. Это происходит, когда модель исключительно хорошо работает с данными, на которых она была обучена, но ужасно работает с данными, которых она раньше не видела — новыми данными. Обычно это возникает из-за шума в данных или когда данные извлекают уроки из конкретных входных данных, а не извлекают уроки из фактических прогнозирующих факторов для желаемого результата.

Напротив, недообученная модель — это модель, которая плохо работает даже на обучающих данных. Довольно хорошей моделью является та, которая обеспечивает баланс между переоснащением и недообучением.

Фундаментальный подход к созданию хорошей модели заключается в разделении данных между обучающими и тестовыми данными.

Обучение и тестирование данных

Чтобы избежать переобучения, общие данные можно разделить таким образом, чтобы 70 % данных были назначены в качестве данных поезда, а оставшиеся 30 % были отнесены к категории тестовых данных. Затем модель обучается с использованием данных поезда, после чего ее производительность измеряется с использованием тестовых данных.

В большинстве ситуаций вам, возможно, придется рассмотреть несколько моделей и выбрать наиболее эффективную модель. Оптимальную модель можно получить, разделив общие данные на 3 категории; обучающие данные для обучения данных, проверочные данные для выбора среди обученных моделей и тестовые данные для оценки окончательной модели.

Матрица путаницы

Одним из способов оценки производительности модели является «матрица путаницы». Как следует из названия, матрица путаницы показывает, насколько запутанной является модель, когда она делает прогноз. Другими словами, это сводка возможных правильных и неправильных прогнозов, которые модель, скорее всего, выдаст.

С помеченными данными и прогностической моделью каждая точка данных находится в одном из четырех квадрантов ниже;

Истинно положительный результат: футбольная команда выиграла, и модель правильно предсказала победу.

Ложноположительный результат (ошибка типа 1): футбольная команда не выиграла, но модель предсказала победу

Ложноотрицательный результат (ошибка типа 2): футбольная команда выиграла, но модель предсказала, что победа не будет

Верно отрицательный ответ: футбольная команда не выиграла, и модель правильно предсказала, что она не выиграет.

Затем точность модели можно рассчитать как процент правильных прогнозов (истинно положительных и истинно отрицательных) и общей популяции.

Точность = tp + tn / tp + tn + fp + fn

Однако сама по себе точность может ввести в заблуждение. Точность и полнота могут увеличить точность измерения.

Точность – это мера точности положительных прогнозов.

Точность = tp / (tp + fp)

Отзыв измеряет процент положительных результатов, которые модуль смог определить.

Напомним = tp / (tp + fn)

Точность и полнота могут быть объединены для определения оценки F1;

F1 = 2*p*r / (p + r)

Модели машинного обучения

Как упоминалось ранее, модели — это математические функции, которые изучают данные, чтобы делать прогнозы на основе новых данных. Примеры включают k-ближайшие негиборы (KNN), регрессию, деревья решений, наивный байесовский метод и т. д.

К ближайших соседей

Эта модель основана на том принципе, что вы можете сделать возможный точный прогноз о ком-то на основе информации о его соседях. Например, если вы хотите предсказать, как кто-то в Кумаси будет голосовать на президентских выборах, но ничего не знаете об этом человеке, вы можете проанализировать в целом, как планируют голосовать жители Кумаси, живущие ближе к этому человеку. Если выяснится, что они собираются голосовать за АЭС, то вполне вероятно, что человек проголосует и за АЭС. KNN — довольно простая прогностическая модель, не требующая математических допущений или сложной техники. Он работает на предположении, что точки, расположенные близко друг к другу, подобны.

Регрессионная модель

Когда мы устанавливаем корреляцию между непрерывной переменной результата (y) и одной или несколькими предикторными переменными (x), можно использовать регрессионную модель для построения математического уравнения, которое определяет y как функцию переменных x. Линейная регрессия — самый простой и популярный метод, предполагающий линейную зависимость между исходными и предикторными переменными.

Базовая модель линейной регрессии может быть определена ниже;

Y = Bx + a + e, где;

Y - переменная результата

x - предикторная переменная

B - коэффициент предикторной переменной

a - перехват или константа

e - остаточная ошибка

Если взаимосвязь между переменными результата и предикторами не является линейной, можно использовать модель нелинейной регрессии, такую ​​как полиномиальная или сплайн-регрессия. Набор данных может содержать несколько переменных-предикторов, не все из которых могут иметь отношение к прогнозируемому результату. Процесс, называемый выбором модели, реализуется для сравнения нескольких моделей, состоящих из разных наборов предикторов, с целью выбора наиболее эффективной модели, минимизирующей ошибку прогнозирования.

Дерево решений

В отличие от регрессии, модель дерева решений имитирует структуру и ветви дерева, чтобы представить вероятные пути принятия решений и возможный результат для каждого пути. Набор возможностей удаляется, в то время как другие не находятся на каждом этапе дерева. Они могут работать с комбинацией числовых и категориальных данных. Деревья решений, дающие категориальные результаты, называются деревьями классификации, а деревья решений, дающие числовые результаты, — деревьями регрессии.

Обучение ансамблем

Это предполагает использование нескольких моделей для решения одной и той же задачи. Затем модели голосуют по результатам. Случайный лес является примером ансамблевого обучения, в котором для обучения модели используется агрегация начальной загрузки (бэггинг). Повышение — это альтернативный метод обучения ансамбля, при котором каждая последующая модель в ансамбле повышает атрибуты, которые относятся к данным, неправильно классифицированным предыдущей моделью.

Рекомендации

Грус, Дж. (2015). Наука о данных с нуля. Севастополь, Калифорния: O’Reilly Media.

СТАНДАРТ. (н.д.). Получено из Статистических инструментов для высокопроизводительного анализа данных: http://www.sthda.com/english/wiki/regression-analysis-essentials-for-machine-learning#:~:text=Regression%20analysis%20consists%20of %20a,функция%20из%20переменных%20x%20.