Ниса Бююкналбант

май 2022 г.

1.Введение

Машинное обучение — это область искусственного интеллекта, которая использует алгоритмы для преобразования тестовых данных в пригодные для использования модели [1]. Это один из способов сделать искусственный интеллект работоспособным. Благодаря машинному обучению можно выполнять такие операции, как классификация, кластеризация, регрессия и идентификация закономерностей. Способность к обучению становится достижимой без программирования. Итак, машинное обучение фокусируется на выполнении определенной задачи. Основные области, в которых машинное обучение широко используется, включают информатику, математику, статистику и науку о данных. В этом эссе я попытаюсь объяснить принцип работы машинного обучения, проблемы, которые могут возникнуть из-за качества данных и их использования, а также возможные решения этих проблем. Наконец, я закончу своим мнением о том, можно ли доверять моделям машинного обучения, и когда требуется осторожность с учетом вопросов, которые я затрону.

2. Принцип работы и методы машинного обучения

Процесс обучения алгоритма машинного обучения можно разделить на три основные части [2]. Во-первых, входные данные делятся на тестовые и обучающие. В зависимости от входных данных; вычислительный алгоритм попытается произвести оценку шаблона. Данные могут быть помечены или не помечены. Затем 2 функция ошибок использует тестовые данные для оценки точности найденного паттерна. Наконец, в зависимости от точности веса корректируются до тех пор, пока не будет достигнута приемлемая точность. Методы машинного обучения можно разделить на четыре основные категории; Обучение с учителем, обучение без учителя, обучение с полуучителем и обучение с подкреплением [3]. При обучении с учителем мы ожидаем, что модель будет маркировать новые записи в зависимости от структурированных данных, которые мы ей передаем. Когда обратная связь оценивается методом проб и ошибок, это называется обучением с подкреплением. Если данные неструктурированы и мы хотим сгруппировать данные, мы используем обучение без учителя. И, наконец, частично контролируемое обучение используется, когда набор данных содержит как структурированные, так и неструктурированные данные. Работа всех этих методов зависит от данных, которые мы передаем в модель, и от того, как мы определяем, какая часть данных и каким образом будет использоваться.

3. Зависимость от данных

Учитывая все приведенные выше методы машинного обучения, мы видим, что оцениваемая точность сильно зависит от данных и способа их использования. Все темы, связанные с данными, очень важны, потому что качество модели машинного обучения сильно зависит от качества данных [4]. Кроме того, высокие проценты точности, оцененные моделью, не всегда означают, что у нас есть надежный результат. Прежде чем мы начнем работать с данными, мы должны максимально структурировать их [5]. Мы также должны оптимизировать то, как модель использует обработанные данные. Существуют различные вопросы, которые следует учитывать при обработке данных. Вот почему предварительная обработка данных является важным шагом для повышения надежности обученной модели.

4. Проблемы с данными и их использованием

4.1. Нерепрезентативные данные

Выбранный обучающий набор может не отражать распределение характеристик генеральной совокупности. Набор также может быть необъективным; следовательно, нельзя делать обобщений. В таких случаях результат, оцениваемый моделью, становится ненадежным. Обучающая выборка должна представлять случаи, подлежащие обобщению. Из-за обратно пропорциональной зависимости между дисперсией и погрешностью необходимо найти общую основу, чтобы сохранить как дисперсию, так и погрешность на низком уровне [6]. Это называется «компромисс между смещением и дисперсией». Чтобы решить эту проблему, в модель можно передать больше данных. Данные должны быть достаточно разнообразными, чтобы обеспечить репрезентативность [7].

4.2.Отсутствующие и несогласованные данные

Большинство наборов данных включают отсутствующие, зашумленные и выбросы значений. Это может произойти из-за отсутствия информации и ошибок при заполнении. Отсутствующие значения не могут быть просмотрены, большинство моделей не работают, когда в наборе данных есть отсутствующие значения. Если желателен надежный результат, следует также обрабатывать шум и выбросы [8]. После обнаружения этих значений можно использовать множество подходов. Если количество записей, включающих эти значения, недостаточно велико, чтобы произвести эффект, и записи не имеют значения для общего результата, или есть дубликаты, мы можем просто удалить их. В противном случае мы пытаемся заполнить или заменить эти значения. Это можно сделать вручную, используя среднее значение атрибута или медиану, или биннинг.

4.3. Качество функций

Еще одна вещь, которая имеет значение, — это качество характеристик набора данных. Получение надежного результата невозможно, если в наборе данных присутствуют незначительные признаки. Чтобы справиться с этой проблемой, мы используем отбор признаков. При выборе признаков мы выбираем небольшое подмножество значимых признаков из набора данных. Таким образом, мы можем удалить ненужные, шумные, бесполезные или повторяющиеся функции [9]. Мы также можем использовать извлечение функций, чтобы объединить существующие функции, которые служат той же цели, чтобы создать новую, более полезную функцию.

4.4. Переобучение и недообучивание

Когда данный набор данных не предлагает достаточного количества записей, дисперсия увеличивается [10]. Когда дисперсия высока, модель идеально соответствует обучающим данным. Но модель плохо работает с новыми данными. Эта проблема называется «Переоснащение». В случае переобучения можно использовать отбор признаков или увеличить количество регуляризаций [7]. Когда модель не может уловить взаимосвязь между записями и плохо работает с обучающими данными, это называется «недообучение». Когда происходит недообучение, количество регуляризации может быть уменьшено или могут быть добавлены новые специфичные для предметной области функции [7].

5.Заключение

Как было показано ранее, надежность результатов, оцениваемых моделями машинного обучения, сильно зависит от качества и репрезентативности данных. Проценты точности также зависят от способа использования данных и правильного разделения тестовых и обучающих данных. Я считаю, что моделям можно доверять, если каждый шаг предварительной обработки данных, аналитики и мониторинга выполняется правильно, а окончательный набор данных разнообразен, чист и репрезентативен. Машинное обучение используется во многих областях, и в некоторых случаях результаты, оцененные моделями, очень важны. Медицинский диагноз является хорошим примером такого случая. Когда решения, которые будут приняты на основе оцениваемого результата, важны, осторожность становится еще большей необходимостью. Чтобы справиться с проблемами, которые мы затронули, следует проявлять осторожность с самого начала. При сборе данных следует соблюдать необходимые меры предосторожности. Потребности и ожидания должны быть заранее определены, и в зависимости от этого должна быть сформирована хорошая структура набора данных с необходимыми функциями. Данные должны быть разнообразными, репрезентативными и полными. Но все же, как бы мы ни были внимательны при сборе данных, могут возникать ошибки измерительного инструмента или случайные ошибки. Чтобы свести к минимуму любую ошибку, предварительная обработка должна выполняться тщательно. Наконец, когда данные готовы к обработке, тестовые и обучающие данные должны быть выбраны оптимальным образом, чтобы они не соответствовали данным больше или меньше, в зависимости от размера и дисперсии набора данных. Таким образом, в целом, пока для моделей создается правильная среда, в нее подаются правильные данные и разделение выполняется оптимальным образом; Я считаю, что модели машинного обучения более успешны и точны, чем люди, как в классификации, кластеризации, так и в принятии решений. Чтобы доверять модели, нам нужны надежные данные и осторожный процесс.

Ссылки

[1] Абдулхамит Субаси, Практическое машинное обучение для анализа данных с использованием Python, 2020 г.

[2] «Машинное обучение» [онлайн] Что такое машинное обучение? | IBM

[3] «Что такое машинное обучение (ML)?» [Онлайн] Что такое машинное обучение (ML)? — Школа онлайн (berkeley.edu)

[4] Золтан Шомоджи, «Применение искусственного интеллекта» (стр. 113–141), 2021 г.

[5] Марко Валторта, Влияние качества данных на алгоритмы машинного обучения, 2006 г.

[6] Друв Шарма, «Проблемы в моделях машинного обучения», 2019 [онлайн] Проблемы в моделях машинного обучения? Сначала проверьте свои данные | Друв Шарма | На пути к науке о данных

[7] Виктор Дей, опубликовано в Developers Corner, «Как решить проблему смещения и дисперсии в машинном обучении» [онлайн] Как решить проблему смещения и дисперсии в машинном обучении (analyticsindiamag.com)

[8] Харшита Сингх, «Понимание предварительной обработки данных», 2020 [онлайн] Подробная предварительная обработка данных | На пути к науке о данных

[9] Сухан Ван, Цзилианг Тан, Хуан Лю, в Энциклопедии машинного обучения и интеллектуального анализа данных (стр. 1–9), 2016 г.

[10] «Машинное обучение Amazon: руководство для разработчиков» [онлайн] Подбор модели: недообучение или переоснащение — Amazon Machine Learning