Что такое наука о данных?

Наука о данных — это больше, чем просто отраслевое модное словечко.

Речь идет о том, чтобы брать большие наборы данных и пытаться сделать их полезными или информативными, особенно для понимания мира или принятия обоснованных решений. Для этого нам понадобятся инструменты из области вычислений, знания статистики, а также знания предметной области, которые сообщают, что на самом деле представляют данные.

Итак, более формальное определение DataScience:

Наука о данных — это междисциплинарная область, в которой используются научные методы, процессы, алгоритмы и системы для извлечения знаний и идей из структурированных и неструктурированных данных (источник: Википедия)

И наука о данных, как практика, имеет следующие три основных вида деятельности или этапа:

Исследование

Вывод

Прогноз

Давайте разберемся с каждым из этих терминов один за другим:

Исследование — это выявление закономерностей, существующих в данных. Когда у вас есть много наблюдений над каким-то явлением, какой вывод вы можете сделать о самом явлении? Часто вместо того, чтобы просто смотреть на большие таблицы чисел, мы визуализируем данные, потому что их гораздо проще интерпретировать. Используя визуальные инструменты, мы можем одновременно отображать большое количество информации.

После того, как мы нашли шаблон, следующим шагом будет выполнение статистического вывода, и это потому, что некоторые шаблоны появляются случайно, а некоторые потому, что они являются отражением какого-то основного процесса или шаблона, который действительно интересен для этих Данных.

Итак, цель статистического вывода состоит в том, чтобы:

а) количественно определить, являются ли закономерности, которые мы наблюдаем на этапе исследования, надежными.

б) Если бы мы собрали больше данных, увидели бы мы эту закономерность снова или нет?

Основным инструментом, который у нас есть, является рандомизация, потому что, моделируя случайные процессы, мы можем видеть, какие закономерности появляются случайно. И если закономерность, которую мы наблюдаем, не может появиться случайно, то мы можем сделать вывод, что она возникла из-за какой-то надежной или надежной закономерности в базовом наборе данных, который мы анализируем.

И, наконец, мы можем перейти к этапу прогнозирования. Здесь у нас есть частичная информация о том, что мы хотим знать, и мы хотим догадываться о том, чего еще не знаем.

При прогнозировании мы делаем обоснованные количественные предположения, используя дисциплину, называемую машинным обучением. Обычно, когда мы пишем программы, мы просто сосредотачиваемся на конкретной логике того, что должен делать компьютер, но машинное обучение заключается не в программировании каждой детали, а в использовании данных для принятия решений или выбора в рамках этой программы.
Поэтому, когда мы пишем программу, например, для распознавания речи, автоматического перевода языков или беспилотных автомобилей, мы на самом деле не записываем все детали того, что делать, а вместо этого используем примеры (в виде данных) из мира, чтобы помочь компьютерам автоматически научиться себя вести.

И, наконец, на основе обнаруженных закономерностей надежные из них могут помочь нам делать обоснованные предположения и принимать разумные решения в отношении невидимых данных.

Как только мы освоим все три этапа, мы будем на пути к тому, чтобы стать специалистом по данным.

Пожалуйста, оставьте свои комментарии ниже, если вы хотите, чтобы я что-то написал или предложил какое-либо улучшение. Вы также можете связаться со мной в моем профиле LinkedIn.

Список других блогов, которые я написал:

Спасибо за прочтение. Хорошего дня.

Что такое наука о данных?

Похожие вопросы