Как вероятность используется в машинном обучении?

1. Введение

В этом посте мы пройдемся по строительным блокам теории вероятностей и используем эти знания для мотивации фундаментальных идей в машинном обучении. В первом разделе мы поговорим о случайных величинах и о том, как они помогают количественно оценивать эксперименты в реальном мире. Следующий раздел перейдет к функциям распределения вероятностей. В последнем разделе будет рассказано о том, как эти математические концепции используются вместе для решения задач машинного обучения.

2. Случайные величины

Начнем наше путешествие с веселого эксперимента. Возьмите ручку и бумагу; выйдите на главную улицу перед вашим домом. Посмотрите на каждого человека, проходящего мимо вас, и обратите внимание на цвет его волос; некоторое приближение их роста в сантиметрах; и любые другие детали, которые вы считаете интересными. Делайте это около 10 минут.

Поздравляем! Вы провели свой первый эксперимент! С помощью этого эксперимента вы теперь можете ответить на несколько вопросов: сколько людей прошло мимо вас? У скольких людей, проходивших мимо вас, были голубые волосы? Каков был средний рост людей, которые проходили мимо вас? Возможно, в этом эксперименте мимо вас прошли 10 человек; У 3 из этих людей были голубые волосы; а средний их приблизительный рост мог составлять 165,32 см. К каждому из этих вопросов мы привязывали какое-то число; мы привязали к нему некоторую измеримую величину.

Случайные переменные — это функции, которые отображают результат эксперимента в измеримую величину.

Теперь мы можем представить каждый из 3 вопросов случайной величиной. Например, пусть X₁ будет случайной величиной, представляющей количество людей, прошедших мимо вас. Обратите внимание на определение, что случайные величины являются функциями. Итак, в функциональной нотации мы можем записать следующее.

Это означает, что случайная величина X₁ — это функция, которая сопоставляет «количество людей, прошедших мимо вас» (результат эксперимента) с некоторым неотрицательным целым числом 10 (измеримая величина). Точно так же пусть X₂ будет случайной величиной, представляющей количество людей, которые прошли мимо вас и имели синие волосы. Тогда мы можем написать следующее.

Это означает, что X₂ — это функция, которая сопоставляет «количество людей, которые прошли мимо вас и имели синие волосы» (результат эксперимента) в неотрицательное целое число3 (измеримая величина). Аналогичным образом пусть X₃ будет случайной величиной, представляющей средний рост людей, прошедших мимо вас.

Это означает, что X₃ — это функция, которая сопоставляет «средний рост людей, прошедших мимо вас» (результат эксперимента) с неотрицательным действительным числом 165,32 ( измеряемая величина). Что делает эти случайные величины такими полезными, так это их способность превращать забавный эксперимент по наблюдению за людьми в числа, с которыми мы можем выполнять математические операции. В следующем разделе мы увидим, как эти случайные величины формируют ядро ​​функций распределения вероятностей.

3. Функции распределения вероятностей.

Случайные переменные дают нам способ количественной оценки результатов эксперимента. Но как именно ведут себя эти результаты (и, следовательно, случайные величины)? Мы можем понять это с помощью функций распределения вероятностей.

Во время нашего эксперимента мимо нас прошло 10 человек. «10 человек» — это пример «исхода». Однако мы могли бы пройти мимо 0 человек, или 1 человека, или 2 человек, и так далее. Следовательно, набор всех возможных исходов S эксперимента следующий.

Этот набор возможных результатов S называется «событием». Теперь запишем уравнение 4 в формальной математической записи. Пусть результатом одного эксперимента будет ω, а соответствующей случайной величиной будет X₁. Затем мы можем записать набор всех таких возможных исходов следующим образом.

Фигурные скобки {.} представляют набор; двоеточие «:» переводится как английская фраза «такой, что»; а ℤ⁺ представляет набор неотрицательных целых чисел, которые может принимать X₁. В этом контексте Уравнение 5 переводится в следующее утверждение на английском языке.

событиеS — это набор результатовω₁, таких, что случайная переменнаяX₁может принимать значение любого неотрицательного целого числа.

Вероятность события S составляет 100 % и, следовательно, менее интересна. Как правило, нас интересует событие, являющееся подмножеством S. Например, нас может заинтересовать ответ на вопрос «Какова вероятность того, что мимо нас пройдут 2 человека?». Мы можем определить другое событие A как набор интересующих нас исходов; в нашем случае нас интересует только результат «2 человека».

Мы можем записать это в более общем виде в следующих математических обозначениях.

На английском мы можем перевести уравнение 7 в следующее утверждение.

событиеA – это набор результатовω₁, таких, что случайная переменнаяX₁может принимать значение 2.

Теперь, когда у нас есть понимание «события», давайте теперь определим функцию распределения вероятностей.

Функции распределения вероятностей — это функции, которые сопоставляют событие с вероятностью возникновения этого события.

Пусть P — функция распределения вероятностей. Согласно определению, P — это функция. Следовательно, P принимает входные данные и возвращает выходные данные. Входными данными для этой функции распределения вероятностей является событие, а выходными данными является некоторое значение вероятности. В математической нотации мы можем записать P следующим образом.

Используя определение события A из уравнения 7 в уравнении 8, мы получаем следующее обозначение.

Это уравнение выглядит запутанным. Но используя случайные переменные, мы можем переписать уравнение 9 более кратким и интуитивно понятным способом.

Таким образом, используя случайные величины, мы можем использовать краткие математические обозначения, показанные в уравнении 10, в отличие от длинных формулировок на английском языке, показанных в уравнениях 1–3, и длинных математических обозначений. Уравнение 9. Теперь поговорим о типах функций распределения вероятностей; надеюсь, полезность случайных величин станет еще более очевидной, когда мы продолжим наше обсуждение.

3.1 Функция массы вероятности

Это функция распределения вероятностей дискретной случайной величины. Эта функция принимает значение случайной величины и сопоставляет его со значением вероятности. Например, функция массы вероятности pₓ может быть записана в следующих математических обозначениях.

X — дискретная случайная величина; x – это примерное значение, которое он может принимать. Согласно этому определению функция массы вероятности при X=x — это вероятность того, что случайная величина X примет значение x. Этот вывод можно рассматривать как вероятность массы случайной величины; это как масса в физике.

Случайная величина является дискретной, если она может принимать конечное число значений или счетно бесконечное число значений.

В нашем примере эксперимента мы обсудили случайную переменную X₁, которая представляет количество людей, прошедших мимо вас. Теоретически это может быть всего 0, если вы находитесь в тихой сельской местности, и столько же, сколько население мира (~ 8 миллиардов), если вы находитесь в центре гипотетического мегаполиса. мира. Таким образом, X₁ может принимать одно из 8 миллиардов различных значений: 1, 2, 3, …, 8 ⨉10⁹; это конечное число значений. Следовательно, X₁ — дискретная случайная величина. Функция распределения вероятностей для случайной величины X₁ может выглядеть примерно так, как показано на следующем графике.

По оси x показаны различные целые значения, которые может принимать X₁. По оси y показана вероятность, связанная с соответствующим значением X₁. Из графика мы можем сделать вывод, что вероятность того, что 10 человек прошли мимо вас во время эксперимента, составляла около 0,03. Другими словами,вероятность массы, связанная с X₁=10, составляет0,03.

Учитывая это определение функции массы вероятности, давайте обсудим два свойства, которые они проявляют.

Свойство 1: для каждого значения, которое может принимать случайная величина, значение функции массы вероятности является числом вероятности, большим или равным 0. На математическом языке мы можем написать следующее для случайной величины X₁.

ℤ⁺ представляет набор неотрицательных целых чисел, которые может принимать X₁.

Свойство 2. Если мы возьмем все возможные значения, которые может принять случайная величина X₁, и определим функцию массы вероятности для каждого из этих значений, общее количество будет равно 1.

Я надеюсь, что концепция дискретных случайных величин и вероятностных функций массы имеет смысл.

3.2. Функция плотности вероятности

Это функция распределения вероятностей непрерывной случайной величины. Эта функция принимает значение непрерывной случайной величины и отображает его в значение вероятности. Функция плотности вероятности fₓ может быть записана в следующих математических обозначениях.

Из этого уравнения функция плотности вероятности представляет собой долю вероятности (массы), когда непрерывная случайная величинаX принимает значения в бесконечно малом интервале, деленную на длину самого интервала (объема). . Следовательно, наблюдаемая здесь плотность такая же, как и в физике.

Для ясности нам нужен предел в уравнении 16, поскольку X является непрерывной случайной величиной и может принимать действительные значения. Предел указывает значение, к которому эта плотность будет стремиться, когда Δx приближается к 0 в положительном направлении. В этом разделе мы выведем некоторые свойства функций плотности вероятности, чтобы было ясно, зачем они нам нужны. Но сначала давайте начнем с определения непрерывных случайных величин.

Случайная величина является непрерывной, если она может принимать несчетное количество значений.

Рассмотрим случайную величину X₃, которая представляет собой средний рост людей, прошедших мимо вас во время эксперимента. Это значение может быть числом, например 165 см, 170 см. Вот наша первая попытка графического отображения этих данных.

Этот график дает хорошее общее представление данных. Однако это означает, что средний рост людей, измеренный в эксперименте, может быть только целым числом, разделенным цифрой 5. Это не обязательно верно; в конце концов, мы можем видеть случаи, когда средний рост может быть, например, близок к 166 см. Так что, возможно, мы можем разбить это так, чтобы каждый сантиметр обозначался по оси x.

Но Рисунок 3 по-прежнему неточен, поскольку у нас могут быть значения среднего роста: 165,5 см или 165,25 см или 165,25495824 см; X₃ может выполнить бесчисленное количество измерений. Следовательно, X₃ — непрерывная случайная величина. Чтобы представить распределение непрерывных случайных величин на графике, ширина каждой вертикальной прямоугольной полосы должна стать бесконечно малой; это приводит к плавной кривой.

Свойство 1. Основным свойством непрерывных случайных величин является то, что их функция массы вероятности равна 0 для любого значения, которое может принимать случайная величина. Математически это можно представить следующим уравнением.

Мы покажем, как это происходит, с помощью некоторого исчисления. Докажем этот факт, используя кумулятивную функцию распределения. Это вероятность того, что случайные величины X₃ примут любое значение, меньшее или равное некоторому значению x. Если мы представим F как кумулятивную функцию распределения, мы можем написать следующее обозначение.

Чтобы вычислить массу вероятности, связанную с непрерывной случайной величиной, возьмем разницу между кумулятивными функциями распределения X₃, когда она принимает значение x и немного меньшее значение. Давайте напишем это, используя только обозначение для функции распределения вероятностей P, чтобы увидеть, что происходит.

Для непрерывных переменных Δx — это бесконечно малое значение, которое сходится к 0. Таким образом, мы можем записать это, используя ограничения в математической нотации.

Решая этот предел, мы увидим, что функция массы вероятности непрерывной случайной величины X₃, принимающая любое значение x, будет равна 0.

Интуитивно это уравнение имеет смысл. Вероятность того, что средний рост людей в эксперименте составляет точно 165 см, а не 165 + 10⁻¹⁰⁰ или 16510⁻¹⁰⁰ будет сходиться к значению 0. Это означает, что фактически нет «массы» вероятности при работе с непрерывными случайными величинами в конкретной точке. Поэтому вместо измерения массы воспользуемся понятием плотности. Плотность - это масса на единицу объема.

Для непрерывных переменных, таких как X₃, дельта x представляет собой бесконечно малое значение, которое сходится к 0. Математически мы представляем это с помощью пределов.

Правая часть представляет собой формальное определение производной кумилятивной функции распределения.

Свойство 2. Поскольку кумулятивная функция распределения может принимать значения от 0 до 1, производная ведет себя аналогичным образом. Следовательно, еще одним важным свойством функции плотности вероятности является то, что она больше или равна 0.

Мы можем интегрировать обе стороны, чтобы избавиться от производной.

Свойство 3. Это показывает еще одно важное свойство: функция плотности вероятности по всем значениям непрерывной случайной величины интегрируется до 1.

Чтобы узнать больше об этих концепциях вероятности, посмотрите сопровождающее видео на YouTube (ссылки в Разделе 6).

3.3. Совместное распределение вероятностей

Теперь поговорим о совместном распределении вероятностей в контексте дискретных и непрерывных случайных величин. Чтобы мотивировать дискуссию, которая будет иметь смысл в контексте машинного обучения/реализма, давайте проведем еще один эксперимент. Найдите случайный дом на zillow.com и обратите внимание на цену дома и количество спален в нем; сделать это для 10 домов. Давайте теперь определим некоторые случайные величины

Мы определили 10 дискретных случайных величин от X₁ до X₁₀; по одному на каждый дом. Каждая из этих случайных величин дискретна, поскольку значения, которые они могут принимать, счетны. Теперь, когда у нас есть случайные переменные для сопоставления результатов событий с числами, мы можем провести некоторый анализ. Например, вероятность mass того, что в первом доме будет 3 спальни, может быть математически представлена ​​следующим уравнением.

Помните, что это масса вероятности, поскольку мы имеем дело с дискретной случайной величиной. Точно так же вероятность mass того, что количество спален в 3-м доме равно 9, может быть представлена ​​этим уравнением

Совместное распределение вероятностей укажет массу вероятности того, что обе эти случайные величины одновременно принимают некоторые значения. Совместная вероятность того, что в первом доме 3 спальни, а в третьем доме 9 спален, может быть представлена ​​математически.

В этом эксперименте мы наблюдали 10 домов; если мы запишем совместную вероятность наблюдения этих 10 значений, мы получим следующее обозначение, которое выбирает значение из каждой случайной величины.

Это для дискретного случая, когда свойства функции массы вероятности все еще остаются в силе. То есть масса вероятности больше или равна 0. В математической записи это будет выглядеть следующим образом.

Второе свойство утверждает, что эта совместная вероятностная масса всех возможных значений каждой случайной величины должна в сумме равняться 1.

Давайте теперь мотивируем пример на случай непрерывной случайной величины. Помните, когда мы документировали 10 домов, мы отметили количество спален и их цену. Давайте определим еще один набор из 10 случайных величин.

Мы определили 10 непрерывных случайных переменных от Y₁ до Y₁₀; по одному на каждый дом. Каждая из этих случайных величин непрерывна, поскольку значения, которые они могут принимать, неисчислимы. Теперь, когда у нас есть случайные переменные для сопоставления результатов событий с числами, мы можем провести некоторый анализ. Например, общую вероятность плотности первого дома стоимостью менее 300 000 долларов можно математически представить в следующем уравнении.

Точно так же общая вероятность плотности третьего дома меньше 700 000 долларов может быть математически представлена ​​в следующем уравнении.

Свойства совместных функций плотности вероятности аналогичны свойствам функций плотности для одиночных случайных величин.

Свойство 1. Например, вероятностная масса непрерывной случайной величины равна 0 в любой точке, как мы обсуждали ранее.

Свойство 2. Совместная плотность вероятности будет числом больше 0 для любого значения случайной величины.

Свойство 3. Кроме того, общая плотность совместной вероятности для всех значений каждой непрерывной случайной величины должна в сумме равняться 1.

Учитывая этот контекст для вероятностных распределений, давайте теперь свяжем все это вместе с приложением в машинном обучении.

4. Приложение машинного обучения

Возможно, одно из наиболее фундаментальных применений вероятности в машинном обучении — это оценка параметров статистической модели. Давайте продолжим эксперимент по поиску на zillow.com информации о домах, выставленных на продажу. Вот несколько примеров списков, которые вы можете увидеть.

Допустим, с учетом этих списков мы хотим построить статистическую модель для прогнозирования цены, по которой продается дом, с учетом информации о доме, такой как размер дома в квадратных футах, возраст дома и количество спален.

Во время нашего эксперимента zillow.com мы просмотрим 10 000 домов и соберем эту информацию для каждого дома. В конечном итоге мы можем построить таблицу, которая выглядит следующим образом.

Теперь давайте поговорим о том, как вписывается математика. В этом эксперименте мы можем рассматривать событие как акт осмотра каждого дома и сбора информации. Итак, мы можем придумать некоторые случайные величины следующим образом.

Другими словами, для каждого дома, который мы видим на Zillow, мы можем создать 4 случайные величины. Допустим, 5-й дом, который мы наблюдаем, — это первый дом на рисунке 5. Мы можем определить 4 случайные величины следующим образом.

Таким образом, для 10 000 домов мы можем таким же образом создать 40 000 случайных величин. Итак, мы смогли преобразовать событие просмотра списка домов на zillow.com в числа, над которыми мы можем выполнять математические действия.

Теперь, когда мы определили наши случайные величины, какие из них являются дискретными случайными величинами; которые являются непрерывными случайными величинами? Количество спален исчислимо, поэтому все 10 000 случайных величин Xᵢ анализируются как дискретная случайная величина. С другой стороны, размер дома, возраст и цена — это измерения, каждое из которых может принимать бесчисленное количество значений. Следовательно, все 30 000 других случайных величин Wᵢ, Vᵢ, Yᵢ анализируются как непрерывные случайные величины.

Давайте теперь воспользуемся собранными нами данными и концепцией случайных величин для оценки параметров нашей статистической модели. Но прежде чем сделать это, давайте добавим в схему модели немного формальной математики. Я хочу, чтобы статистическая модель была простой линейной регрессией.

Это уравнение гипотезы линейной регрессии. Запишем это уравнение более формально.

Обратите внимание, что переменные x, y, v, w в этом уравнении не являются случайными; они представляют собой конкретное значение, которое может принимать выход случайной величины. y — цена дома, которую мы хотим предсказать; x, v, w — фрагменты имеющейся у нас информации о жилье; члены 𝜃 — это параметры модели, которые нам нужно оценить; а эпсилон - неустранимая ошибка. Члены 𝜃 в уравнении X обычно рассчитываются с помощью метода, называемого оценкой максимального правдоподобия.

4.2 Оценка максимального правдоподобия

Интуитивно мы хотим определить значения параметров в уравнении X, которые лучше всего соответствуют ценам на 10 000 домов, которые мы видели; это должна быть лучшая модель. Математически это эквивалентно нахождению значений параметров, которые максимизируют совместную плотность вероятности наблюдения цены первого дома, равной y1, и цены второго дома, равной y2, и так далее. В математической записи мы представляем это с помощью следующего уравнения.

Обратите внимание на использование слова плотность, поскольку мы имеем дело с непрерывными случайными величинами. arg max используется для обозначения «значения параметров, которые максимизируют эту функцию»; эта функция является совместной функцией плотности вероятности. В машинном обучении мы делаем предположение, что цены на жилье распределяются независимо и одинаково; мы сломаем это. «Независимо распределенный» подразумевает, что тот факт, что цена дома 1 не влияет и не зависит от цены любого другого дома в нашем наборе данных из 10 000 домов; это разумное предположение. Математически это означает, что совместная плотность вероятности такая же, как произведение ее составных частей.

Поскольку мы знаем, что каждый Y является непрерывной случайной величиной, мы можем использовать обозначения, которые мы узнали о функциях плотности вероятности. Результат представляет собой произведение функций плотности вероятности.

Итак, мы можем заменить правую часть уравнения X произведением функций плотности вероятности.

Очень хорошо! Вторая часть независимого и идентичного распределения называется «идентично распределенным». Как мы видели из раздела о непрерывных случайных величинах, каждая случайная величина может вести себя по-разному; следовательно, они имеют свои функции распределения. Однако мы предполагаем, что распределение потенциальной цены дома для первого дома такое же, как и для остальных 10 000 домов. Это означает, что плотность вероятности в одних и тех же точках для любой из случайных величин Yᵢ одинакова.

Это означает, что мы можем переписать уравнение X, просто используя случайную переменную Y вместо 10 000 Yᵢ.

Сократим это обозначение символом произведения следующим образом.

Приятно снова! У нас есть компактная запись. То, что мы делаем отсюда, действительно зависит от типа статистической модели, которую мы строим. В нашем примере мы пытаемся построить модель линейной регрессии; поэтому предполагается, что функция плотности вероятности следует нормальному распределению. Интересная реализация после выполнения этой математики заключается в том, что оптимальные значения 𝜃 будут значениями, которые максимизируют остаточное уравнение суммы квадратов в случае линейной регрессии, фундаментальное уравнение в машинном обучении. Если вам интересно узнать об этом производном, ссылки на ресурсы приведены ниже. Кроме того, если вы заинтересованы в расширенном математическом обсуждении вероятности и ее связи с вероятностью, посмотрите мой другой средний пост в блоге и это видео на моем канале YouTube Code Emporium.

5. Вывод

В этом посте мы говорили о том, как случайные величины позволяют нам количественно оценить результат эксперимента. Затем мы поняли поведение этих случайных величин, используя функции распределения вероятностей. В зависимости от того, является ли измеряемая случайная величина дискретной или непрерывной, мы можем рисовать различные типы функций распределения вероятностей; функции массы вероятности для дискретных случайных величин и функции плотности вероятности для изучения непрерывных случайных величин. Наконец, мы связали все эти концепции вместе, используя машинное обучение, поняв, как можно оценить параметры статистической модели с оценкой максимального правдоподобия.

Спасибо, что дочитали до конца! Подробное обсуждение математических концепций и того, как они связаны с машинным обучением, можно найти на моем канале YouTube «Code Emporium» и других ресурсах ниже.

Все изображения без указания источника созданы автором

6. Ресурсы

[1] Code Emporium, Теория вероятностей для машинного обучения (2022), YouTube.

[2] Имперский колледж Лондона, Математика для машинного обучения, Coursera

[3] Университет Джона Хопкинса, Расширенная статистика для науки о данных, Coursera

[4] Сиднейский университет, Введение в исчисление, Coursera

[5] Аджай Халтор, Правдоподобие, вероятность и математика, которые вы должны знать (2022), Towards Data Science

[6] Деннис Сан, Введение в вероятность (2020)

[7] Йорам Соч, Оценка максимального правдоподобия для простой линейной регрессии (2021), Книга статистических доказательств