Совместная и условная вероятность — различия между версиями

Материал из synset
Перейти к: навигация, поиск
(Совместная и условная вероятности)
(Совместная и условная вероятности)
Строка 17: Строка 17:
 
Как мы увидим в следующем разделе, совместная плотность вероятности <math>\textstyle P(x,y)</math> особенно важна, если между случайными величинами существует некоторая зависимость. Эта связь может иметь функциональную форму <math>\textstyle y=f(x)</math>. Тогда, если для <math>\textstyle x</math> реализуется некоторое значение, то величина  <math>\textstyle y</math> будет полностью предопределена. Однако чаще <math>\textstyle y=f(x,\xi)</math>, где <math>\textstyle \xi</math> &mdash; третья, "ненаблюдаемая", случайная переменная. Она может быть непредсказуемым внешним воздействием, меняющим параметры функциональной зависимости <math>\textstyle y=f(x)</math>, или динамической переменной, которую мы не учли в более простой модели.
 
Как мы увидим в следующем разделе, совместная плотность вероятности <math>\textstyle P(x,y)</math> особенно важна, если между случайными величинами существует некоторая зависимость. Эта связь может иметь функциональную форму <math>\textstyle y=f(x)</math>. Тогда, если для <math>\textstyle x</math> реализуется некоторое значение, то величина  <math>\textstyle y</math> будет полностью предопределена. Однако чаще <math>\textstyle y=f(x,\xi)</math>, где <math>\textstyle \xi</math> &mdash; третья, "ненаблюдаемая", случайная переменная. Она может быть непредсказуемым внешним воздействием, меняющим параметры функциональной зависимости <math>\textstyle y=f(x)</math>, или динамической переменной, которую мы не учли в более простой модели.
  
<math>\textstyle \bullet</math> Кроме совместной вероятности двух величин <math>\textstyle x</math> и <math>\textstyle y</math> удобно ввести ''условную плотность вероятности''. Она отвечает на вопрос,  "какова вероятность <math>\textstyle y</math>, если уже известно значение величины <math>\textstyle x</math>". Условная плотность равна совместной <math>\textstyle P(x,y)</math>, нормированной на вероятность уже доступной информации <math>\textstyle P(x)</math> (см. также стр. \pageref{math_cond_prob} в приложении М):
+
<math>\textstyle \bullet</math> Кроме совместной вероятности двух величин <math>\textstyle x</math> и <math>\textstyle y</math> удобно ввести ''условную плотность вероятности''. Она отвечает на вопрос,  "какова вероятность <math>\textstyle y</math>, если уже известно значение величины <math>\textstyle x</math>". Условная плотность равна совместной <math>\textstyle P(x,y)</math>, нормированной на вероятность уже доступной информации <math>\textstyle P(x)</math>:
  
 
:<center><math> { \;P(x\Rightarrow y)=\frac{P(x,y)}{P(x)}\; }. </math></center>
 
:<center><math> { \;P(x\Rightarrow y)=\frac{P(x,y)}{P(x)}\; }. </math></center>

Версия 12:49, 21 января 2010

Совместная и условная вероятности

Пусть мы имеем дело с двумя случайными величинами и . В этом случае наблюдаются пары эмпирических значений и т.д., возникающие с той или иной частотой. Поэтому можно говорить о совместной плотности вероятности того, что величины принимают некоторые значения в окрестности и .

Совместная вероятность позволяет вычислять среднее от произвольной функции двух аргументов:

Если мы не интересуемся значением величины , можно проинтегрировать по всем её возможным реализациям и получить плотность вероятности только для величины :

Интегрирование ещё раз левой и правой части по даст единицу. Поэтому условие нормировки имеет форму двойного интеграла. Оно получается из (1.15), если положить , так как .

Одновременное изучение и необязательно означает их временное совпадение. Например, в финансах может быть изменением цены за день европейского фондового индекса, а — американского, торгуемого после европейского. Между ними существует причинная связь, разделённая временем. С другой стороны, изменение цен двух акций и за день происходит одновременно и зависит от внешних синхронизирующих факторов (новости, макроэкономика и т.д.).

Как мы увидим в следующем разделе, совместная плотность вероятности особенно важна, если между случайными величинами существует некоторая зависимость. Эта связь может иметь функциональную форму . Тогда, если для реализуется некоторое значение, то величина будет полностью предопределена. Однако чаще , где — третья, "ненаблюдаемая", случайная переменная. Она может быть непредсказуемым внешним воздействием, меняющим параметры функциональной зависимости , или динамической переменной, которую мы не учли в более простой модели.

Кроме совместной вероятности двух величин и удобно ввести условную плотность вероятности. Она отвечает на вопрос, "какова вероятность , если уже известно значение величины ". Условная плотность равна совместной , нормированной на вероятность уже доступной информации :

В качестве примера для рассмотрим нормальное распределение (), а для совместной плотности вероятности — "двумерную повёрнутую" гауссиану:

Совместная и условная вероятности представлены на рисунке ниже:

Файл:Gauss prob.gif

\ Объём под равен единице, тогда как под — бесконечности. Нормировка условной вероятности имеет смысл получения любого значения при данном :

Стоит проверить, что формула () согласуется с ().

Для условной вероятности распространено обозначение . Однако ниже мы увидим, что оказывается более естественной записью при описании цепочек связанных между собой событий. В любом случае , как и , — это функция двух вещественных аргументов.

Условная вероятность важна, так как позволяет связать друг с другом разнообразные события, отражая их причинно-следственную связь.

Рассмотрим вероятностные свойства русского языка. Каждая из 33-х букв, включая пробел "\_", имеет свою вероятность появления её в тексте:

Невозможно разобрать выражение (синтаксическая ошибка): {\displaystyle p(\_)=0.163,\;\;p(о)=0.0940,\;\;p(е)=0.0696,...,\;p(ъ)=0.0002.}

Если мы хотим определить вероятность встречи в произвольном месте некоторой подстроки, например, "эт", мы должны подсчитать число таких подстрок и разделить на общее число всех подстрок вида "**", где звёздочка обозначает любой символ. Для вычисления условной вероятности Невозможно разобрать выражение (синтаксическая ошибка): {\displaystyle \textstyle P(э \Rightarrow т)} появления буквы "т", если перед ней стоит "э", необходимо отобрать все подстроки, удовлетворяющие маске "э*" ("э", затем любой символ "*"), и выяснить, сколько среди них "эт". В результате:

Невозможно разобрать выражение (синтаксическая ошибка): {\displaystyle p(эт)= N(эт)/N(**) = 0.002,\;\;\;\;\;\;\; p(э\Rightarrow т) = N(эт)/N(э*) = 0.739,}

где — число подстрок, удовлетворяющих соответствующей маске. Для текста из символов , а Невозможно разобрать выражение (синтаксическая ошибка): {\displaystyle \textstyle N(э*)=p(э)\cdot n} . Понятно, что количество как совместных, так и условных вероятностей для двух букв равно .

Вероятность встретить в тексте конкретную букву зависит от предыстории (предшествующих букв). Например, после "э" вероятность появления "т" в 14 раз выше, чем безусловная вероятность появления буквы "т": Невозможно разобрать выражение (синтаксическая ошибка): {\displaystyle \textstyle p(т)=0.051} . Наоборот, некоторые сочетания букв крайне сложно произносимы. Например, после "б" вряд ли появится "п".

Зная условные вероятности, можно создавать синтетические тексты. Так, по известной предыстории "...cba" новая буква "x" генерится с вероятностью, равной . Чем длиннее предыстория условной вероятности, тем более "благозвучные" получаются сочетания: \item[] : а аотовчеи вс оувмпйоийпгунлрстк и рннсаьеоивотрл денааслеоуеаиои нш и охаиоооомызкнт ннсо врыь ттлмоооас л чоулвкт; \item[] : волизлитоди нугрндатнухак мисо о меловли одетестроскась нудатотосрато сдото сялушлана ини н дышетазеноноразабыт; \item[] : не толда при ной зловьются дально ка коров и к бы сли казас тали ива не же с повся обыл казакорну об это бы никтолу; \item[] : не заблюди он майта втобы из местью секратное и надо сказаление вдруг нашает и потороткостор да выше ну задередило. В первом случае использованы одиночные вероятности и никак не учитывается история. Во втором — только предшествующая буква определяет следующую, и т.д.

В качестве второго примера воспользуемся данными ежедневных цен закрытия фондового индекса S\&P500. Вычислим его логарифмические доходности в процентах ( C). Разобьём диапазон их значений на пять интервалов:

Таким образом, состояние рынка будут характеризоваться одной из пяти возможностей: от "паники" до "эйфории" . Соответственно, каждое становится дискретной случайной величиной, принимающей пять значений. В этом случае это уже будут не доходности, а номера состояний рынка, например -2,-1,0,1,2.

Можно рассмотреть совместную вероятность того, что два последовательных дня имеют состояния и . Каждый день реализуется одна из пяти возможностей, поэтому для двух последовательных дней будет различных комбинаций таких состояний: \{(0,0); (0,1); (0,-1);...\}. За период 1990—2007 г. г. был торговый день. Вероятности каждого из пяти состояний имели значения:

Для их вычисления необходимо подсчитать, сколько торговых дней оказывается в каждом состоянии, после чего разделить их на . Наиболее типичными для рынка являются спокойные дни , которые происходили раз. Аналогично буквам из предыдущего примера вычисляются условные вероятности:

Первая строка в этой матрице соответствует переходу из состояния "паники" вчера в одно из пяти возможных состояний сегодня. Аналогично последняя строка даёт условные вероятности перехода из состояния "эйфории". Обращает на себя внимание то, что вероятности перехода из "спокойного" рынка (средняя строка), практически совпадают с безусловными вероятностями . Если же вчера рынок не был спокойным, вероятности отклоняются от однодневных. Особенно это заметно ( C) для крайних строк "паники" и "эйфории". Так как полная вероятность перейти хоть в какое-то состояние равна единице, то сумма чисел в каждой строке также равна единице [ см. ()].