Вероятностные свойства языка — различия между версиями

Материал из synset
Перейти к: навигация, поиск
Строка 14: Строка 14:
 
  p(эт)= N(эт)/N(**) = 0.002,  p(э => т) = N(эт)/N(э*) = 0.739
 
  p(эт)= N(эт)/N(**) = 0.002,  p(э => т) = N(эт)/N(э*) = 0.739
  
где <math>\textstyle N</math> &mdash; число подстрок, удовлетворяющих соответствующей маске. Для текста из <math>\textstyle n</math> символов <math>\textstyle N(**)=n-1</math>, а <math>\textstyle N(э*)=p(э)\cdot n</math>. Понятно, что количество как совместных, так и условных вероятностей для двух букв равно <math>\textstyle 33^2=1089</math>.
+
где <math>\textstyle N</math> &mdash; число подстрок, удовлетворяющих соответствующей маске. Для текста из <math>\textstyle n</math> символов <math>\textstyle N(**)=n-1</math>, а N(э*)=p(э) n. Понятно, что количество как совместных, так и условных вероятностей для двух букв равно <math>\textstyle 33^2=1089</math>.
  
 
Вероятность встретить в тексте конкретную букву зависит от предыстории (предшествующих букв). Например, после "'''э'''" вероятность появления "'''т'''" в 14 раз выше, чем безусловная вероятность появления буквы "'''т'''":  p(т)=0.051. Наоборот, некоторые сочетания букв крайне сложно произносимы. Например, после "'''б'''"  вряд ли появится "'''п'''".
 
Вероятность встретить в тексте конкретную букву зависит от предыстории (предшествующих букв). Например, после "'''э'''" вероятность появления "'''т'''" в 14 раз выше, чем безусловная вероятность появления буквы "'''т'''":  p(т)=0.051. Наоборот, некоторые сочетания букв крайне сложно произносимы. Например, после "'''б'''"  вряд ли появится "'''п'''".

Версия 15:05, 27 января 2010

Совместная и условная вероятность << Оглавление >> Стохастическая зависимость

Рассмотрим вероятностные свойства русского языка. Каждая из 33-х букв, включая пробел "_", имеет свою вероятность появления её в тексте:

p(_)=0.163,   p(о)=0.0940,  p(е)=0.0696,...,   p(ъ)=0.0002.

Если мы хотим определить вероятность встречи в произвольном месте некоторой подстроки, например, "эт", мы должны подсчитать число таких подстрок и разделить на общее число всех подстрок вида "**", где звёздочка обозначает любой символ. Для вычисления условной вероятности P(э => т) появления буквы "т", если перед ней стоит "э", необходимо отобрать все подстроки, удовлетворяющие маске "э*" ("э", затем любой символ "*"), и выяснить, сколько среди них "эт". В результате:

p(эт)= N(эт)/N(**) = 0.002,   p(э => т) = N(эт)/N(э*) = 0.739

где — число подстрок, удовлетворяющих соответствующей маске. Для текста из символов , а N(э*)=p(э) n. Понятно, что количество как совместных, так и условных вероятностей для двух букв равно .

Вероятность встретить в тексте конкретную букву зависит от предыстории (предшествующих букв). Например, после "э" вероятность появления "т" в 14 раз выше, чем безусловная вероятность появления буквы "т": p(т)=0.051. Наоборот, некоторые сочетания букв крайне сложно произносимы. Например, после "б" вряд ли появится "п".

Зная условные вероятности, можно создавать синтетические тексты. Так, по известной предыстории "...cba" новая буква "x" генерится с вероятностью, равной . Чем длиннее предыстория условной вероятности, тем более "благозвучные" получаются сочетания:

  • : а аотовчеи вс оувмпйоийпгунлрстк и рннсаьеоивотрл денааслеоуеаиои нш и охаиоооомызкнт ннсо врыь ттлмоооас л чоулвкт;
  • : волизлитоди нугрндатнухак мисо о меловли одетестроскась нудатотосрато сдото сялушлана ини н дышетазеноноразабыт;
  • : не толда при ной зловьются дально ка коров и к бы сли казас тали ива не же с повся обыл казакорну об это бы никтолу;
  • : не заблюди он майта втобы из местью секратное и надо сказаление вдруг нашает и потороткостор да выше ну задередило.

В первом случае использованы одиночные вероятности и никак не учитывается история. Во втором — только предшествующая буква определяет следующую, и т.д.

В качестве второго примера воспользуемся данными ежедневных цен закрытия фондового индекса S\&P500. Вычислим его логарифмические доходности в процентах ( C). Разобьём диапазон их значений на пять интервалов:

Таким образом, состояние рынка будут характеризоваться одной из пяти возможностей: от "паники" до "эйфории" . Соответственно, каждое становится дискретной случайной величиной, принимающей пять значений. В этом случае это уже будут не доходности, а номера состояний рынка, например -2,-1,0,1,2.

Можно рассмотреть совместную вероятность того, что два последовательных дня имеют состояния и . Каждый день реализуется одна из пяти возможностей, поэтому для двух последовательных дней будет различных комбинаций таких состояний: {(0,0); (0,1); (0,-1);...}. За период 1990—2007 г. г. был торговый день. Вероятности каждого из пяти состояний имели значения:

Для их вычисления необходимо подсчитать, сколько торговых дней оказывается в каждом состоянии, после чего разделить их на . Наиболее типичными для рынка являются спокойные дни , которые происходили раз. Аналогично буквам из предыдущего примера вычисляются условные вероятности:

Первая строка в этой матрице соответствует переходу из состояния "паники" вчера в одно из пяти возможных состояний сегодня. Аналогично последняя строка даёт условные вероятности перехода из состояния "эйфории". Обращает на себя внимание то, что вероятности перехода из "спокойного" рынка (средняя строка), практически совпадают с безусловными вероятностями . Если же вчера рынок не был спокойным, вероятности отклоняются от однодневных. Особенно это заметно ( C) для крайних строк "паники" и "эйфории". Так как полная вероятность перейти хоть в какое-то состояние равна единице, то сумма чисел в каждой строке также равна единице [ см. (1.18)].


Совместная и условная вероятность << Оглавление >> Стохастическая зависимость

Стохастический мир - простое введение в стохастические дифференциальные уравнения