Вероятностные свойства языка — различия между версиями

Текущая версия на 14:00, 11 февраля 2010

Совместная и условная вероятность <<	Оглавление	>> Вероятности состояния рынка

$\textstyle \bullet$ Рассмотрим вероятностные свойства русского языка. Каждая из 33-х букв, включая пробел "_", имеет свою вероятность появления её в тексте:

p(_)=0.163,   p(о)=0.0940,  p(е)=0.0696,...,   p(ъ)=0.0002.

Если мы хотим определить вероятность встречи в произвольном месте некоторой подстроки, например, "эт", мы должны подсчитать число таких подстрок и разделить на общее число всех подстрок вида "**", где звёздочка обозначает любой символ. Для вычисления условной вероятности P(э => т) появления буквы "т", если перед ней стоит "э", необходимо отобрать все подстроки, удовлетворяющие маске "э*" ("э", затем любой символ "*"), и выяснить, сколько среди них "эт". В результате:

p(эт)= N(эт)/N(**) = 0.002,   p(э => т) = N(эт)/N(э*) = 0.739

где $\textstyle N$ — число подстрок, удовлетворяющих соответствующей маске. Для текста из $\textstyle n$ символов $\textstyle N(**)=n-1$ , а N(э*)=p(э) n. Понятно, что количество как совместных, так и условных вероятностей для двух букв равно $\textstyle 33^{2}=1089$ .

Вероятность встретить в тексте конкретную букву зависит от предыстории (предшествующих букв). Например, после "э" вероятность появления "т" в 14 раз выше, чем безусловная вероятность появления буквы "т": p(т)=0.051. Наоборот, некоторые сочетания букв крайне сложно произносимы. Например, после "б" вряд ли появится "п".

Зная условные вероятности, можно создавать синтетические тексты. Так, по известной предыстории "...cba" новая буква "x" генерится с вероятностью, равной $\textstyle p(...cba\Rightarrow x)$ . Чем длиннее предыстория условной вероятности, тем более "благозвучные" получаются сочетания:

$\textstyle P(x)$ : а аотовчеи вс оувмпйоийпгунлрстк и рннсаьеоивотрл денааслеоуеаиои нш и охаиоооомызкнт ннсо врыь ттлмоооас л чоулвкт;

$\textstyle P(a\Rightarrow x)$ : волизлитоди нугрндатнухак мисо о меловли одетестроскась нудатотосрато сдото сялушлана ини н дышетазеноноразабыт;

$\textstyle P(ba\Rightarrow x)$ : не толда при ной зловьются дально ка коров и к бы сли казас тали ива не же с повся обыл казакорну об это бы никтолу;

$\textstyle P(cba\Rightarrow x)$ : не заблюди он майта втобы из местью секратное и надо сказаление вдруг нашает и потороткостор да выше ну задередило.

В первом случае использованы одиночные вероятности и никак не учитывается история. Во втором — только предшествующая буква определяет следующую, и т.д.

Совместная и условная вероятность <<	Оглавление	>> Вероятности состояния рынка

Стохастический мир - простое введение в стохастические дифференциальные уравнения

@@ Строка 2: / Строка 2: @@
   | width="40%"|[[Совместная и условная вероятность]] <<
   ! width="20%"|[[Стохастический мир|Оглавление]]
-  | width="40%" align="right"| >> [[Стохастическая зависимость]]
+  | width="40%" align="right"| >> [[Вероятности состояния рынка]]
 |}
@@ Строка 10: / Строка 10: @@
   p(_)=0.163,   p(о)=0.0940,  p(е)=0.0696,...,   p(ъ)=0.0002.
-Если мы хотим определить вероятность встречи в произвольном месте некоторой подстроки, например, "'''эт'''",  мы должны подсчитать число таких подстрок  и разделить на  общее число всех подстрок вида "'''**'''", где звёздочка обозначает любой символ. Для вычисления условной вероятности <math>\textstyle P(э \Rightarrow т)</math> появления буквы  "'''т'''", если перед ней стоит "'''э'''", необходимо отобрать все подстроки, удовлетворяющие маске "'''э*'''"  ("'''э'''", затем любой символ "'''*'''"), и выяснить, сколько среди них "'''эт'''". В результате:
+Если мы хотим определить вероятность встречи в произвольном месте некоторой подстроки, например, "'''эт'''",  мы должны подсчитать число таких подстрок  и разделить на  общее число всех подстрок вида "'''**'''", где звёздочка обозначает любой символ. Для вычисления условной вероятности  P(э => т) появления буквы  "'''т'''", если перед ней стоит "'''э'''", необходимо отобрать все подстроки, удовлетворяющие маске "'''э*'''"  ("'''э'''", затем любой символ "'''*'''"), и выяснить, сколько среди них "'''эт'''". В результате:
   p(эт)= N(эт)/N(**) = 0.002,   p(э => т) = N(эт)/N(э*) = 0.739
-где <math>\textstyle N</math> &mdash; число подстрок, удовлетворяющих соответствующей маске. Для текста из <math>\textstyle n</math> символов <math>\textstyle N(**)=n-1</math>, а <math>\textstyle N(э*)=p(э)\cdot n</math>. Понятно, что количество как совместных, так и условных вероятностей для двух букв равно <math>\textstyle 33^2=1089</math>.
+где <math>\textstyle N</math> &mdash; число подстрок, удовлетворяющих соответствующей маске. Для текста из <math>\textstyle n</math> символов <math>\textstyle N(**)=n-1</math>, а  N(э*)=p(э) n. Понятно, что количество как совместных, так и условных вероятностей для двух букв равно <math>\textstyle 33^2=1089</math>.
 Вероятность встретить в тексте конкретную букву зависит от предыстории (предшествующих букв). Например, после "'''э'''" вероятность появления "'''т'''" в 14 раз выше, чем безусловная вероятность появления буквы "'''т'''":  p(т)=0.051. Наоборот, некоторые сочетания букв крайне сложно произносимы. Например, после "'''б'''"  вряд ли появится "'''п'''".
@@ Строка 29: / Строка 29: @@
 В первом случае использованы одиночные вероятности и никак не учитывается история. Во втором &mdash; только предшествующая буква определяет следующую, и т.д.
-<math>\textstyle \bullet</math> В качестве второго примера воспользуемся данными ежедневных цен закрытия <math>\textstyle x_t</math> фондового индекса S\&P500. Вычислим его логарифмические доходности <math>\textstyle r_t=\ln (x_t/x_{t-1})</math> в процентах (<math>\textstyle \lessdot</math> C). Разобьём диапазон их значений на пять интервалов:
-:<center><math>(-\infty ... -3\%),\;\;\;[-3\% ... -1\%),\;\;\;[-1\% ... +1\%],\;\;\;(+1\% ... +3\%],\;\;\;(+3\% ... +\infty).</math></center>
-Таким образом, состояние рынка будут характеризоваться одной из пяти возможностей: от "паники" <math>\textstyle (-\infty ... -3\%)</math> до "эйфории" <math>\textstyle (+3\% ... \infty)</math>. Соответственно, каждое <math>\textstyle r_t</math> становится дискретной случайной величиной, принимающей пять значений.  В этом случае это уже будут не доходности, а номера состояний рынка, например -2,-1,0,1,2.
-Можно рассмотреть ''совместную вероятность'' <math>\textstyle p(r_{t-1}, r_t)</math> того, что два последовательных дня  имеют состояния <math>\textstyle r_{t-1}</math> и <math>\textstyle r_{t}</math>. Каждый день реализуется одна из пяти возможностей, поэтому для двух последовательных дней будет <math>\textstyle 25=5^2</math> различных комбинаций таких состояний: {(0,0);  (0,1); (0,-1);...}. За период 1990&mdash;2007 г. г. был  <math>\textstyle n=4531</math> торговый  день. Вероятности каждого из пяти состояний имели значения:
-:<center><math>\;\;\;\;\;\;\;\;\;\;
-p(r) = \begin{pmatrix} 0.007\; & 0.110\; & 0.761\; & 0.125\; & 0.007   \ \end{pmatrix}.</math></center>
-Для их вычисления необходимо подсчитать, сколько торговых дней оказывается в каждом состоянии, после чего разделить их на <math>\textstyle n</math>. Наиболее типичными для рынка являются спокойные дни <math>\textstyle [-1\%...+1\%]</math>, которые происходили <math>\textstyle 3451=0.76 \cdot 4531</math> раз. Аналогично буквам из предыдущего примера вычисляются  условные вероятности:
-:<center><math>p(r_{t-1} \Rightarrow r_t) =
-\begin{pmatrix}
-.067\; & 0.167\;  &0.400\;   &0.267\;   &0.100   \\
-.022\; & 0.146\;  &0.651\;   &0.168\;   &0.014   \\
-.004\; & 0.107\;  &0.783\;   &0.102\;   &0.004   \\
-.006\; & 0.084\;  &0.759\;   &0.138\;   &0.013  \\
-.000\; & 0.303\;  &0.515\;   &0.152\;   &0.030  \\
-\end{pmatrix}.
-</math></center>
-Первая строка в этой матрице соответствует переходу из состояния "паники" вчера в одно из пяти возможных состояний сегодня. Аналогично последняя строка даёт условные вероятности перехода из состояния "эйфории". Обращает на себя внимание то, что вероятности перехода из "спокойного" рынка (средняя строка), практически совпадают с безусловными вероятностями <math>\textstyle p(r)</math>. Если же вчера рынок не был спокойным, вероятности отклоняются от однодневных. Особенно это заметно (<math>\textstyle \lessdot</math> C) для крайних строк "паники" и "эйфории". Так как полная вероятность перейти хоть в какое-то состояние равна единице, то сумма чисел в каждой строке также равна единице [ см. (1.18)].
 ----
@@ Строка 59: / Строка 34: @@
   | width="40%"|[[Совместная и условная вероятность]] <<
   ! width="20%"|[[Стохастический мир|Оглавление]]
-  | width="40%" align="right"| >> [[Стохастическая зависимость]]
+  | width="40%" align="right"| >> [[Вероятности состояния рынка]]
 |}
 ----
 [[Стохастический мир]] - простое введение в стохастические дифференциальные уравнения

Вероятностные свойства языка — различия между версиями

Текущая версия на 14:00, 11 февраля 2010

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

почитай

Инструменты