Вероятностные свойства языка — различия между версиями
WikiSysop (обсуждение | вклад) м |
WikiSysop (обсуждение | вклад) м (Защищена страница «Вероятностные свойства языка» ([edit=sysop] (бессрочно) [move=sysop] (бессрочно))) |
||
(не показаны 3 промежуточные версии этого же участника) | |||
Строка 2: | Строка 2: | ||
| width="40%"|[[Совместная и условная вероятность]] << | | width="40%"|[[Совместная и условная вероятность]] << | ||
! width="20%"|[[Стохастический мир|Оглавление]] | ! width="20%"|[[Стохастический мир|Оглавление]] | ||
− | | width="40%" align="right"| >> [[ | + | | width="40%" align="right"| >> [[Вероятности состояния рынка]] |
|} | |} | ||
Строка 10: | Строка 10: | ||
p(_)=0.163, p(о)=0.0940, p(е)=0.0696,..., p(ъ)=0.0002. | p(_)=0.163, p(о)=0.0940, p(е)=0.0696,..., p(ъ)=0.0002. | ||
− | Если мы хотим определить вероятность встречи в произвольном месте некоторой подстроки, например, "'''эт'''", мы должны подсчитать число таких подстрок и разделить на общее число всех подстрок вида "'''**'''", где звёздочка обозначает любой символ. Для вычисления условной вероятности | + | Если мы хотим определить вероятность встречи в произвольном месте некоторой подстроки, например, "'''эт'''", мы должны подсчитать число таких подстрок и разделить на общее число всех подстрок вида "'''**'''", где звёздочка обозначает любой символ. Для вычисления условной вероятности P(э => т) появления буквы "'''т'''", если перед ней стоит "'''э'''", необходимо отобрать все подстроки, удовлетворяющие маске "'''э*'''" ("'''э'''", затем любой символ "'''*'''"), и выяснить, сколько среди них "'''эт'''". В результате: |
p(эт)= N(эт)/N(**) = 0.002, p(э => т) = N(эт)/N(э*) = 0.739 | p(эт)= N(эт)/N(**) = 0.002, p(э => т) = N(эт)/N(э*) = 0.739 | ||
− | где <math>\textstyle N</math> — число подстрок, удовлетворяющих соответствующей маске. Для текста из <math>\textstyle n</math> символов <math>\textstyle N(**)=n-1</math>, а | + | где <math>\textstyle N</math> — число подстрок, удовлетворяющих соответствующей маске. Для текста из <math>\textstyle n</math> символов <math>\textstyle N(**)=n-1</math>, а N(э*)=p(э) n. Понятно, что количество как совместных, так и условных вероятностей для двух букв равно <math>\textstyle 33^2=1089</math>. |
Вероятность встретить в тексте конкретную букву зависит от предыстории (предшествующих букв). Например, после "'''э'''" вероятность появления "'''т'''" в 14 раз выше, чем безусловная вероятность появления буквы "'''т'''": p(т)=0.051. Наоборот, некоторые сочетания букв крайне сложно произносимы. Например, после "'''б'''" вряд ли появится "'''п'''". | Вероятность встретить в тексте конкретную букву зависит от предыстории (предшествующих букв). Например, после "'''э'''" вероятность появления "'''т'''" в 14 раз выше, чем безусловная вероятность появления буквы "'''т'''": p(т)=0.051. Наоборот, некоторые сочетания букв крайне сложно произносимы. Например, после "'''б'''" вряд ли появится "'''п'''". | ||
Строка 29: | Строка 29: | ||
В первом случае использованы одиночные вероятности и никак не учитывается история. Во втором — только предшествующая буква определяет следующую, и т.д. | В первом случае использованы одиночные вероятности и никак не учитывается история. Во втором — только предшествующая буква определяет следующую, и т.д. | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
---- | ---- | ||
Строка 59: | Строка 34: | ||
| width="40%"|[[Совместная и условная вероятность]] << | | width="40%"|[[Совместная и условная вероятность]] << | ||
! width="20%"|[[Стохастический мир|Оглавление]] | ! width="20%"|[[Стохастический мир|Оглавление]] | ||
− | | width="40%" align="right"| >> [[ | + | | width="40%" align="right"| >> [[Вероятности состояния рынка]] |
|} | |} | ||
---- | ---- | ||
[[Стохастический мир]] - простое введение в стохастические дифференциальные уравнения | [[Стохастический мир]] - простое введение в стохастические дифференциальные уравнения |
Текущая версия на 14:00, 11 февраля 2010
Совместная и условная вероятность << | Оглавление | >> Вероятности состояния рынка |
---|
Рассмотрим вероятностные свойства русского языка. Каждая из 33-х букв, включая пробел "_", имеет свою вероятность появления её в тексте:
p(_)=0.163, p(о)=0.0940, p(е)=0.0696,..., p(ъ)=0.0002.
Если мы хотим определить вероятность встречи в произвольном месте некоторой подстроки, например, "эт", мы должны подсчитать число таких подстрок и разделить на общее число всех подстрок вида "**", где звёздочка обозначает любой символ. Для вычисления условной вероятности P(э => т) появления буквы "т", если перед ней стоит "э", необходимо отобрать все подстроки, удовлетворяющие маске "э*" ("э", затем любой символ "*"), и выяснить, сколько среди них "эт". В результате:
p(эт)= N(эт)/N(**) = 0.002, p(э => т) = N(эт)/N(э*) = 0.739
где — число подстрок, удовлетворяющих соответствующей маске. Для текста из символов , а N(э*)=p(э) n. Понятно, что количество как совместных, так и условных вероятностей для двух букв равно .
Вероятность встретить в тексте конкретную букву зависит от предыстории (предшествующих букв). Например, после "э" вероятность появления "т" в 14 раз выше, чем безусловная вероятность появления буквы "т": p(т)=0.051. Наоборот, некоторые сочетания букв крайне сложно произносимы. Например, после "б" вряд ли появится "п".
Зная условные вероятности, можно создавать синтетические тексты. Так, по известной предыстории "...cba" новая буква "x" генерится с вероятностью, равной . Чем длиннее предыстория условной вероятности, тем более "благозвучные" получаются сочетания:
- : а аотовчеи вс оувмпйоийпгунлрстк и рннсаьеоивотрл денааслеоуеаиои нш и охаиоооомызкнт ннсо врыь ттлмоооас л чоулвкт;
- : волизлитоди нугрндатнухак мисо о меловли одетестроскась нудатотосрато сдото сялушлана ини н дышетазеноноразабыт;
- : не толда при ной зловьются дально ка коров и к бы сли казас тали ива не же с повся обыл казакорну об это бы никтолу;
- : не заблюди он майта втобы из местью секратное и надо сказаление вдруг нашает и потороткостор да выше ну задередило.
В первом случае использованы одиночные вероятности и никак не учитывается история. Во втором — только предшествующая буква определяет следующую, и т.д.
Совместная и условная вероятность << | Оглавление | >> Вероятности состояния рынка |
---|
Стохастический мир - простое введение в стохастические дифференциальные уравнения