Вероятностные свойства языка — различия между версиями

Материал из synset
Перейти к: навигация, поиск
м (Защищена страница «Вероятностные свойства языка» ([edit=sysop] (бессрочно) [move=sysop] (бессрочно)))
 
(нет различий)

Текущая версия на 14:00, 11 февраля 2010

Совместная и условная вероятность << Оглавление >> Вероятности состояния рынка

Рассмотрим вероятностные свойства русского языка. Каждая из 33-х букв, включая пробел "_", имеет свою вероятность появления её в тексте:

p(_)=0.163,   p(о)=0.0940,  p(е)=0.0696,...,   p(ъ)=0.0002.

Если мы хотим определить вероятность встречи в произвольном месте некоторой подстроки, например, "эт", мы должны подсчитать число таких подстрок и разделить на общее число всех подстрок вида "**", где звёздочка обозначает любой символ. Для вычисления условной вероятности P(э => т) появления буквы "т", если перед ней стоит "э", необходимо отобрать все подстроки, удовлетворяющие маске "э*" ("э", затем любой символ "*"), и выяснить, сколько среди них "эт". В результате:

p(эт)= N(эт)/N(**) = 0.002,   p(э => т) = N(эт)/N(э*) = 0.739

где — число подстрок, удовлетворяющих соответствующей маске. Для текста из символов , а N(э*)=p(э) n. Понятно, что количество как совместных, так и условных вероятностей для двух букв равно .

Вероятность встретить в тексте конкретную букву зависит от предыстории (предшествующих букв). Например, после "э" вероятность появления "т" в 14 раз выше, чем безусловная вероятность появления буквы "т": p(т)=0.051. Наоборот, некоторые сочетания букв крайне сложно произносимы. Например, после "б" вряд ли появится "п".

Зная условные вероятности, можно создавать синтетические тексты. Так, по известной предыстории "...cba" новая буква "x" генерится с вероятностью, равной . Чем длиннее предыстория условной вероятности, тем более "благозвучные" получаются сочетания:

  • : а аотовчеи вс оувмпйоийпгунлрстк и рннсаьеоивотрл денааслеоуеаиои нш и охаиоооомызкнт ннсо врыь ттлмоооас л чоулвкт;
  • : волизлитоди нугрндатнухак мисо о меловли одетестроскась нудатотосрато сдото сялушлана ини н дышетазеноноразабыт;
  • : не толда при ной зловьются дально ка коров и к бы сли казас тали ива не же с повся обыл казакорну об это бы никтолу;
  • : не заблюди он майта втобы из местью секратное и надо сказаление вдруг нашает и потороткостор да выше ну задередило.

В первом случае использованы одиночные вероятности и никак не учитывается история. Во втором — только предшествующая буква определяет следующую, и т.д.


Совместная и условная вероятность << Оглавление >> Вероятности состояния рынка

Стохастический мир - простое введение в стохастические дифференциальные уравнения