Парадокс двух конвертов — различия между версиями

Материал из synset
Перейти к: навигация, поиск
(Немного философии)
 
(не показаны 44 промежуточные версии этого же участника)
Строка 1: Строка 1:
 
==Формулировка парадокса==
 
==Формулировка парадокса==
  
Рассмотрим следующую игру:  
+
Рассмотрим следующую игру: <blockquote> Есть 2 конверта. В один из них вкладывается сумма <math>\textstyle x</math>, во второй &mdash; <math>\textstyle 2x</math>. Значение <math>\textstyle x</math> неизвестно и каждый раз случайно изменяется. Конверты неразличимы. Игрок открывает один из конвертов и видит лежащую там сумму. У него есть две возможности - забрать её или выбрать второй, нераспечатанный конверт. Какая из этих возможностей в среднем даст большую прибыль? </blockquote>
<blockquote>
 
Есть 2 конверта. В один из них вкладывается сумма <math>\textstyle x</math>, во второй &mdash; <math>\textstyle 2x</math>. Значение <math>\textstyle x</math> неизвестно и каждый раз случайно изменяется. Конверты неразличимы. Игрок открывает один из конвертов и видит лежащую там сумму. У него есть две возможности - забрать её или выбрать второй, нераспечатанный конверт. Какая из этих возможностей в среднем даст большую прибыль?  
 
</blockquote>
 
  
Так как конверты неразличимы, вероятность того, что в данном конверте лежит сумма <math>\textstyle x</math> или <math>\textstyle 2x</math>, равна 1/2. Значения сумм, лежащих в каждом конверте, заранее неизвестны. Знание суммы в открытом конверте не добавляет информации о том, какая сумма лежит во втором. Поэтому любой выбор даст одинаковую доходность.
+
Так как конверты неразличимы, вероятности того, что в данном конверте лежит сумма <math>\textstyle x</math> или <math>\textstyle 2x</math>, равны 1/2. Значения сумм, лежащих в каждом конверте, заранее неизвестны. Знание суммы в открытом конверте не добавляет информации о том, какая сумма лежит во втором. Поэтому любой выбор даст одинаковую доходность.
  
С другой стороны. Пусть игрок видит сумму <math>\textstyle x</math>. Тогда во втором конверте лежит <math>\textstyle 2x</math> или <math>\textstyle x/2</math>. Эти две возможности равноправны. Поэтому средний доход от выбора второго конверта равен:
+
С другой стороны. Пусть игрок видит сумму <math>\textstyle x</math>. Тогда во втором (закрытом) конверте лежит <math>\textstyle 2x</math> или <math>\textstyle x/2</math>. Эти две возможности равноправны. Поэтому средний доход от выбора второго конверта равен:
  
 
:<center><math>v_2=\frac{1}{2}\,(2x)+ \frac{1}{2}\,(x/2) = \frac{5}{4}\,x.</math></center>
 
:<center><math>v_2=\frac{1}{2}\,(2x)+ \frac{1}{2}\,(x/2) = \frac{5}{4}\,x.</math></center>
  
Таким образом, игрок при выборе второго конверта получает больше, чем при выборе первого, который даёт ему только <math>\textstyle v_1=x</math>. Независимо от значения суммы <math>\textstyle x</math>, относительная доходность при выборе закрытого конверта больше на <math>\textstyle (v_2-v_1)/v_1=25\%</math>.
+
Таким образом, игрок при выборе закрытого конверта получает больше, чем при выборе открытого, который даёт ему только <math>\textstyle v_1=x</math>. Независимо от значения суммы <math>\textstyle x</math>, относительная доходность при выборе закрытого конверта будет больше на <math>\textstyle (v_2-v_1)/v_1=25\%</math>.
  
 
Два разумных и вполне правдоподобных рассуждения приводят к несовпадающим результатам. Это противоречие и называется "''парадоксом двух конвертов''". Существуют также версии названия: "парадокс двух шкатулок", "парадокс двух карманов" и т.д.
 
Два разумных и вполне правдоподобных рассуждения приводят к несовпадающим результатам. Это противоречие и называется "''парадоксом двух конвертов''". Существуют также версии названия: "парадокс двух шкатулок", "парадокс двух карманов" и т.д.
  
Парадокс был предложен в 1953 году Кратчиком (Maurice Kraitchik), в терминах двух карманов. Широкую популярность парадокс получил благодаря Гарднеру (Martin Gardner), который описал его в 1982 г. в книге "Aha! Gotcha". В дальнейшем карманы превратились в конверты.
+
Вокруг этого парадокса время от времени вспыхивают споры в интернет-сообществе. Иногда появляются "сенсационные" заявления о том, что некто парадокс наконец решил. С другой стороны, часто в общих словах происходит, в принципе, верное объяснение сути, но без конкретных расчётов. В результате создаётся ощущение философского надувательства.
  
Вокруг парадокса время от времени вспыхивают споры в интернет-сообществе. Иногда появляются "сенсационные" заявления от том, что некто парадокс наконец решил. С другой стороны, часто в общих словах происходит, в принципе, верное объяснение сути, но без конкретных расчётов, создаётся ощущение философского надувательства.
+
Несмотря на то, что парадокс достаточно прост, мне не удалось быстро найти подходящий источник, а так как сын срочно требовал разъяснений, пришлось сесть и написать сей трактат.
 +
 
 +
Напомним кратко историю. Парадокс был предложен в 1953 году Морисом Крайчиком в книге "Математические развлечения". Широкую известность он получил благодаря Мартину Гарднеру который описал его в книге "А ну-ка, догадайся!" в 1982 г. Исходная версия парадокса "Чей кошелёк толще?" звучала следующим образом: <blockquote> Два человека решают сравнить суммы денег в их кошельках. При этом они договариваются, что тот, у кого их окажется меньше, забирает все деньги себе. ''Каждый'' из них рассуждает следующим образом. Максимум, что я могу проиграть это деньги которые имею. А выиграть могу больше, поэтому эта игра выгодна для меня. </blockquote> Понятно, что симметричная игра не может быть одновременно выгодной обеим сторонам. Получается парадокс.
 +
 
 +
Гарднер отмечает, что Крайчик для объяснения рассматривает одинаковое равновероятное распределение вероятностей сумм в каждом кошельке. При этом получается нулевая матрица платежей и игра оказывается симметричной. Однако, пишет Гарднер, "''к сожалению, это ничего не говорит нам о том, где именно в рассуждениях двух игроков кроется ошибка. Как мы ни бились, нам так и не удалось найти простое и удовлетворительное решение парадокса Крайчика''." Неудивительно, что после такого заявления парадокс вызвал большой интерес.
  
Несмотря на то, что парадокс достаточно прост, мне не удалось быстро найти подходящий источник, а так как сын срочно требовал разъяснений, пришлось сесть и написать сей трактат.
+
Приведенная в начале статьи формулировка парадокса была сделана Барри Нейлбуфом в 1989 г. Чтобы парадокс Крайчика стал больше похож на задачу с двумя конвертами, необходимо чуть изменить рассуждения каждой из сторон: <blockquote> Я знаю, что у меня в кошельке сумма <math>\textstyle x</math>. Мой оппонент имеет неизвестную сумму <math>\textstyle y</math>. С вероятностью 1/2 я потеряю свои деньги и после открытия кошельков буду иметь 0. С вероятностью же 1/2 я заберу деньги оппонента, и у меня будет <math>\textstyle x+y</math>, где <math>\textstyle y>x</math>. Поэтому в среднем после игры у меня будет:
 +
 
 +
:<center><math>\frac{1}{2}\,(x+y)+\frac{1}{2}\,0 = \frac{x+y}{2}>x.</math></center>
 +
 
 +
</blockquote> Мы будем обсуждать парадокс в "современной" формулировке двух конвертов, и вернёмся к парадоксу Крайчика в заключительном разделе статьи.
  
 
==Уточнение задачи==
 
==Уточнение задачи==
  
Математика работает с непротиворечиво определёнными моделями. Пока исходные формулировки нечётки, любые рассуждения могут привести к любому ответу, в результате чего и возникают парадоксы такого рода.
+
Математика работает с непротиворечиво определёнными моделями. Пока исходные формулировки нечётки, любые рассуждения могут привести к любому ответу, в результате чего и возникают такие парадоксы.
  
 
В задаче с двумя конвертами необходимо сначала определить способ формирования конвертов. Вариантов может быть множество. Для определённости будем считать, что ведущий игру выбирает некоторую сумму <math>\textstyle x_{max}</math>, которую считает большей. Соответственно во второй конверт он кладёт <math>\textstyle x_{min}=x_{max}/2</math>. После этого конверты случайно перемешиваются.
 
В задаче с двумя конвертами необходимо сначала определить способ формирования конвертов. Вариантов может быть множество. Для определённости будем считать, что ведущий игру выбирает некоторую сумму <math>\textstyle x_{max}</math>, которую считает большей. Соответственно во второй конверт он кладёт <math>\textstyle x_{min}=x_{max}/2</math>. После этого конверты случайно перемешиваются.
  
 
Второе уточнение связано со способом выбора большей суммы <math>\textstyle x=x_{max}</math>. Предполагается, что она выбирается случайно. Это означает, что существует некоторое распределение вероятностей выбора того или иного значения <math>\textstyle x</math>. Возможны два варианта:  
 
Второе уточнение связано со способом выбора большей суммы <math>\textstyle x=x_{max}</math>. Предполагается, что она выбирается случайно. Это означает, что существует некоторое распределение вероятностей выбора того или иного значения <math>\textstyle x</math>. Возможны два варианта:  
* 1) Суммы, участвующие в игре, являются дискретными. Например, это может быть ограниченная последовательность <math>\textstyle \{1,\,2,\,4,\,8\}</math> с возможными парами конвертов <math>\textstyle (1,2)</math>, <math>\textstyle (2,4)</math> и <math>\textstyle (4,8)</math>. Можно также рассматривать неограниченную (в одну или обе стороны) последовательность. Например: <math>\textstyle \{...,\,2^{-2},\, 2^{-1},\, 1,\, 2,\, 2^2,\,..\}.</math>. В любом случае вероятности будут дискретными числами <math>\textstyle p_i</math>, где <math>\textstyle i</math> &mdash; номер значения суммы.  
+
* 1) Суммы, участвующие в игре, являются дискретными. Например, это может быть ограниченная последовательность <math>\textstyle \{1,\,2,\,4,\,8\}</math> с возможными парами конвертов <math>\textstyle (1,2)</math>, <math>\textstyle (2,4)</math> и <math>\textstyle (4,8)</math>. Можно также рассматривать неограниченные (в одну или обе стороны) последовательности. Например: <math>\textstyle \{...,\,2^{-2},\, 2^{-1},\, 1,\, 2,\, 2^2,\,...\}</math>. В любом случае вероятности будут дискретными числами <math>\textstyle p_i</math>, где <math>\textstyle i</math> &mdash; номер значения суммы.  
 
* 2) Суммы, участвующие в игре &mdash; непрерывные вещественные положительные числа. Их вероятность необходимо уже задавать при помощи плотности вероятности <math>\textstyle P(x)</math> (или распределения вероятностей). В этом случае вероятность того, что при некотором малом <math>\textstyle \Delta x</math>, выбранное число попадёт в интервал <math>\textstyle [x, x+\Delta x]</math>, равняется <math>\textstyle P(x)\Delta x</math>.
 
* 2) Суммы, участвующие в игре &mdash; непрерывные вещественные положительные числа. Их вероятность необходимо уже задавать при помощи плотности вероятности <math>\textstyle P(x)</math> (или распределения вероятностей). В этом случае вероятность того, что при некотором малом <math>\textstyle \Delta x</math>, выбранное число попадёт в интервал <math>\textstyle [x, x+\Delta x]</math>, равняется <math>\textstyle P(x)\Delta x</math>.
  
В обоих вариантах должно выполняться условие нормировки, при котором полная вероятность любого исхода принимается за единичную. Если число возможных значений сумм <math>\textstyle x</math> бесконечно, то условия нормировки имеют вид:
+
В обоих вариантах должно выполняться условие нормировки, при котором полная вероятность любого исхода принимается за единичную. В общем случае условия нормировки имеют вид:
  
 
:<center><math>\sum^\infty_{i=0} p_i = 1,\;\;\;\;\;\;\;или\;\;\;\;\;\;\; \int\limits^\infty_0 P(x)dx = 1.</math></center>
 
:<center><math>\sum^\infty_{i=0} p_i = 1,\;\;\;\;\;\;\;или\;\;\;\;\;\;\; \int\limits^\infty_0 P(x)dx = 1.</math></center>
  
Понятно, что для равновероятных значений <math>\textstyle x</math> (т.е. <math>\textstyle p_i=const</math> или <math>\textstyle P(x)=const</math>) эти соотношения выполнятся не могут. Другими словами, невозможно ни в теории, ни на практике реализовать равновероятное распределение на бесконечном интервале.
+
Понятно, что для равновероятных значений <math>\textstyle x</math> (т.е. <math>\textstyle p_i=const</math> или <math>\textstyle P(x)=const</math>) из бесконечного диапазона эти соотношения выполнятся не могут. Другими словами, невозможно ни в теории, ни на практике реализовать равновероятное распределение на бесконечном интервале.
 +
 
 +
Пусть случайная величина <math>\textstyle x</math> непрерывна. Рассмотрим два варианта:
 +
* 1) равномерное распределение с границей так, что <math>\textstyle P(x)=0</math> при <math>\textstyle x>L</math>.
 +
* 2) неравномерное распределение, при котором <math>\textstyle P(x)</math> убывает при <math>\textstyle x\to\infty</math>.
  
Пусть, например, случайная величина <math>\textstyle x</math> непрерывна. Тогда возможны только два варианта для плотности вероятности:\\ 1) равномерное распределение с границей так, что <math>\textstyle P(x)=0</math> при <math>\textstyle x>L</math>.\\ 2) неравномерное распределение, при котором <math>\textstyle P(x)</math> убывает при <math>\textstyle x\to\infty</math>.\\ Ниже на левом рисунке представлен первый вариант, а на правом, соответственно, второй:  
+
Ниже на левом рисунке представлен первый вариант, а на правом, соответственно, второй:  
  
 
<center>[[File:envel_Px.png]]</center>
 
<center>[[File:envel_Px.png]]</center>
Строка 47: Строка 56:
 
* <math>\textstyle v_1</math>: Всегда забираю открытый конверт.  
 
* <math>\textstyle v_1</math>: Всегда забираю открытый конверт.  
 
* <math>\textstyle v_2</math>: Всегда забираю закрытый конверт.  
 
* <math>\textstyle v_2</math>: Всегда забираю закрытый конверт.  
* <math>\textstyle v_3</math>: Если <math>\textstyle x>100</math>, беру открытый конверт, иначе &mdash; закрытый. В случае, если конверты были тщательно перемешаны, первые две стратегии должны приводить к одинаковому доходу. Они никак не используют знания об <math>\textstyle x</math>, и в открытый конверт в этом случае можно даже не заглядывать. Собственно, это и утверждалось в первом варианте рассуждения. Поэтому не верны именно рассуждения при вычислении среднего <math>\textstyle v_2=5x/4</math>. Нам предстоит разобраться в чём состоит проблема.
+
* <math>\textstyle v_3</math>: Если <math>\textstyle x>100</math>, беру открытый конверт, иначе &mdash; закрытый.  
 +
В случае, если конверты были тщательно перемешаны, первые две стратегии должны приводить к одинаковому доходу. Они никак не используют знания об <math>\textstyle x</math>, и в открытый конверт в этом случае можно даже не заглядывать. Собственно, это и утверждалось в первом варианте рассуждения. Вычисления среднего <math>\textstyle v_2=5x/4</math> противоречат симметрии задачи, следовательно они ошибочны. Нам предстоит разобраться в чём состоит проблема.
  
Ниже мы рассмотрим сначала влияние краевого эффекта для равномерного распределения с границей. Это будет проделано отдельно для непрерывного и дискретного случаев. Мы увидим, что даже при формальном "отодвигании" границы на бесконечность существует выигрышная стратегия, и в ряде случаев симметрия между открытым и закрытым конвертами не восстанавливается. В заключение мы приведём примеры моделирования задачи о двух конвертах на C++.
+
Сначала мы рассмотрим влияние краевого эффекта для равномерного распределения с границей. Мы увидим, что даже при формальном "отодвигании" границы на бесконечность существует более выигрышная "активная" стратегия. Кроме этого будут вычислены доходности различных стратегий в модифицированных правилах игры, при помощи которых делается попытка снизить влияние краевого эффекта. В этом случае конверты перестают быть симметричными. Затем мы найдём оптимальную стратегию для непрерывного убывающего распределения.
  
По-хорошему необходимо также рассмотреть вариант плавного убывания <math>\textstyle P(x)</math> на бесконечности. Однако все ключевые идеи будут выявлены на "ступенчатом" распределении, и обобщение на произвольную функцию <math>\textstyle P(x)</math> не составит труда.
+
Новая формулировка парадокса была предложена уже в процессе обсуждения этой статьи в Интернете. Мы попробуем по-возможности с ней также разобраться. В заключение мы обсудим некоторые общие вопросы, связанные с понятием вероятности и причинами появления подобных парадоксов. Любители математики не склонные к математическим вычислениям <math>\textstyle \ddot\smile</math> могут сразу перескочить к этому [[#Немного философии|разделу]].
  
 
==Равномерное ограниченное распределение==
 
==Равномерное ограниченное распределение==
Строка 59: Строка 69:
 
<center>[[File:envel_24.png]]</center>
 
<center>[[File:envel_24.png]]</center>
  
Выше на правом рисунке изображено дерево вариантов, сопровождающих открытие конверта. С вероятностями 1/2 в открытом конверте может находиться меньшая и большая сумма. Если эта сумма большая, она снова равновероятно может быть меньше или больше <math>\textstyle L/2</math>.
+
Выше слева нарисовано равномерное ограниченное распределение плотности вероятностей. На правом рисунке изображено дерево вариантов, сопровождающих открытие конверта. С вероятностями 1/2 в открытом конверте может находиться меньшая (<math>\textstyle x_{min}</math>) или большая сумма (<math>\textstyle x_{max}</math>). Если эта сумма большая, она снова равновероятно может быть меньше или больше <math>\textstyle L/2</math>.
  
Таким образом, мы имеем три исхода при открытии первого конверта со следующими вероятностями:
+
Таким образом, существуют три исхода при открытии конверта со следующими вероятностями:
  
 
:<center><math>\begin{array}{r|c|c|c|} x=&\;\;\;\;\;\;x_{min}\;\;\;\;\; & \;\;x_{max}<\frac{L}{2}\;\; & \;\;x_{max}>\frac{L}{2}\;\;\\ \hline p_i= &1/2 & 1/4 & 1/4 \end{array}</math></center>
 
:<center><math>\begin{array}{r|c|c|c|} x=&\;\;\;\;\;\;x_{min}\;\;\;\;\; & \;\;x_{max}<\frac{L}{2}\;\; & \;\;x_{max}>\frac{L}{2}\;\;\\ \hline p_i= &1/2 & 1/4 & 1/4 \end{array}</math></center>
Строка 67: Строка 77:
 
Рассмотрим сначала пассивные стратегии: "всегда берём открытый конверт" (<math>\textstyle v_1</math>) и "всегда берём закрытый конверт" (<math>\textstyle v_2</math>). Если в открытом конверте находится сумма <math>\textstyle x</math>, то понятно, что средняя доходность первой стратегии равна <math>\textstyle v_1=x</math>. Конверты были перемешаны, значение <math>\textstyle x</math> никак не учитывается, поэтому вторая стратегия должна иметь такую же доходность <math>\textstyle v_2=x</math>.
 
Рассмотрим сначала пассивные стратегии: "всегда берём открытый конверт" (<math>\textstyle v_1</math>) и "всегда берём закрытый конверт" (<math>\textstyle v_2</math>). Если в открытом конверте находится сумма <math>\textstyle x</math>, то понятно, что средняя доходность первой стратегии равна <math>\textstyle v_1=x</math>. Конверты были перемешаны, значение <math>\textstyle x</math> никак не учитывается, поэтому вторая стратегия должна иметь такую же доходность <math>\textstyle v_2=x</math>.
  
Попробуем, не используя соображений симметрии, вычислить <math>\textstyle v_2</math> при помощи известных вероятностей. Рассмотрим следующее рассуждение:
+
С другой стороны, с вероятностью 1/2 в закрытом конверте находится <math>\textstyle 2x</math> (большая сумма). С такой же вероятностью там <math>\textstyle x/2</math> (меньшая сумма). Поэтому:
 
 
С вероятностью 1/2 в закрытом конверте находится <math>\textstyle 2x</math> (большая сумма). С такой же вероятностью там <math>\textstyle x/2</math> (меньшая сумма). Поэтому:
 
  
 
:<center><math>v_2=\frac{1}{2}\,(2x)+ \frac{1}{2}\,(x/2) = \frac{5}{4}\,x.</math></center>
 
:<center><math>v_2=\frac{1}{2}\,(2x)+ \frac{1}{2}\,(x/2) = \frac{5}{4}\,x.</math></center>
Строка 75: Строка 83:
 
Упс. Фактически мы повторили рассуждение парадокса и, несмотря на все уточнения формулировки задачи, снова пришли к противоречию. Что неверно в наших вычислениях?
 
Упс. Фактически мы повторили рассуждение парадокса и, несмотря на все уточнения формулировки задачи, снова пришли к противоречию. Что неверно в наших вычислениях?
  
Зайдём с другого конца и вычислим абсолютный средний доход, получаемый игроком при выборе денег из открытого конверта. Большая и меньшая сумма в открытом конверте может появиться равновероятно. Меньшая сумма имеет равномерное распределение на интервале <math>\textstyle [0,L/2]</math>. Поэтому её среднее значение равно <math>\textstyle L/4</math>. Большая сумма, равномерно распределённая на интервале <math>\textstyle [0,L]</math>, имеет среднее значение <math>\textstyle L/2</math>. Поэтому среднее значение суммы в открытом конверте равно:
+
Зайдём с другого конца и вычислим абсолютный (безусловный) средний доход, получаемый игроком при выборе денег из открытого конверта. Большая и меньшая сумма в открытом конверте может появиться равновероятно. Меньшая сумма имеет равномерное распределение на интервале <math>\textstyle [0,L/2]</math>. Поэтому её среднее значение равно <math>\textstyle L/4</math>. Большая сумма, равномерно распределённая на интервале <math>\textstyle [0,L]</math>, имеет среднее значение <math>\textstyle L/2</math>. Поэтому среднее значение суммы в открытом конверте равно:
  
 
:<center><math>\left\langle x\right\rangle = \frac{1}{2}\cdot \frac{L}{4} + \frac{1}{2}\cdot \frac{L}{2} = \frac{3L}{8}.</math></center>
 
:<center><math>\left\langle x\right\rangle = \frac{1}{2}\cdot \frac{L}{4} + \frac{1}{2}\cdot \frac{L}{2} = \frac{3L}{8}.</math></center>
  
Очевидно, что такое же рассуждение и результат справедливы для средней доходности от выбора закрытого конверта. Поэтому средние абсолютные доходности первой и второй стратегий равны <math>\textstyle \left\langle v_1\right\rangle =\left\langle v_2\right\rangle =3L/8</math>.
+
Очевидно, что такое же рассуждение и результат справедливы для средней доходности от выбора закрытого конверта. Поэтому средние доходности первой и второй стратегий равны <math>\textstyle \left\langle v_1\right\rangle =\left\langle v_2\right\rangle =3L/8</math>.
  
Но что же тогда означают соотношения <math>\textstyle v_1=x</math>, <math>\textstyle v_2=5x/4</math>, полученные выше, и какая при их выводе была сделана ошибка? Ответ прост. Вероятности появления большей или меньшей суммы в открытом конверте действительно одинаковы. Однако, выражая доход, полученный от выбора закрытого конверта через сумму <math>\textstyle x</math>, которая обнаружилась в открытом, мы вычисляем ''условное среднее''. Т.е. вопрос стоит так: какова в среднем сумма в закрытом конверте, ''если'' в открытом мы видим <math>\textstyle x</math>. Знание значения <math>\textstyle x</math> меняет вероятности <math>\textstyle p_1</math> и <math>\textstyle p_2</math> для сумм <math>\textstyle x/2</math> и <math>\textstyle 2x</math> в закрытом конверте. Например, если <math>\textstyle x>L/2</math>, то в закрытом конверте заведомо находится меньшая сумма и <math>\textstyle p_1=1</math>, <math>\textstyle p_2=0</math>. Поэтому в этом случае:
+
Но что же тогда означают соотношения <math>\textstyle v_1=x</math>, <math>\textstyle v_2=5x/4</math>, полученные выше, и какая при их выводе была сделана ошибка? Ответ прост. Вероятности появления большей или меньшей суммы в открытом конверте действительно одинаковы. Однако, выражая доход, полученный от выбора закрытого конверта через сумму <math>\textstyle x</math>, которая обнаружилась в открытом, мы вычисляем ''условное среднее''. Т.е. вопрос стоит так: какова в среднем сумма в закрытом конверте, ''если'' в открытом мы видим <math>\textstyle x</math>. Знание значения <math>\textstyle x</math> меняет вероятности для сумм <math>\textstyle x/2</math> и <math>\textstyle 2x</math> в закрытом конверте. Например, если <math>\textstyle x>L/2</math>, то в закрытом конверте заведомо находится меньшая сумма (вероятность большей равна нулю). Поэтому в этом случае:
  
 
:<center><math>v_2 = 0\cdot (2x) + 1\cdot (x/2) = \frac{x}{2}.</math></center>
 
:<center><math>v_2 = 0\cdot (2x) + 1\cdot (x/2) = \frac{x}{2}.</math></center>
  
Если же <math>\textstyle x<L/2</math>, то вероятности того, что в открытом конверте лежит меньшая или большая суммы <math>\textstyle x</math>, изменяются. Это уже ''условные вероятности'', рассчитанные после получении информации о том, что <math>\textstyle x<L/2</math>. Они по-прежнему пропорциональны <math>\textstyle 1/2</math> и <math>\textstyle 1/4</math>, т.е. меньшая сумма в открытом конверте в два раза более вероятна. Однако, их необходимо отнормировать, чтобы суммарная вероятность была равна единице. В результате имеется две возможности в открытом конверте:
+
Если же <math>\textstyle x<L/2</math>, то вероятности того, что в открытом конверте лежит меньшая или большая суммы <math>\textstyle x</math>, изменяются. Это уже ''условные вероятности'', рассчитанные после получении информации о том, что <math>\textstyle x<L/2</math>. Они по-прежнему пропорциональны <math>\textstyle 1/2</math> и <math>\textstyle 1/4</math>, т.е. меньшая сумма в открытом конверте в два раза более вероятна. Однако, их необходимо отнормировать, чтобы суммарная вероятность была равна единице. В результате для открытого конверта есть два исхода:
  
:<center><math>if\;x<\frac{L}{2}\;\;\;\;\;\;\;\; \begin{array}{r|c|c|c|} x=&\;\;\;\;\;\;x_{min}\;\;\;\;\; & \;\;x_{max}<\frac{L}{2}\\ \hline p_i=&2/3 & 1/3 \end{array}</math></center>
+
:<center><math>if\;x<\frac{L}{2}:\;\;\;\;\;\;\;\; \begin{array}{r|c|c|c|} x=&\;\;\;\;\;\;x_{min}\;\;\;\;\; & \;\;x_{max}<\frac{L}{2}\\ \hline p_i=&2/3 & 1/3 \end{array}</math></center>
  
Таким образом, до открытия вероятности были 1/2 и 1/2. После открытия и получения информации <math>\textstyle x<L/2</math> они стали 2/3 и <math>\textstyle 1/3</math>. Соответственно в закрытом конверте эти вероятности обратные.
+
Таким образом, до открытия вероятности были 1/2 и 1/2. После открытия и получения информации, что <math>\textstyle x<L/2</math> они стали 2/3 и <math>\textstyle 1/3</math>. Соответственно в закрытом конверте эти вероятности обратные.
  
 
Теперь не составляет труда записать условное среднее для стратегии <math>\textstyle v_2</math> при условии, что <math>\textstyle x<L/2</math>:
 
Теперь не составляет труда записать условное среднее для стратегии <math>\textstyle v_2</math> при условии, что <math>\textstyle x<L/2</math>:
Строка 99: Строка 107:
 
:<center><math>v_2 = \left\{ \begin{array}{ll} 3x/2, & \;\;if\;x<L/2\\ x/2, & \;\;if\;x>L/2. \\ \end{array} \right.</math></center>
 
:<center><math>v_2 = \left\{ \begin{array}{ll} 3x/2, & \;\;if\;x<L/2\\ x/2, & \;\;if\;x>L/2. \\ \end{array} \right.</math></center>
  
Имея это условное среднее можно ещё раз вычислить абсолютное среднее <math>\textstyle \left\langle v_2\right\rangle </math>. Для этого необходимо найти распределение вероятностей обнаружить в открытом конверте сумму <math>\textstyle x</math>. Так как меньшая сумма существует на интервале <math>\textstyle [0,L/2]</math>, обозначим ступеньку её плотности вероятностей как <math>\textstyle P_{L/2}(x)</math>. Соответственно, для большей суммы это функция-ступенька <math>\textstyle P_L(x)</math>. Конверты перемешаны, поэтому плотность вероятности для суммы <math>\textstyle x</math> в открытом конверте равна:
+
На прямую <math>\textstyle v_2</math> ''нельзя сравнивать'' c <math>\textstyle v_1=x</math>, так как при <math>\textstyle x<L/2</math> имеем <math>\textstyle v_2>v_1</math>, иначе <math>\textstyle v_2<v_1</math>. Поэтому, чтобы выяснить, какая из стратегий более доходная, необходимо усреднить эти условные средние.
 +
 
 +
Для этого потребуется распределение вероятностей для сумм <math>\textstyle x</math> в открытом конверте. Меньшая сумма существует на интервале <math>\textstyle [0,L/2]</math>, поэтому обозначим ступеньку её плотности вероятностей как <math>\textstyle P_{L/2}(x)</math>. Соответственно, для большей суммы это функция-ступенька <math>\textstyle P_L(x)</math>. Конверты равновероятно перемешаны, следовательно плотность вероятности для суммы <math>\textstyle x</math> в открытом конверте равна:
  
 
:<center><math>P(x) = \frac{1}{2}P_{L/2}(x) + \frac{1}{2}P_{L}(x).</math></center>
 
:<center><math>P(x) = \frac{1}{2}P_{L/2}(x) + \frac{1}{2}P_{L}(x).</math></center>
Строка 109: Строка 119:
 
Обратим внимание, что <math>\textstyle P_{L/2}(x)</math> в 2 раза уже и выше чем <math>\textstyle P_{L}(x)</math>, как и должно быть для выполнения условия нормировки (см. левый рисунок).
 
Обратим внимание, что <math>\textstyle P_{L/2}(x)</math> в 2 раза уже и выше чем <math>\textstyle P_{L}(x)</math>, как и должно быть для выполнения условия нормировки (см. левый рисунок).
  
Чтобы найти абсолютный средний доход от выбора второго конверта, необходимо провести усреднение:
+
Абсолютный средний доход от выбора второго конверта равен:
  
 
:<center><math>\left\langle v_2\right\rangle = \int\limits^L_0 v_2(x) \cdot P(x) dx = \int\limits^{L/2}_0 \frac{3x}{2}\cdot \frac{3}{2L}\,dx + \int\limits^{L}_{L/2} \frac{x}{2}\cdot \frac{1}{2L}\,dx = \frac{3}{8}\,L.</math></center>
 
:<center><math>\left\langle v_2\right\rangle = \int\limits^L_0 v_2(x) \cdot P(x) dx = \int\limits^{L/2}_0 \frac{3x}{2}\cdot \frac{3}{2L}\,dx + \int\limits^{L}_{L/2} \frac{x}{2}\cdot \frac{1}{2L}\,dx = \frac{3}{8}\,L.</math></center>
  
Этот же результат выше мы получили более простым способом.
+
Этот же результат ранее мы получили более простым способом.
  
Если с плотностью вероятностей <math>\textstyle P(x)</math> усреднить <math>\textstyle v_1=x</math>, то получится такое же выражение: <math>\textstyle \left\langle v_1\right\rangle =3L/8</math>.
+
Если с плотностью вероятностей <math>\textstyle P(x)</math> усреднить <math>\textstyle v_1=x</math>, то получится такое же выражение: <math>\textstyle \left\langle v_1\right\rangle =3L/8</math>. Поэтому, при аккуратной записи условных средних, результаты естественно совпадают.
  
<math>\textstyle \bullet</math> Перейдём теперь к более активной и доходной стратегии. Если игрок в открытом конверте видит <math>\textstyle x>L/2</math>, то он должен тут же брать эту сумму, так как в закрытом конверте лежит заведомо меньше. В этом случае выигрыш <math>\textstyle v_3=x</math>. Если <math>\textstyle x<L/2</math>, то более вероятно, что в открытом конверте меньшая сумма, поэтому стоит выбрать закрытый конверт. В этом случае <math>\textstyle v_3=v_2</math>. Поэтому, объединяя оба варианта, запишем условное среднее выигрыша от "разумной стратегии" следующим образом:
+
<math>\textstyle \bullet</math> Перейдём теперь к более активной и доходной стратегии. Если игрок в открытом конверте видит <math>\textstyle x>L/2</math>, то он должен брать эту сумму, так как в закрытом конверте лежит заведомо меньше. В этом случае выигрыш <math>\textstyle v_3=x</math>. Если <math>\textstyle x<L/2</math>, то более вероятно, что в открытом конверте меньшая сумма, поэтому стоит выбрать закрытый конверт. В этом случае <math>\textstyle v_3=v_2</math>. Объединяя оба варианта, запишем условное среднее выигрыша от "активной стратегии" следующим образом:
  
 
:<center><math>v_3 = \left\{ \begin{array}{ll} 3x/2, & \;\;if\;x<L/2\\ x, & \;\;if\;x>L/2. \\ \end{array} \right.</math></center>
 
:<center><math>v_3 = \left\{ \begin{array}{ll} 3x/2, & \;\;if\;x<L/2\\ x, & \;\;if\;x>L/2. \\ \end{array} \right.</math></center>
  
Чтобы найти средний доход, получаемый при выборе разумной стратегии, необходимо снова проинтегрировать <math>\textstyle v_3</math> c плотностью <math>\textstyle P(x)</math>:
+
Чтобы найти средний доход, получаемый при использовании активной стратегии, необходимо снова проинтегрировать <math>\textstyle v_3</math> c плотностью <math>\textstyle P(x)</math>:
  
:<center><math>\left\langle v_2\right\rangle = \int\limits^L_0 v_2(x) \cdot P(x) dx = \frac{15}{32}\,L</math></center>
+
:<center><math>\left\langle v_3\right\rangle = \int\limits^L_0 v_3(x) \cdot P(x) dx = \frac{15}{32}\,L\approx 0.469\,L.</math></center>
  
Относительная доходность "разумной стратегии" по сравнению с пассивным выбором любого конверта оказывается равной <math>\textstyle (v_3-v_1)/v_1=25\%</math>. Это значение не зависит от <math>\textstyle L</math>, поэтому "отодвигание границы" на бесконечность ничего не изменит.
+
"Отодвигание" границы <math>\textstyle L</math> на бесконечность не меняет относительной доходности <math>\textstyle (\left\langle v_3\right\rangle -\left\langle v_1\right\rangle )/\left\langle v_1\right\rangle =25\%</math> активной и пассивной стратегий.
  
<math>\textstyle \bullet</math> Можно изменить правила игры для ослабления краевого эффекта. Пусть, если в открытом конверте лежит <math>\textstyle x>L/2</math>, раунд игры останавливается. Игрок ничего не выбирает и не получает. Игра происходит, только если <math>\textstyle x<L/2</math>.
+
<math>\textstyle \bullet</math> Можно изменить правила игры для ослабления краевого эффекта. Пусть, если в открытом конверте лежит <math>\textstyle x>L/2</math>, раунд игры останавливается. Игрок ничего не выбирает и не получает. Игра происходит, только если <math>\textstyle x<L/2</math>. В этом случае он лишен "активной" стратегии.
  
Найдём доходы от стратегии выбора открытого конверта <math>\textstyle v_1</math> и выбора закрытого конверта <math>\textstyle v_2</math>. При выборе открытого конверта игрок всегда получает ту сумму которую видит: <math>\textstyle v_1=x</math>. При выборе закрытого конверта необходимо воспользоваться условными вероятностями:
+
Найдём доходы от выбора открытого (<math>\textstyle v_1</math>) и выбора закрытого (<math>\textstyle v_2</math>) конверта. В первом случае игрок всегда получает ту сумму которую видит: <math>\textstyle v_1=x</math>. При выборе закрытого конверта необходимо воспользоваться условными вероятностями:
  
 
:<center><math>v_2 = \frac{2}{3}\cdot (2x)+\frac{1}{3}\cdot(x/2) = \frac{3}{2}\,x.</math></center>
 
:<center><math>v_2 = \frac{2}{3}\cdot (2x)+\frac{1}{3}\cdot(x/2) = \frac{3}{2}\,x.</math></center>
  
Закрытый конверт на 50\% более доходный (конверты неравноправны!).
+
Закрытый конверт на 50\% более доходный. Это и понятно: дополнительное правило изменило симметрию между конвертами.
  
 
Абсолютная средняя доходность равна:
 
Абсолютная средняя доходность равна:
Строка 139: Строка 149:
 
:<center><math>\left\langle x\right\rangle = \frac{2}{3}\cdot \frac{L}{4} + \frac{1}{3}\cdot \frac{L}{4} = \frac{L}{4},</math></center>
 
:<center><math>\left\langle x\right\rangle = \frac{2}{3}\cdot \frac{L}{4} + \frac{1}{3}\cdot \frac{L}{4} = \frac{L}{4},</math></center>
  
где <math>\textstyle L/4</math> &mdash; среднее значение меньшей суммы, а <math>\textstyle L/4</math> &mdash; среднее значение большей на интервале <math>\textstyle [0,L/2]</math> (при условии, что игра началась, т.е. <math>\textstyle x<L/2</math>). Фактически сразу можно написать <math>\textstyle L/4</math>, так как это середина интервала для сумм, возможных в первом конверте. Поэтому при взятии закрытого конверта получается доход <math>\textstyle \left\langle v_2\right\rangle =(3/2)\cdot(L/4)=3L/8=0.375 L</math>. Эта сумма несколько ниже, чем в игре которая начинается независимо от суммы в открытом конверте.
+
где <math>\textstyle L/4</math> &mdash; среднее значение меньшей суммы, а <math>\textstyle L/4</math> &mdash; среднее значение большей на интервале <math>\textstyle [0,L/2]</math> (при условии, что игра началась, т.е. <math>\textstyle x<L/2</math>). Фактически сразу можно написать <math>\textstyle L/4</math>, так как это середина интервала для сумм, возможных в первом конверте. Поэтому при взятии закрытого конверта получается доход <math>\textstyle \left\langle v_2\right\rangle =(3/2)\cdot(L/4)=3L/8=0.375 L</math>. Эта сумма несколько ниже, чем у активной стратегии в игре, которая начинается независимо от суммы в открытом конверте.
 +
 
 +
==Неравномерное распределение==
 +
 
 +
В случае неравномерного распределения очевидно, что конверты неравноправны. Кроме функции <math>\textstyle P(x)</math> необходимо фиксировать также правило формирования конвертов. Пусть ведущий игру, как и раньше, выбирает случайное число с распределением <math>\textstyle P(x)</math>, считая его максимальной суммой. Минимальная получается из <math>\textstyle x</math> делением на 2. Затем конверты перемешиваются.
 +
 
 +
Если известно распределение <math>\textstyle P(x)</math> для случайной величины <math>\textstyle x</math>, то распределение для величины <math>\textstyle y=x/2</math> имеет вид <math>\textstyle 2 P(2y)</math>. Действительно, пусть вычисляется среднее от некоторой функции <math>\textstyle f(y)</math>. Его можно вычислить при помощи вероятности <math>\textstyle P(x)</math>:
 +
 
 +
:<center><math>\left\langle f(y)\right\rangle =\int\limits^\infty_0 f(x/2) P(x) dx = \int\limits^\infty_0 f(y) 2P(2y) dy.</math></center>
 +
 
 +
Во втором равенстве сделана замена переменной интегрирования <math>\textstyle x=2y</math>. Так как последний интеграл усредняет <math>\textstyle f(y)</math> по <math>\textstyle y</math>, то множитель при функции и является плотностью распределения для <math>\textstyle y</math>.
 +
 
 +
Таким образом, в приведенном выше алгоритме формирования случайно перемешанных конвертов, сумма <math>\textstyle x</math> в открытом конверте имеет следующую плотность вероятности:
 +
 
 +
:<center><math>P_{o}(x) = \frac{1}{2}\cdot P(x) + \frac{1}{2}\cdot 2P(2x).</math></center>
 +
 
 +
В частности, среднее значение суммы в открытом конверте равно:
 +
 
 +
:<center><math>\left\langle x\right\rangle _{open} = \int\limits^\infty_0 x P_{o}(x) dx = \frac{3}{4}\,\int\limits^\infty_0 x\,P(x)\,dx.</math></center>
 +
 
 +
Естественно, что такая же сумма в среднем будет находиться и в закрытом конверте.
 +
 
 +
Найдём теперь оптимальную стратегию игры. Для определённости будем считать, что итоговая вероятность <math>\textstyle P_{o}(x)</math>, обнаружить сумму <math>\textstyle x</math> в открытом конверте монотонно снижается с ростом <math>\textstyle x</math>. Тогда существует некоторая оптимальная константа <math>\textstyle x_0</math> для которой следующая стратегия приносит максимальный доход: <blockquote> <math>\textstyle \;v_3</math>: Если в открытом конверте обнаружена сумма <math>\textstyle x</math> и при этом <math>\textstyle x>x_0</math> &mdash; забираем открытый конверт, иначе &mdash; закрытый. </blockquote> Наша задача состоит в вычислении оптимального значения <math>\textstyle x_0</math>.
 +
 
 +
Запишем условное среднее. Если <math>\textstyle x>x_0</math>, то <math>\textstyle v_3=x</math>. Если же <math>\textstyle x<x_0</math>, для закрытого конверта необходимо воспользоваться условными вероятностями. Если мы видим в открытом конверте сумму <math>\textstyle x</math>, то вероятность того, что это меньшая сумма пропорциональна <math>\textstyle 2P(2x)</math>. Вероятность большой суммы пропорциональна <math>\textstyle P(x)</math>. Поэтому в этом случае:
 +
 
 +
:<center><math>v_3 = \frac{2P(2x)}{2P_o(x)}\cdot 2x+ \frac{P(x)}{2P_o(x)}\cdot (x/2),\;\;\;\;\;\;\;if\;x<x_0.</math></center>
 +
 
 +
Вероятности разделены на <math>\textstyle 2P_o(x)</math>, чтобы сумма условных вероятностей была равна единице. Найдём среднее значение <math>\textstyle v_3</math>:
 +
 
 +
:<center><math>\left\langle v_3\right\rangle = \int\limits^\infty_{0} v_3(x) P_{o}(x) dx = \int\limits^{x_0}_{0} x\left[2P(2x)+ \frac{1}{4}\, P(x)\right]dx + \int\limits^\infty_{x_0} x P_{o}(x) dx.</math></center>
 +
 
 +
После несложных преобразований, получаем:
 +
 
 +
:<center><math>\left\langle v_3\right\rangle = \int\limits^{x_0}_{0} x\cdot \left[P(2x)- \frac{1}{4}\,P(x)\right]\,dx + \frac{3}{4}\,\int\limits^\infty_{0} x P(x) dx.</math></center>
 +
 
 +
Второй интеграл равен среднему доходу от пассивных стратегий. Первый интеграл &mdash; бонус за активность. Найдём его максимум, взяв производную по <math>\textstyle x_0</math> и приравняв её нулю. Это даст следующее уравнение для <math>\textstyle x_0</math>:
 +
 
 +
:<center><math>4 P(2x_0) = P(x_0).</math></center>
 +
 
 +
К примеру, вычислим доходности для распределения в виде убывающей экспоненты:
 +
 
 +
:<center><math>P(x) = e^{-x}.</math></center>
  
==Дискретная задача двух конвертов==
+
Она нормирована на единицу и имеет единичное среднее <math>\textstyle \left\langle x\right\rangle =1</math>. Поэтому средний доход от пассивного выбора открытого или закрытого конвертов составляет <math>\textstyle \left\langle v_1\right\rangle =\left\langle v_2\right\rangle =3/4=0.75</math>.
  
<math>\textstyle \bullet</math> Рассмотрим теперь дискретный вариант задачи двух конвертов. Пусть в конвертах может появится одно из следующих <math>\textstyle n+1</math> чисел:
+
Оптимальное значение константы равно <math>\textstyle x_0=\ln 4</math>. Соответственно, средний доход от активной стратегии будет равен:
  
:<center><math>1,\;2,\;2^2,\;2^3,\;...,\;2^n.</math></center>
+
:<center><math>\left\langle v_3\right\rangle = \frac{3+\ln 16}{64}+\frac{3}{4} = \frac{51+\ln 16}{64} \approx 0.840.</math></center>
  
Соответственно возможны следующие пары:
+
В результате, активная стратегия оказывается на 12\% более доходной, чем пассивные.
  
:<center><math>(1,2);\;(2,2^2);\;(2^2,2^3);\;....;\;(2^{n-1},2^{n}),</math></center>
+
В случае немонотонных функций плотности распределения, эффективная стратегия может быть существенно более затейливой, чем простой пороговый выбор одного или другого конверта.
  
Они выбираются равновероятно, затем конверты перемешиваются.
+
==Парадокс возвращается==
  
Чтобы по-возможности лишить игрока знания о краевых эффектах, снова ограничим его. Если в открытом конверте обнаруживается 1 или <math>\textstyle 2^n</math> (крайние значения сумм), игрок ничего не выбирает и не получает (раунд игры пропускается). Во всех остальных случаях, как и прежде, он может забрать деньги из открытого конверта или выбрать вместо него закрытый.
+
Существует очень любопытная модификация парадокса для дискретных сумм с убывающими вероятностями. Она была предложена в Интернете участником SeTosha при обсуждении классического парадокса двух конвертов. Мы рассмотрим несколько более общую формулировку этой задачи.
  
Пусть, например, <math>\textstyle n=6</math>, т.е. разрешены суммы от 1 до 64. В открытом конверте (если раунд игры не прекращён) равновероятно могут находится суммы от 2 до 32. Соответственно, во втором конверте, снова равновероятно, будут суммы в два раза больше или меньше. Изобразим это в виде следующего дерева:  
+
Выберем некоторое число <math>\textstyle q>1</math>, и будем считать, что для игры формируются пары конвертов со следующими суммами и вероятностями:
  
<center>[[File:envel_1_64.png]]</center>
+
:<center><math>\begin{array}{r|ccccccc} envelopes: & (1, q) & (q,q^2) & (q^2,q^3) & ... & (q^{n-1},q^{n}) & (q^n,q^{n+1}) &...\\ \hline p_i=& 1/2 & 1/4 & 1/8 & ... & 1/2^{n} & 1/2^{n+1} &... \end{array}</math></center>
  
Пары крайних значений 1,2 и 32,64 во втором конверте встречаются по разу, а остальные числа &mdash; по два раза. Поэтому гистограммы появления сумм в первом и втором конверте (число возможностей) имеют вид:
+
Таким образом с вероятностью <math>\textstyle 1/2^n</math> большая сумма в конверте равна <math>\textstyle q^{n}</math>, а меньшая в <math>\textstyle q</math> раз меньше, где <math>\textstyle n=1,2,...,\infty</math>. Несложно видеть, что сумма всех вероятностей равна единице, и такое распределение вполне реализуемо на практике. Как и раньше, после того как в два конверта кладутся деньги, эти конверты случайным образом тасуются. В этом случае средний выигрыш от взятия суммы <math>\textstyle x</math> из открытого конверта равен среднему выигрышу от выбора закрытого конверта.
  
<center>[[File:envel_n.png]]</center>
+
Условное среднее при выборе открытого конверта равно <math>\textstyle v_1=x</math>. Для закрытого конверта необходимо рассмотреть две ситуации. Если <math>\textstyle x=1</math>, значит гарантированно, в закрытом конверте находится сумма <math>\textstyle v_2 = q</math>. Во всех остальных случаях, вероятность того, что в открытом конверте находится меньшая сумма в 2 раза выше, чем вероятность того, что это большая сумма. Следовательно условные вероятности равны <math>\textstyle 2/3</math> и <math>\textstyle 1/3</math>. Соответственно, условное среднее для закрытого конверта, если <math>\textstyle x=q^n</math>, равно:
  
Для <math>\textstyle n+1</math> чисел вероятность появления (в игре) в первом конверте сумм от 2 до <math>\textstyle 2^{n-1}</math> одинаковые и равны <math>\textstyle 1/(n-1)</math>. Чтобы найти вероятности во втором конверте необходимо посчитать число квадратиков в гистограмме. В нижнем ряду их <math>\textstyle n+1</math>, а в верхнем <math>\textstyle n+1-4</math>. Поэтому всего их <math>\textstyle 2(n-1)</math>. В результате вероятности сумм в середине диапазона равны <math>\textstyle 1/(n-1)</math>, а по краям &mdash; <math>\textstyle (1/2)/(n-1)</math>.
+
:<center><math>\frac{1}{3}\,q^{n-1} + \frac{2}{3}\,q^{n+1} = \frac{2+q^2}{3q}\, q^{n}.</math></center>
  
Нарисуем эти два распределения:  
+
Поэтому, условные средние от выбора открытого и закрытого конверта можно записать следующим образом:
  
<center>[[File:envel_n2.png]]</center>
+
:<center><math>v_1=q^n,\;\;\;\;\;\;\;\;\;\;\;\;\;\; v_2= \left\{ \begin{array}{cl} q, & if\;n=0\\ \frac{2+q^2}{3q}\, q^{n}, & if\;n>0 \end{array} \right.</math></center>
  
При большом <math>\textstyle n</math> заштрихованные области одинаковых вероятностей могут быть сколь угодно широкими. Кажется, что "краевыми эффектами" в этом случае можно пренебречь, оба конверта имеют одинаковые распределения и, следовательно, приносят одинаковый доход.
+
Теперь время парадокса. Пусть <math>\textstyle q=2</math> (как и принимается в классической задаче двух конвертов). Тогда, при <math>\textstyle n>0</math> имеем равенство стратегий <math>\textstyle v_1=v_2</math>, а при <math>\textstyle n=0</math> закрытый конверт лучше (<math>\textstyle v_2=2</math> против <math>\textstyle v_1=1</math>). Поэтому, при прочих равных, надо предпочесть закрытый конверт. Если же <math>\textstyle q>2</math>, то ''для любых'' <math>\textstyle n</math> условное среднее закрытого конверта больше: <math>\textstyle v_2>v_1</math>. Но конверты-то неразличимы и равноправны!
  
Однако это не так, даже при <math>\textstyle n\to\infty</math>! Действительно, найдём доход при выборе первого (открытого) конверта:
+
Ошибки в вычислении условных средних нет. Поэтому, чтобы разобраться в чём дело, вычислим абсолютный средний доход при любом <math>\textstyle x</math>. Вероятности <math>\textstyle p_n</math> обнаружить при открытии конверта сумму <math>\textstyle x=q^n</math> равны:
  
:<center><math>v_1=\frac{2+...+2^{n-1}}{n-1} = \frac{2 (2^{n-1}-1)}{n-1}\to \frac{2^n}{n},</math></center>
+
:<center><math>p_0 = \frac{1}{4},\;\;\;\;\;\;\;\;\;\;\;p_n=\frac{3}{2^{n+2}}.</math></center>
  
где использована известная формула для суммы геометрической прогрессии <math>\textstyle 1+q+q^2+...+q^n=(q^{n+1}-1)/(q-1)</math> и записано выражение, к которому стремиться <math>\textstyle v_1</math> при <math>\textstyle n\to\infty</math>. Аналогично вычисляется средний доход при выборе второго конверта:
+
С <math>\textstyle p_0</math> &mdash; понятно. Пара конвертов <math>\textstyle (1,q)</math> выбирается с вероятностью <math>\textstyle 1/2</math>. Каждый из конвертов может быть открыт также с вероятностью 1/2. Для всех остальных пар имеем <math>\textstyle (1/2)(1/2^{n})+(1/2)(1/2^{n+1})=3/2^{n+2}</math>. Естественно абсолютные средние доходности оказываются равными:
  
:<center><math>v_2 = \frac{2+...+2^{n-2}}{n-1}+\frac{1+2+2^{n-1}+2^{n}}{2(n-1)} = \frac{5}{4}\,v_1.</math></center>
+
:<center><math>\left\langle v_1\right\rangle \;\;\;=\;\;\; \frac{1}{4}\cdot 1 + \sum^\infty_{n=1} \frac{3}{2^{n+2}}\cdot q^{n} \;\;\;=\;\;\frac{1+q}{2(2-q)}.</math></center>
  
Таким образом, относительная доходность второй стратегии ''при любом'' <math>\textstyle n</math> больше на 25\%, чем для первой стратегии.
+
:<center><math>\left\langle v_2\right\rangle = \frac{1}{4}\cdot q + \sum^\infty_{n=1} \frac{3}{2^{n+2}}\cdot \frac{2+q^2}{3q}\,q^{n} = \frac{1+q}{2(2-q)}.</math></center>
  
Разберёмся с тем, что получилось. Для больших <math>\textstyle n</math> вклад в <math>\textstyle v_1</math> или <math>\textstyle v_2</math> левой границы (суммы 1 и 2) исчезающе мал и роли она не играет. Основной вклад в разницу средних даёт правая граница. И этот вклад остаётся, даже когда она формально отодвигается на бесконечность. Причина связана с быстрым (экспоненциальным) ростом величины суммы <math>\textstyle 2^n</math>, потенциально получаемой во втором конверте. В тоже время эта сумма ни когда не встречается в первом конверте. При больших <math>\textstyle n</math> она равна сумме всех денег до этой границы:
+
Несложно видеть, что при <math>\textstyle q\geqslant 2</math> эти выражения ''остаются равными'', но ''теряют смысл''. В этом и кроется корень проблемы. Если <math>\textstyle 1<q<2</math>, то дробь <math>\textstyle (2+q^2)/(3q)</math> в <math>\textstyle v_2</math> меньше единицы, поэтому сравнить условные средние <math>\textstyle v_1</math> и <math>\textstyle v_2</math> не представляется возможным. Если <math>\textstyle n=0</math>, то больше <math>\textstyle v_2</math>, в противном случае &mdash; больше <math>\textstyle v_1</math>. Единственный способ, на основании этих условных средних принять правильное решение, это их усреднить. В результате оказывается, что выбор конверта роли не играет: <math>\textstyle \left\langle v_1\right\rangle =\left\langle v_2\right\rangle =(1+q)/(2(2-q))</math>. Точка <math>\textstyle q=2</math> оказывается пороговой, как для возможности однозначного сравнения условных средних, так и для сходимости рядов при усреднении по всем <math>\textstyle x</math>.
  
:<center><math>1+2+...+2^{n-1} = 2^{n} - 1.</math></center>
+
И всё же, почему нельзя сравнивать условные средние при <math>\textstyle q\geqslant 2</math>? Да, их усреднение невозможно (даёт бесконечный результат). Однако если при любом условии <math>\textstyle x</math> для конечных условных средних всегда <math>\textstyle v_2>v_1</math>, то хочется сделать вывод, что закрытый конверт лучше. Хотя понятно, что это заведомо неверный вывод. В чём дело?
  
Именно это приводит к тому, что относительная доходность выбора второго конверта оказывается больше, чем первого. Кажущийся парадокс возникает потому, что при <math>\textstyle n\to \infty</math> существует сколь угодно много вариантов появления сумм в обоих конвертах, которые имеют одинаковую вероятность. Это и создаёт иллюзию равноправия конвертов.
+
Дело, по всей видимости, в математическом смысле условного среднего. Говоря, что при данном <math>\textstyle x</math> условная средняя доходность равна <math>\textstyle v_2(x)</math>, мы подразумеваем, что для неё должно выполняться условие нормировки, как и для распределения вероятностей <math>\textstyle P(x)</math>. При усреднении по всем возможным <math>\textstyle x</math> должно получаться осмысленное (конечное) выражение. Если этого не происходит, то функция <math>\textstyle v_2(x)</math> плохо определена. Также как плохо определено ненормируемое распределение <math>\textstyle P(x)</math>. В этом случае выводы на основе сравнения различных условных средних могут оказаться ошибочными. Всё как в школе: на ноль делить нельзя и точка.
  
 
==Компьютерное моделирование==
 
==Компьютерное моделирование==
  
Решение или проверка решения задач по теории вероятности почти всегда могут быть реализованы при помощи компьютера. Ниже приведен исходный код на C++, который моделирует игру с непрерывным постоянным распределением вероятностей шириной <math>\textstyle L</math>. \cppsrc{envel.cpp} \\ \\ Закомментированная строка соответствует дополнительному условию по началу игры (прерываем раунд). Любое компьютерное моделирование требует проведения статистической оценки достоверности полученных результатов. Можно поступить проще и поставить встряхиватель случайных чисел (строка srand(time(0)); ). Несколько последовательных запусков позволит увидеть, какая цифра "дёргается". Это и есть примерная ошибка моделирования.
+
Решение или проверка решения задач по теории вероятности почти всегда могут быть реализованы при помощи компьютера. Ниже приведен исходный код на C++, который моделирует игру с непрерывным постоянным распределением вероятностей шириной <math>\textstyle L</math>.  
 +
<pre class="brush:c++; gutter: false; toolbar: false;">
 +
#include <stdlib.h>
 +
#include <stdio.h>
 +
#include <math.h>
 +
#include <time.h>
 +
 
 +
// случайное число (0 .. 1]
 +
inline double Rnd(){ return double(rand()+1) / double(RAND_MAX+1); }         
 +
 
 +
void main()
 +
{
 +
  srand(time(0));                        // встряхиваем генератор
 +
  double c[2];                            // конверты
 +
  double L = 1;                          // граница
 +
 
 +
  int n=0;                                // число игр
 +
  double v1=0, v2=0, v3=0;                // заработки от стратегий
 +
  for(int iter=0; iter<10000000; iter++){
 +
      c[0]=Rnd()*L;
 +
      c[1]=c[0]/2;
 +
 
 +
      int i1 = rand()%2;                  // номер открытого конверта
 +
      int i2 = (i1+1)%2;                  // номер закрытого конверта
 +
 
 +
      //if(c[i1]>L/2) continue;            // прерываем раунд
 +
 
 +
      v1+=c[i1];                          // доходы от стратегий:
 +
      v2+=c[i2];
 +
      v3+=( (c[i1]>L/2)? c[i1]: c[i2] );
 +
      n++;
 +
  }
 +
  v1/=n; v2/=n; v3/=n;                    // средние значения
 +
 
 +
  printf("v1=%.4f\tv2=%.4f\tv3=%.4f\n", v1, v2, v3);
 +
}
 +
</pre>
 +
 
 +
В основном цикле программы, который совершается 10 миллионов раз происходит формирование сумм в конвертах. Конверты реализованны в виде массива <math>\textstyle c[0]</math>, <math>\textstyle c[1]</math>. В "нулевой" конверт <math>\textstyle c[0]</math> кладётся равномерно распределённое случайное число из диапазона <math>\textstyle (0,L]</math>. Для этого функция Rnd(), возвращающая случайное число в диапазоне <math>\textstyle (0,1]</math>, умножается на <math>\textstyle L</math>. В конверт <math>\textstyle c[1]</math> помещается половина от <math>\textstyle c[0]</math>. Затем, случайно выбирается номер открытого конверта <math>\textstyle i1</math>. Соответственно <math>\textstyle i2</math> &mdash; это номер закрытого конверта.
 +
 
 +
Закомментированная строка соответствует дополнительному условию по началу игры (прерываем раунд, если в открытом конверте сумма больше, чем <math>\textstyle L/2</math>).
 +
 
 +
Для контроля статистической оценки достоверности получаемых результатов, в начале программы стоит "встряхиватель" случайных чисел: srand(time(0)). Несколько последовательных запусков позволят увидеть, какая цифра "дёргается". Это и есть примерная ошибка моделирования. Приведём примеры работы программы:
 +
<pre>
 +
      v1=0.3752      v2=0.3751      v3=0.4689
 +
      v1=0.3750      v2=0.3751      v3=0.4688
 +
      v1=0.3750      v2=0.3750      v3=0.4687
 +
      v1=0.3751      v2=0.3750      v3=0.4688
 +
      v1=0.3750      v2=0.3750      v3=0.4687
 +
</pre>
 +
Каждая строка вычислений занимает около четверти секунды на машине средней мощности. Результаты работы с раскомментированным условием прерывания раунда следующие:
 +
<pre>
 +
      v1=0.2500      v2=0.3749      v3=0.3749
 +
      v1=0.2501      v2=0.3751      v3=0.3751
 +
      v1=0.2499      v2=0.3749      v3=0.3749
 +
      v1=0.2500      v2=0.3750      v3=0.3750
 +
      v1=0.2500      v2=0.3750      v3=0.3750
 +
</pre>
 +
Заметим, что для проведения большого количества численных итераций необходимо обязательно использовать тип удвоенной точности double, а не одинарной &mdash; float. Ошибки округления достаточно быстро накапливаются, и без удвоенной точности появится систематическая ошибка. Вообще говоря, использование встроенного в С++ генератора случайных чисел для подобных моделирований это не лучший выбор. Он генерит только 32768 различных псевдослучайных чисел, хоти и с достаточно большим периодом повторения. Тем не менее для экспериментов "на скорую руку" он вполне приемлем.
 +
 
 +
Для получения случайной величины с распределением <math>\textstyle P(x)=e^{-x}</math>, можно воспользоваться формулой <math>\textstyle x=-\ln r</math>, где <math>\textstyle r</math> &mdash; равномерно распределённая на интервале (0,1] случайная величина, т.е. Rnd(). Действительно, интегральное распределение для <math>\textstyle P(x)=e^{-x}</math> равно: <math>\textstyle W(x) = 1-e^{-x}</math> и изменяется от 0 до 1. Поэтому равновероятно выбрав то или иное значение <math>\textstyle W=W(x)</math> несложно найти <math>\textstyle x</math>.
 +
 
 +
Аналогично, можно смоделировать дискретные случайные числа, появляющиеся с вероятностями <math>\textstyle 1/2^n</math>. Для этого необходимо выяснить в какой из интервалов <math>\textstyle [1-1/2^{n-1}, 1-1/2^{n}]</math> попала случайная величина <math>\textstyle r</math>. Одним словом, вариантов для численного моделирования задачи двух конвертов существует огромное множество.
 +
 
 +
==Немного философии==
 +
 
 +
Иногда на форумах при обсуждении задачи о двух конвертах, задаётся следующий вопрос: <blockquote> Хорошо. Выбрав конкретные правила игры (=распределение), можно показать, что противоречия нет. Но как быть, если игрок не знает каким образом формируются конверты и суммы в них. В этом же случае вероятности по-любому 50/50? </blockquote> Нет, это не верно. Важно понимать, что отсутствие знания не свидетельствует о равновероятности исходов. Наоборот, равновероятность возникает, если мы ''уверены'' в симметричности исходов, поэтому:
 +
<center>
 +
'''незнание''' <math>\textstyle \neq</math> '''равновозможности'''
 +
</center>
 +
Теория вероятностей может оперировать только вероятностями, которые заданны из соображений симметрии или получены в эмпирическом исследовании. Например, подбрасывая симметричную монету мы присваиваем каждому исходу (орёл или решка) вероятность 1/2 именно потому, что монета симметрична, а не потому, что мы не знаем, что выпадет. Бросая кость, мы тоже не знаем что выпадет, но из соображений симметрии уже считаем вероятности равными 1/6. Если проводится эмпирическое определение вероятностей, исходя из наблюдаемых частот, то мы предполагаем, что эти вероятности не изменяются во времени (чего увы нет, например, на финансовых рынках).
 +
 
 +
Ни каких других способов задания вероятностей нет. Ещё раз напомним, что математика &mdash; это игра с чётко определёнными правилами. Неявный выход за них и приводит парадоксам.
 +
 
 +
Незнание не обладает симметрией. Чтобы незнание превратить в числа (вероятности) необходимо, как минимум провести некое эмпирическое исследование. Однако и в этом случае математика подстерегает множество неприятностей (нестационарность, возможность чуда и т.п.).
 +
 
 +
Стоит напомнить старую шутку про блондинку, которая уверена, что завтра она с вероятностью 1/2 встретит динозавра, потому, что она его либо встретит, либо не встретит. Во времена культа политкорректности, эта шутка не актуальна и сейчас уже все блондинки умеют вычислять вероятности и знают, что динозавры давно вымерли <math>\textstyle \ddot\smile</math>.
 +
 
 +
Эти же блондинки понимают, что если им неизвестно в какую геологическую эпоху они живут, нельзя априори присвоить событию встречи динозавра ту или иную вероятность. И уж точно это не будет вероятность равная 1/2.
 +
 
 +
Теперь мы можем вернуться к парадоксу Крайчика с двумя кошельками. Напомним, что вывод о выгодности игры для каждого игрока был сделан на основании вероятностей выигрыша или проигрыша равных 1/2. Действительно, если бы, например, вероятность выиграть некоторую сумму была существенно ниже вероятности лишиться своих денег, вряд-ли участвующие желали бы сыграть в такую игру.
 +
 
 +
Поэтому это типичная сказка о динозавре. На основании незнания делается вывод о равновероятности, а затем применяется теория вероятности. В результате получается парадокс.
 +
 
 +
Естественно, если следуя Крайчику мы зададим конкретные вероятности распределения денег в кошельках, посмотрим в свой и увидим сумму <math>\textstyle x</math>, то будем знать, стоит или нет играть в такую игру. Если не заглядывать в кошелёк, то получится игра с нулевым средним доходом. Именно так и сформулирована эта проблема в терминах двух конвертов.
 +
 
 +
Таким образом, мы проанализировали задачу двух конвертов на примере различных распределений вероятностей для сумм, находящихся в конвертах. Если игра происходит без ограничений (нет селекции открытого конверта), то доходность выбора открытого и закрытого конвертов одинаковы, как и следует из соображений симметрии. Однако существует более доходная ("активная") стратегия, учитывающая значение суммы в открытом конверте. В случае равномерного ограниченного и монотонно убывающего распределений эта стратегия пороговая. В зависимости от того больше <math>\textstyle x</math> некоторой константы или меньше, выбирается открытый или закрытый конверт.
 +
 
 +
Если для равномерного на интервале <math>\textstyle [0,L]</math> распределения правила игры изменить, чтобы ослабить краевой эффект, то активная стратегия становится недоступной. Однако симметрия между конвертами нарушается. В открытом конверте может лежать только сумма <math>\textstyle [0,L/2]</math>, тогда как в закрытом она находится в диапазоне <math>\textstyle [0,L]</math>. Поэтому и доходность выбора закрытого конверта выше, чем открытого.
 +
 
 +
Парадокс двух конвертов возникает по двум причинам. Во-первых проводится некорректное вычисление условного среднего дохода при выборе закрытого конверта. Во-вторых это вычисление делается без конкретизации условий задачи, с неверной посылкой о том, что незнание этих условий соответствует равновероятности всех исходов.
 +
 
 +
Вот собственно и всё.
 +
 
 +
::::: Степанов Сергей по просьбе Степанова Дениса
 +
::::: (с) 2010, synset.com
  
:::::: Степанов Сергей по просьбе Степанова Дениса
+
----
:::::: (с) 2010, synset.com
+
Cм. также:  
 +
* Версия для печати ([http://synset.com/pdf/envelopes.pdf pdf])
 +
* [[Дискретная задача двух конвертов]]
 +
----
 +
Материалы статьи могут быть использованы в некоммерческих и public information целях
 +
на условиях лицензии GNU Free Documentation License (версии 1.2 или более поздней).
 +
При использовании необходима ссылка на источник:  
 +
[http://synset.com/ru/Парадокс_двух_конвертов http://synset.com/ru/Парадокс_двух_конвертов]

Текущая версия на 13:58, 12 января 2011

Формулировка парадокса

Рассмотрим следующую игру:

Есть 2 конверта. В один из них вкладывается сумма , во второй — . Значение неизвестно и каждый раз случайно изменяется. Конверты неразличимы. Игрок открывает один из конвертов и видит лежащую там сумму. У него есть две возможности - забрать её или выбрать второй, нераспечатанный конверт. Какая из этих возможностей в среднем даст большую прибыль?

Так как конверты неразличимы, вероятности того, что в данном конверте лежит сумма или , равны 1/2. Значения сумм, лежащих в каждом конверте, заранее неизвестны. Знание суммы в открытом конверте не добавляет информации о том, какая сумма лежит во втором. Поэтому любой выбор даст одинаковую доходность.

С другой стороны. Пусть игрок видит сумму . Тогда во втором (закрытом) конверте лежит или . Эти две возможности равноправны. Поэтому средний доход от выбора второго конверта равен:

Таким образом, игрок при выборе закрытого конверта получает больше, чем при выборе открытого, который даёт ему только . Независимо от значения суммы , относительная доходность при выборе закрытого конверта будет больше на .

Два разумных и вполне правдоподобных рассуждения приводят к несовпадающим результатам. Это противоречие и называется "парадоксом двух конвертов". Существуют также версии названия: "парадокс двух шкатулок", "парадокс двух карманов" и т.д.

Вокруг этого парадокса время от времени вспыхивают споры в интернет-сообществе. Иногда появляются "сенсационные" заявления о том, что некто парадокс наконец решил. С другой стороны, часто в общих словах происходит, в принципе, верное объяснение сути, но без конкретных расчётов. В результате создаётся ощущение философского надувательства.

Несмотря на то, что парадокс достаточно прост, мне не удалось быстро найти подходящий источник, а так как сын срочно требовал разъяснений, пришлось сесть и написать сей трактат.

Напомним кратко историю. Парадокс был предложен в 1953 году Морисом Крайчиком в книге "Математические развлечения". Широкую известность он получил благодаря Мартину Гарднеру который описал его в книге "А ну-ка, догадайся!" в 1982 г. Исходная версия парадокса "Чей кошелёк толще?" звучала следующим образом:

Два человека решают сравнить суммы денег в их кошельках. При этом они договариваются, что тот, у кого их окажется меньше, забирает все деньги себе. Каждый из них рассуждает следующим образом. Максимум, что я могу проиграть это деньги которые имею. А выиграть могу больше, поэтому эта игра выгодна для меня.

Понятно, что симметричная игра не может быть одновременно выгодной обеим сторонам. Получается парадокс.

Гарднер отмечает, что Крайчик для объяснения рассматривает одинаковое равновероятное распределение вероятностей сумм в каждом кошельке. При этом получается нулевая матрица платежей и игра оказывается симметричной. Однако, пишет Гарднер, "к сожалению, это ничего не говорит нам о том, где именно в рассуждениях двух игроков кроется ошибка. Как мы ни бились, нам так и не удалось найти простое и удовлетворительное решение парадокса Крайчика." Неудивительно, что после такого заявления парадокс вызвал большой интерес.

Приведенная в начале статьи формулировка парадокса была сделана Барри Нейлбуфом в 1989 г. Чтобы парадокс Крайчика стал больше похож на задачу с двумя конвертами, необходимо чуть изменить рассуждения каждой из сторон:

Я знаю, что у меня в кошельке сумма . Мой оппонент имеет неизвестную сумму . С вероятностью 1/2 я потеряю свои деньги и после открытия кошельков буду иметь 0. С вероятностью же 1/2 я заберу деньги оппонента, и у меня будет , где . Поэтому в среднем после игры у меня будет:

Мы будем обсуждать парадокс в "современной" формулировке двух конвертов, и вернёмся к парадоксу Крайчика в заключительном разделе статьи.

Уточнение задачи

Математика работает с непротиворечиво определёнными моделями. Пока исходные формулировки нечётки, любые рассуждения могут привести к любому ответу, в результате чего и возникают такие парадоксы.

В задаче с двумя конвертами необходимо сначала определить способ формирования конвертов. Вариантов может быть множество. Для определённости будем считать, что ведущий игру выбирает некоторую сумму , которую считает большей. Соответственно во второй конверт он кладёт . После этого конверты случайно перемешиваются.

Второе уточнение связано со способом выбора большей суммы . Предполагается, что она выбирается случайно. Это означает, что существует некоторое распределение вероятностей выбора того или иного значения . Возможны два варианта:

  • 1) Суммы, участвующие в игре, являются дискретными. Например, это может быть ограниченная последовательность с возможными парами конвертов , и . Можно также рассматривать неограниченные (в одну или обе стороны) последовательности. Например: . В любом случае вероятности будут дискретными числами , где — номер значения суммы.
  • 2) Суммы, участвующие в игре — непрерывные вещественные положительные числа. Их вероятность необходимо уже задавать при помощи плотности вероятности (или распределения вероятностей). В этом случае вероятность того, что при некотором малом , выбранное число попадёт в интервал , равняется .

В обоих вариантах должно выполняться условие нормировки, при котором полная вероятность любого исхода принимается за единичную. В общем случае условия нормировки имеют вид:

Невозможно разобрать выражение (синтаксическая ошибка): {\displaystyle \sum^\infty_{i=0} p_i = 1,\;\;\;\;\;\;\;или\;\;\;\;\;\;\; \int\limits^\infty_0 P(x)dx = 1.}

Понятно, что для равновероятных значений (т.е. или ) из бесконечного диапазона эти соотношения выполнятся не могут. Другими словами, невозможно ни в теории, ни на практике реализовать равновероятное распределение на бесконечном интервале.

Пусть случайная величина непрерывна. Рассмотрим два варианта:

  • 1) равномерное распределение с границей так, что при .
  • 2) неравномерное распределение, при котором убывает при .

Ниже на левом рисунке представлен первый вариант, а на правом, соответственно, второй:

Envel Px.png

Понятно, что первый вариант на самом деле эквивалентен второму, но имеет более "изломанное убывание" на бесконечности. Тем не менее, нам будет удобнее их различать.

Задача двух конвертов в более общей постановке предполагает формирование различных стратегий поведения игрока и выбор из них наиболее доходной. Стратегии могут учитывать или не учитывать информацию о сумме в открытом конверте. Например:

  • : Всегда забираю открытый конверт.
  • : Всегда забираю закрытый конверт.
  • : Если , беру открытый конверт, иначе — закрытый.

В случае, если конверты были тщательно перемешаны, первые две стратегии должны приводить к одинаковому доходу. Они никак не используют знания об , и в открытый конверт в этом случае можно даже не заглядывать. Собственно, это и утверждалось в первом варианте рассуждения. Вычисления среднего противоречат симметрии задачи, следовательно они ошибочны. Нам предстоит разобраться в чём состоит проблема.

Сначала мы рассмотрим влияние краевого эффекта для равномерного распределения с границей. Мы увидим, что даже при формальном "отодвигании" границы на бесконечность существует более выигрышная "активная" стратегия. Кроме этого будут вычислены доходности различных стратегий в модифицированных правилах игры, при помощи которых делается попытка снизить влияние краевого эффекта. В этом случае конверты перестают быть симметричными. Затем мы найдём оптимальную стратегию для непрерывного убывающего распределения.

Новая формулировка парадокса была предложена уже в процессе обсуждения этой статьи в Интернете. Мы попробуем по-возможности с ней также разобраться. В заключение мы обсудим некоторые общие вопросы, связанные с понятием вероятности и причинами появления подобных парадоксов. Любители математики не склонные к математическим вычислениям могут сразу перескочить к этому разделу.

Равномерное ограниченное распределение

Пусть в конвертах не могут появляться суммы большие, чем (верхняя граница). Как мы договорились выше, ведущий случайно выбирает из интервала большую сумму , а меньшую получает делением на 2. Понятно, что меньшая сумма будет также равновероятно распределена, но уже на интервале . После запечатывания конверты случайным образом перемешиваются.

Envel 24.png

Выше слева нарисовано равномерное ограниченное распределение плотности вероятностей. На правом рисунке изображено дерево вариантов, сопровождающих открытие конверта. С вероятностями 1/2 в открытом конверте может находиться меньшая () или большая сумма (). Если эта сумма большая, она снова равновероятно может быть меньше или больше .

Таким образом, существуют три исхода при открытии конверта со следующими вероятностями:

Рассмотрим сначала пассивные стратегии: "всегда берём открытый конверт" () и "всегда берём закрытый конверт" (). Если в открытом конверте находится сумма , то понятно, что средняя доходность первой стратегии равна . Конверты были перемешаны, значение никак не учитывается, поэтому вторая стратегия должна иметь такую же доходность .

С другой стороны, с вероятностью 1/2 в закрытом конверте находится (большая сумма). С такой же вероятностью там (меньшая сумма). Поэтому:

Упс. Фактически мы повторили рассуждение парадокса и, несмотря на все уточнения формулировки задачи, снова пришли к противоречию. Что неверно в наших вычислениях?

Зайдём с другого конца и вычислим абсолютный (безусловный) средний доход, получаемый игроком при выборе денег из открытого конверта. Большая и меньшая сумма в открытом конверте может появиться равновероятно. Меньшая сумма имеет равномерное распределение на интервале . Поэтому её среднее значение равно . Большая сумма, равномерно распределённая на интервале , имеет среднее значение . Поэтому среднее значение суммы в открытом конверте равно:

Очевидно, что такое же рассуждение и результат справедливы для средней доходности от выбора закрытого конверта. Поэтому средние доходности первой и второй стратегий равны .

Но что же тогда означают соотношения , , полученные выше, и какая при их выводе была сделана ошибка? Ответ прост. Вероятности появления большей или меньшей суммы в открытом конверте действительно одинаковы. Однако, выражая доход, полученный от выбора закрытого конверта через сумму , которая обнаружилась в открытом, мы вычисляем условное среднее. Т.е. вопрос стоит так: какова в среднем сумма в закрытом конверте, если в открытом мы видим . Знание значения меняет вероятности для сумм и в закрытом конверте. Например, если , то в закрытом конверте заведомо находится меньшая сумма (вероятность большей равна нулю). Поэтому в этом случае:

Если же , то вероятности того, что в открытом конверте лежит меньшая или большая суммы , изменяются. Это уже условные вероятности, рассчитанные после получении информации о том, что . Они по-прежнему пропорциональны и , т.е. меньшая сумма в открытом конверте в два раза более вероятна. Однако, их необходимо отнормировать, чтобы суммарная вероятность была равна единице. В результате для открытого конверта есть два исхода:

Таким образом, до открытия вероятности были 1/2 и 1/2. После открытия и получения информации, что они стали 2/3 и . Соответственно в закрытом конверте эти вероятности обратные.

Теперь не составляет труда записать условное среднее для стратегии при условии, что :

Окончательно, правильное выражение для , т.е. для значения условного среднего дохода при выборе закрытого конверта, если в открытом обнаружена сумма , имеет вид:

На прямую нельзя сравнивать c , так как при имеем , иначе . Поэтому, чтобы выяснить, какая из стратегий более доходная, необходимо усреднить эти условные средние.

Для этого потребуется распределение вероятностей для сумм в открытом конверте. Меньшая сумма существует на интервале , поэтому обозначим ступеньку её плотности вероятностей как . Соответственно, для большей суммы это функция-ступенька . Конверты равновероятно перемешаны, следовательно плотность вероятности для суммы в открытом конверте равна:

Другими словами, каждую ступеньку необходимо разделить на 2 и результаты сложить. Итоговая плотность вероятности представлена ниже на правом рисунке:

Envel sum.png

Обратим внимание, что в 2 раза уже и выше чем , как и должно быть для выполнения условия нормировки (см. левый рисунок).

Абсолютный средний доход от выбора второго конверта равен:

Этот же результат ранее мы получили более простым способом.

Если с плотностью вероятностей усреднить , то получится такое же выражение: . Поэтому, при аккуратной записи условных средних, результаты естественно совпадают.

Перейдём теперь к более активной и доходной стратегии. Если игрок в открытом конверте видит , то он должен брать эту сумму, так как в закрытом конверте лежит заведомо меньше. В этом случае выигрыш . Если , то более вероятно, что в открытом конверте меньшая сумма, поэтому стоит выбрать закрытый конверт. В этом случае . Объединяя оба варианта, запишем условное среднее выигрыша от "активной стратегии" следующим образом:

Чтобы найти средний доход, получаемый при использовании активной стратегии, необходимо снова проинтегрировать c плотностью :

"Отодвигание" границы на бесконечность не меняет относительной доходности активной и пассивной стратегий.

Можно изменить правила игры для ослабления краевого эффекта. Пусть, если в открытом конверте лежит , раунд игры останавливается. Игрок ничего не выбирает и не получает. Игра происходит, только если . В этом случае он лишен "активной" стратегии.

Найдём доходы от выбора открытого () и выбора закрытого () конверта. В первом случае игрок всегда получает ту сумму которую видит: . При выборе закрытого конверта необходимо воспользоваться условными вероятностями:

Закрытый конверт на 50\% более доходный. Это и понятно: дополнительное правило изменило симметрию между конвертами.

Абсолютная средняя доходность равна:

где — среднее значение меньшей суммы, а — среднее значение большей на интервале (при условии, что игра началась, т.е. ). Фактически сразу можно написать , так как это середина интервала для сумм, возможных в первом конверте. Поэтому при взятии закрытого конверта получается доход . Эта сумма несколько ниже, чем у активной стратегии в игре, которая начинается независимо от суммы в открытом конверте.

Неравномерное распределение

В случае неравномерного распределения очевидно, что конверты неравноправны. Кроме функции необходимо фиксировать также правило формирования конвертов. Пусть ведущий игру, как и раньше, выбирает случайное число с распределением , считая его максимальной суммой. Минимальная получается из делением на 2. Затем конверты перемешиваются.

Если известно распределение для случайной величины , то распределение для величины имеет вид . Действительно, пусть вычисляется среднее от некоторой функции . Его можно вычислить при помощи вероятности :

Во втором равенстве сделана замена переменной интегрирования . Так как последний интеграл усредняет по , то множитель при функции и является плотностью распределения для .

Таким образом, в приведенном выше алгоритме формирования случайно перемешанных конвертов, сумма в открытом конверте имеет следующую плотность вероятности:

В частности, среднее значение суммы в открытом конверте равно:

Естественно, что такая же сумма в среднем будет находиться и в закрытом конверте.

Найдём теперь оптимальную стратегию игры. Для определённости будем считать, что итоговая вероятность , обнаружить сумму в открытом конверте монотонно снижается с ростом . Тогда существует некоторая оптимальная константа для которой следующая стратегия приносит максимальный доход:

: Если в открытом конверте обнаружена сумма и при этом — забираем открытый конверт, иначе — закрытый.

Наша задача состоит в вычислении оптимального значения .

Запишем условное среднее. Если , то . Если же , для закрытого конверта необходимо воспользоваться условными вероятностями. Если мы видим в открытом конверте сумму , то вероятность того, что это меньшая сумма пропорциональна . Вероятность большой суммы пропорциональна . Поэтому в этом случае:

Вероятности разделены на , чтобы сумма условных вероятностей была равна единице. Найдём среднее значение :

После несложных преобразований, получаем:

Второй интеграл равен среднему доходу от пассивных стратегий. Первый интеграл — бонус за активность. Найдём его максимум, взяв производную по и приравняв её нулю. Это даст следующее уравнение для :

К примеру, вычислим доходности для распределения в виде убывающей экспоненты:

Она нормирована на единицу и имеет единичное среднее . Поэтому средний доход от пассивного выбора открытого или закрытого конвертов составляет .

Оптимальное значение константы равно . Соответственно, средний доход от активной стратегии будет равен:

В результате, активная стратегия оказывается на 12\% более доходной, чем пассивные.

В случае немонотонных функций плотности распределения, эффективная стратегия может быть существенно более затейливой, чем простой пороговый выбор одного или другого конверта.

Парадокс возвращается

Существует очень любопытная модификация парадокса для дискретных сумм с убывающими вероятностями. Она была предложена в Интернете участником SeTosha при обсуждении классического парадокса двух конвертов. Мы рассмотрим несколько более общую формулировку этой задачи.

Выберем некоторое число , и будем считать, что для игры формируются пары конвертов со следующими суммами и вероятностями:

Таким образом с вероятностью большая сумма в конверте равна , а меньшая в раз меньше, где . Несложно видеть, что сумма всех вероятностей равна единице, и такое распределение вполне реализуемо на практике. Как и раньше, после того как в два конверта кладутся деньги, эти конверты случайным образом тасуются. В этом случае средний выигрыш от взятия суммы из открытого конверта равен среднему выигрышу от выбора закрытого конверта.

Условное среднее при выборе открытого конверта равно . Для закрытого конверта необходимо рассмотреть две ситуации. Если , значит гарантированно, в закрытом конверте находится сумма . Во всех остальных случаях, вероятность того, что в открытом конверте находится меньшая сумма в 2 раза выше, чем вероятность того, что это большая сумма. Следовательно условные вероятности равны и . Соответственно, условное среднее для закрытого конверта, если , равно:

Поэтому, условные средние от выбора открытого и закрытого конверта можно записать следующим образом:

Теперь время парадокса. Пусть (как и принимается в классической задаче двух конвертов). Тогда, при имеем равенство стратегий , а при закрытый конверт лучше ( против ). Поэтому, при прочих равных, надо предпочесть закрытый конверт. Если же , то для любых условное среднее закрытого конверта больше: . Но конверты-то неразличимы и равноправны!

Ошибки в вычислении условных средних нет. Поэтому, чтобы разобраться в чём дело, вычислим абсолютный средний доход при любом . Вероятности обнаружить при открытии конверта сумму равны:

С — понятно. Пара конвертов выбирается с вероятностью . Каждый из конвертов может быть открыт также с вероятностью 1/2. Для всех остальных пар имеем . Естественно абсолютные средние доходности оказываются равными:

Несложно видеть, что при эти выражения остаются равными, но теряют смысл. В этом и кроется корень проблемы. Если , то дробь в меньше единицы, поэтому сравнить условные средние и не представляется возможным. Если , то больше , в противном случае — больше . Единственный способ, на основании этих условных средних принять правильное решение, это их усреднить. В результате оказывается, что выбор конверта роли не играет: . Точка оказывается пороговой, как для возможности однозначного сравнения условных средних, так и для сходимости рядов при усреднении по всем .

И всё же, почему нельзя сравнивать условные средние при ? Да, их усреднение невозможно (даёт бесконечный результат). Однако если при любом условии для конечных условных средних всегда , то хочется сделать вывод, что закрытый конверт лучше. Хотя понятно, что это заведомо неверный вывод. В чём дело?

Дело, по всей видимости, в математическом смысле условного среднего. Говоря, что при данном условная средняя доходность равна , мы подразумеваем, что для неё должно выполняться условие нормировки, как и для распределения вероятностей . При усреднении по всем возможным должно получаться осмысленное (конечное) выражение. Если этого не происходит, то функция плохо определена. Также как плохо определено ненормируемое распределение . В этом случае выводы на основе сравнения различных условных средних могут оказаться ошибочными. Всё как в школе: на ноль делить нельзя и точка.

Компьютерное моделирование

Решение или проверка решения задач по теории вероятности почти всегда могут быть реализованы при помощи компьютера. Ниже приведен исходный код на C++, который моделирует игру с непрерывным постоянным распределением вероятностей шириной .

#include <stdlib.h>
#include <stdio.h>
#include <math.h> 
#include <time.h> 

// случайное число (0 .. 1]
inline double Rnd(){ return double(rand()+1) / double(RAND_MAX+1); }          

void main()
{
   srand(time(0));                         // встряхиваем генератор
   double c[2];                            // конверты
   double L = 1;                           // граница

   int n=0;                                // число игр
   double v1=0, v2=0, v3=0;                // заработки от стратегий
   for(int iter=0; iter<10000000; iter++){
      c[0]=Rnd()*L;
      c[1]=c[0]/2;

      int i1 = rand()%2;                   // номер открытого конверта
      int i2 = (i1+1)%2;                   // номер закрытого конверта

      //if(c[i1]>L/2) continue;            // прерываем раунд

      v1+=c[i1];                           // доходы от стратегий:
      v2+=c[i2];
      v3+=( (c[i1]>L/2)? c[i1]: c[i2] );
      n++;
   }
   v1/=n; v2/=n; v3/=n;                    // средние значения

   printf("v1=%.4f\tv2=%.4f\tv3=%.4f\n", v1, v2, v3);
}

В основном цикле программы, который совершается 10 миллионов раз происходит формирование сумм в конвертах. Конверты реализованны в виде массива , . В "нулевой" конверт кладётся равномерно распределённое случайное число из диапазона . Для этого функция Rnd(), возвращающая случайное число в диапазоне , умножается на . В конверт помещается половина от . Затем, случайно выбирается номер открытого конверта . Соответственно — это номер закрытого конверта.

Закомментированная строка соответствует дополнительному условию по началу игры (прерываем раунд, если в открытом конверте сумма больше, чем ).

Для контроля статистической оценки достоверности получаемых результатов, в начале программы стоит "встряхиватель" случайных чисел: srand(time(0)). Несколько последовательных запусков позволят увидеть, какая цифра "дёргается". Это и есть примерная ошибка моделирования. Приведём примеры работы программы:

       v1=0.3752       v2=0.3751       v3=0.4689 
       v1=0.3750       v2=0.3751       v3=0.4688 
       v1=0.3750       v2=0.3750       v3=0.4687 
       v1=0.3751       v2=0.3750       v3=0.4688 
       v1=0.3750       v2=0.3750       v3=0.4687 

Каждая строка вычислений занимает около четверти секунды на машине средней мощности. Результаты работы с раскомментированным условием прерывания раунда следующие:

       v1=0.2500       v2=0.3749       v3=0.3749 
       v1=0.2501       v2=0.3751       v3=0.3751 
       v1=0.2499       v2=0.3749       v3=0.3749 
       v1=0.2500       v2=0.3750       v3=0.3750 
       v1=0.2500       v2=0.3750       v3=0.3750 

Заметим, что для проведения большого количества численных итераций необходимо обязательно использовать тип удвоенной точности double, а не одинарной — float. Ошибки округления достаточно быстро накапливаются, и без удвоенной точности появится систематическая ошибка. Вообще говоря, использование встроенного в С++ генератора случайных чисел для подобных моделирований это не лучший выбор. Он генерит только 32768 различных псевдослучайных чисел, хоти и с достаточно большим периодом повторения. Тем не менее для экспериментов "на скорую руку" он вполне приемлем.

Для получения случайной величины с распределением , можно воспользоваться формулой , где — равномерно распределённая на интервале (0,1] случайная величина, т.е. Rnd(). Действительно, интегральное распределение для равно: и изменяется от 0 до 1. Поэтому равновероятно выбрав то или иное значение несложно найти .

Аналогично, можно смоделировать дискретные случайные числа, появляющиеся с вероятностями . Для этого необходимо выяснить в какой из интервалов попала случайная величина . Одним словом, вариантов для численного моделирования задачи двух конвертов существует огромное множество.

Немного философии

Иногда на форумах при обсуждении задачи о двух конвертах, задаётся следующий вопрос:

Хорошо. Выбрав конкретные правила игры (=распределение), можно показать, что противоречия нет. Но как быть, если игрок не знает каким образом формируются конверты и суммы в них. В этом же случае вероятности по-любому 50/50?

Нет, это не верно. Важно понимать, что отсутствие знания не свидетельствует о равновероятности исходов. Наоборот, равновероятность возникает, если мы уверены в симметричности исходов, поэтому:

незнание равновозможности

Теория вероятностей может оперировать только вероятностями, которые заданны из соображений симметрии или получены в эмпирическом исследовании. Например, подбрасывая симметричную монету мы присваиваем каждому исходу (орёл или решка) вероятность 1/2 именно потому, что монета симметрична, а не потому, что мы не знаем, что выпадет. Бросая кость, мы тоже не знаем что выпадет, но из соображений симметрии уже считаем вероятности равными 1/6. Если проводится эмпирическое определение вероятностей, исходя из наблюдаемых частот, то мы предполагаем, что эти вероятности не изменяются во времени (чего увы нет, например, на финансовых рынках).

Ни каких других способов задания вероятностей нет. Ещё раз напомним, что математика — это игра с чётко определёнными правилами. Неявный выход за них и приводит парадоксам.

Незнание не обладает симметрией. Чтобы незнание превратить в числа (вероятности) необходимо, как минимум провести некое эмпирическое исследование. Однако и в этом случае математика подстерегает множество неприятностей (нестационарность, возможность чуда и т.п.).

Стоит напомнить старую шутку про блондинку, которая уверена, что завтра она с вероятностью 1/2 встретит динозавра, потому, что она его либо встретит, либо не встретит. Во времена культа политкорректности, эта шутка не актуальна и сейчас уже все блондинки умеют вычислять вероятности и знают, что динозавры давно вымерли .

Эти же блондинки понимают, что если им неизвестно в какую геологическую эпоху они живут, нельзя априори присвоить событию встречи динозавра ту или иную вероятность. И уж точно это не будет вероятность равная 1/2.

Теперь мы можем вернуться к парадоксу Крайчика с двумя кошельками. Напомним, что вывод о выгодности игры для каждого игрока был сделан на основании вероятностей выигрыша или проигрыша равных 1/2. Действительно, если бы, например, вероятность выиграть некоторую сумму была существенно ниже вероятности лишиться своих денег, вряд-ли участвующие желали бы сыграть в такую игру.

Поэтому это типичная сказка о динозавре. На основании незнания делается вывод о равновероятности, а затем применяется теория вероятности. В результате получается парадокс.

Естественно, если следуя Крайчику мы зададим конкретные вероятности распределения денег в кошельках, посмотрим в свой и увидим сумму , то будем знать, стоит или нет играть в такую игру. Если не заглядывать в кошелёк, то получится игра с нулевым средним доходом. Именно так и сформулирована эта проблема в терминах двух конвертов.

Таким образом, мы проанализировали задачу двух конвертов на примере различных распределений вероятностей для сумм, находящихся в конвертах. Если игра происходит без ограничений (нет селекции открытого конверта), то доходность выбора открытого и закрытого конвертов одинаковы, как и следует из соображений симметрии. Однако существует более доходная ("активная") стратегия, учитывающая значение суммы в открытом конверте. В случае равномерного ограниченного и монотонно убывающего распределений эта стратегия пороговая. В зависимости от того больше некоторой константы или меньше, выбирается открытый или закрытый конверт.

Если для равномерного на интервале распределения правила игры изменить, чтобы ослабить краевой эффект, то активная стратегия становится недоступной. Однако симметрия между конвертами нарушается. В открытом конверте может лежать только сумма , тогда как в закрытом она находится в диапазоне . Поэтому и доходность выбора закрытого конверта выше, чем открытого.

Парадокс двух конвертов возникает по двум причинам. Во-первых проводится некорректное вычисление условного среднего дохода при выборе закрытого конверта. Во-вторых это вычисление делается без конкретизации условий задачи, с неверной посылкой о том, что незнание этих условий соответствует равновероятности всех исходов.

Вот собственно и всё.

Степанов Сергей по просьбе Степанова Дениса
(с) 2010, synset.com

Cм. также:


Материалы статьи могут быть использованы в некоммерческих и public information целях на условиях лицензии GNU Free Documentation License (версии 1.2 или более поздней). При использовании необходима ссылка на источник: http://synset.com/ru/Парадокс_двух_конвертов