Парадокс двух конвертов

Содержание

1 Формулировка парадокса
2 Уточнение задачи
3 Равномерное ограниченное распределение
4 Неравномерное распределение
5 Парадокс возвращается
6 Компьютерное моделирование
7 Немного философии

Формулировка парадокса

Рассмотрим следующую игру:

Есть 2 конверта. В один из них вкладывается сумма $\textstyle x$ , во второй — $\textstyle 2x$ . Значение $\textstyle x$ неизвестно и каждый раз случайно изменяется. Конверты неразличимы. Игрок открывает один из конвертов и видит лежащую там сумму. У него есть две возможности - забрать её или выбрать второй, нераспечатанный конверт. Какая из этих возможностей в среднем даст большую прибыль?

Так как конверты неразличимы, вероятности того, что в данном конверте лежит сумма $\textstyle x$ или $\textstyle 2x$ , равны 1/2. Значения сумм, лежащих в каждом конверте, заранее неизвестны. Знание суммы в открытом конверте не добавляет информации о том, какая сумма лежит во втором. Поэтому любой выбор даст одинаковую доходность.

С другой стороны. Пусть игрок видит сумму $\textstyle x$ . Тогда во втором (закрытом) конверте лежит $\textstyle 2x$ или $\textstyle x/2$ . Эти две возможности равноправны. Поэтому средний доход от выбора второго конверта равен:

v_{2}={\frac {1}{2}}\,(2x)+{\frac {1}{2}}\,(x/2)={\frac {5}{4}}\,x.

Таким образом, игрок при выборе закрытого конверта получает больше, чем при выборе открытого, который даёт ему только $\textstyle v_{1}=x$ . Независимо от значения суммы $\textstyle x$ , относительная доходность при выборе закрытого конверта будет больше на $\textstyle (v_{2}-v_{1})/v_{1}=25\%$ .

Два разумных и вполне правдоподобных рассуждения приводят к несовпадающим результатам. Это противоречие и называется "парадоксом двух конвертов". Существуют также версии названия: "парадокс двух шкатулок", "парадокс двух карманов" и т.д.

Вокруг этого парадокса время от времени вспыхивают споры в интернет-сообществе. Иногда появляются "сенсационные" заявления о том, что некто парадокс наконец решил. С другой стороны, часто в общих словах происходит, в принципе, верное объяснение сути, но без конкретных расчётов. В результате создаётся ощущение философского надувательства.

Несмотря на то, что парадокс достаточно прост, мне не удалось быстро найти подходящий источник, а так как сын срочно требовал разъяснений, пришлось сесть и написать сей трактат.

Напомним кратко историю. Парадокс был предложен в 1953 году Морисом Крайчиком в книге "Математические развлечения". Широкую известность он получил благодаря Мартину Гарднеру который описал его в книге "А ну-ка, догадайся!" в 1982 г. Исходная версия парадокса "Чей кошелёк толще?" звучала следующим образом:

Два человека решают сравнить суммы денег в их кошельках. При этом они договариваются, что тот, у кого их окажется меньше, забирает все деньги себе. Каждый из них рассуждает следующим образом. Максимум, что я могу проиграть это деньги которые имею. А выиграть могу больше, поэтому эта игра выгодна для меня.

Понятно, что симметричная игра не может быть одновременно выгодной обеим сторонам. Получается парадокс.

Гарднер отмечает, что Крайчик для объяснения рассматривает одинаковое равновероятное распределение вероятностей сумм в каждом кошельке. При этом получается нулевая матрица платежей и игра оказывается симметричной. Однако, пишет Гарднер, "к сожалению, это ничего не говорит нам о том, где именно в рассуждениях двух игроков кроется ошибка. Как мы ни бились, нам так и не удалось найти простое и удовлетворительное решение парадокса Крайчика." Неудивительно, что после такого заявления парадокс вызвал большой интерес.

Приведенная в начале статьи формулировка парадокса была сделана Барри Нейлбуфом в 1989 г. Чтобы парадокс Крайчика стал больше похож на задачу с двумя конвертами, необходимо чуть изменить рассуждения каждой из сторон:

Я знаю, что у меня в кошельке сумма $\textstyle x$ . Мой оппонент имеет неизвестную сумму $\textstyle y$ . С вероятностью 1/2 я потеряю свои деньги и после открытия кошельков буду иметь 0. С вероятностью же 1/2 я заберу деньги оппонента, и у меня будет $\textstyle x+y$ , где $\textstyle y>x$ . Поэтому в среднем после игры у меня будет:
${\frac {1}{2}}\,(x+y)+{\frac {1}{2}}\,0={\frac {x+y}{2}}>x.$

Мы будем обсуждать парадокс в "современной" формулировке двух конвертов, и вернёмся к парадоксу Крайчика в заключительном разделе статьи.

Уточнение задачи

Математика работает с непротиворечиво определёнными моделями. Пока исходные формулировки нечётки, любые рассуждения могут привести к любому ответу, в результате чего и возникают такие парадоксы.

В задаче с двумя конвертами необходимо сначала определить способ формирования конвертов. Вариантов может быть множество. Для определённости будем считать, что ведущий игру выбирает некоторую сумму $\textstyle x_{max}$ , которую считает большей. Соответственно во второй конверт он кладёт $\textstyle x_{min}=x_{max}/2$ . После этого конверты случайно перемешиваются.

Второе уточнение связано со способом выбора большей суммы $\textstyle x=x_{max}$ . Предполагается, что она выбирается случайно. Это означает, что существует некоторое распределение вероятностей выбора того или иного значения $\textstyle x$ . Возможны два варианта:

1) Суммы, участвующие в игре, являются дискретными. Например, это может быть ограниченная последовательность $\textstyle \{1,\,2,\,4,\,8\}$ с возможными парами конвертов $\textstyle (1,2)$ , $\textstyle (2,4)$ и $\textstyle (4,8)$ . Можно также рассматривать неограниченные (в одну или обе стороны) последовательности. Например: $\textstyle \{...,\,2^{-2},\,2^{-1},\,1,\,2,\,2^{2},\,...\}$ . В любом случае вероятности будут дискретными числами $\textstyle p_{i}$ , где $\textstyle i$ — номер значения суммы.
2) Суммы, участвующие в игре — непрерывные вещественные положительные числа. Их вероятность необходимо уже задавать при помощи плотности вероятности $\textstyle P(x)$ (или распределения вероятностей). В этом случае вероятность того, что при некотором малом $\textstyle \Delta x$ , выбранное число попадёт в интервал $\textstyle [x,x+\Delta x]$ , равняется $\textstyle P(x)\Delta x$ .

В обоих вариантах должно выполняться условие нормировки, при котором полная вероятность любого исхода принимается за единичную. В общем случае условия нормировки имеют вид:

Невозможно разобрать выражение (синтаксическая ошибка): {\displaystyle \sum^\infty_{i=0} p_i = 1,\;\;\;\;\;\;\;или\;\;\;\;\;\;\; \int\limits^\infty_0 P(x)dx = 1.}

Понятно, что для равновероятных значений $\textstyle x$ (т.е. $\textstyle p_{i}=const$ или $\textstyle P(x)=const$ ) из бесконечного диапазона эти соотношения выполнятся не могут. Другими словами, невозможно ни в теории, ни на практике реализовать равновероятное распределение на бесконечном интервале.

Пусть случайная величина $\textstyle x$ непрерывна. Рассмотрим два варианта:

1) равномерное распределение с границей так, что $\textstyle P(x)=0$ при $\textstyle x>L$ .
2) неравномерное распределение, при котором $\textstyle P(x)$ убывает при $\textstyle x\to \infty$ .

Ниже на левом рисунке представлен первый вариант, а на правом, соответственно, второй:

Понятно, что первый вариант на самом деле эквивалентен второму, но имеет более "изломанное убывание" на бесконечности. Тем не менее, нам будет удобнее их различать.

Задача двух конвертов в более общей постановке предполагает формирование различных стратегий поведения игрока и выбор из них наиболее доходной. Стратегии могут учитывать или не учитывать информацию о сумме $\textstyle x$ в открытом конверте. Например:

$\textstyle v_{1}$ : Всегда забираю открытый конверт.
$\textstyle v_{2}$ : Всегда забираю закрытый конверт.
$\textstyle v_{3}$ : Если $\textstyle x>100$ , беру открытый конверт, иначе — закрытый.

В случае, если конверты были тщательно перемешаны, первые две стратегии должны приводить к одинаковому доходу. Они никак не используют знания об $\textstyle x$ , и в открытый конверт в этом случае можно даже не заглядывать. Собственно, это и утверждалось в первом варианте рассуждения. Вычисления среднего $\textstyle v_{2}=5x/4$ противоречат симметрии задачи, следовательно они ошибочны. Нам предстоит разобраться в чём состоит проблема.

Сначала мы рассмотрим влияние краевого эффекта для равномерного распределения с границей. Мы увидим, что даже при формальном "отодвигании" границы на бесконечность существует более выигрышная "активная" стратегия. Кроме этого будут вычислены доходности различных стратегий в модифицированных правилах игры, при помощи которых делается попытка снизить влияние краевого эффекта. В этом случае конверты перестают быть симметричными. Затем мы найдём оптимальную стратегию для непрерывного убывающего распределения.

Новая формулировка парадокса была предложена уже в процессе обсуждения этой статьи в Интернете. Мы попробуем по-возможности с ней также разобраться. В заключение мы обсудим некоторые общие вопросы, связанные с понятием вероятности и причинами появления подобных парадоксов. Любители математики не склонные к математическим вычислениям $\textstyle {\ddot {\smile }}$ могут сразу перескочить к этому разделу.

Равномерное ограниченное распределение

Пусть в конвертах не могут появляться суммы большие, чем $\textstyle L$ (верхняя граница). Как мы договорились выше, ведущий случайно выбирает из интервала $\textstyle [0,L]$ большую сумму $\textstyle x$ , а меньшую получает делением $\textstyle x$ на 2. Понятно, что меньшая сумма будет также равновероятно распределена, но уже на интервале $\textstyle [0,L/2]$ . После запечатывания конверты случайным образом перемешиваются.

Выше слева нарисовано равномерное ограниченное распределение плотности вероятностей. На правом рисунке изображено дерево вариантов, сопровождающих открытие конверта. С вероятностями 1/2 в открытом конверте может находиться меньшая ( $\textstyle x_{min}$ ) или большая сумма ( $\textstyle x_{max}$ ). Если эта сумма большая, она снова равновероятно может быть меньше или больше $\textstyle L/2$ .

Таким образом, существуют три исхода при открытии конверта со следующими вероятностями:

{\begin{array}{r|c|c|c|}x=&\;\;\;\;\;\;x_{min}\;\;\;\;\;&\;\;x_{max}<{\frac {L}{2}}\;\;&\;\;x_{max}>{\frac {L}{2}}\;\;\\\hline p_{i}=&1/2&1/4&1/4\end{array}}

Рассмотрим сначала пассивные стратегии: "всегда берём открытый конверт" ( $\textstyle v_{1}$ ) и "всегда берём закрытый конверт" ( $\textstyle v_{2}$ ). Если в открытом конверте находится сумма $\textstyle x$ , то понятно, что средняя доходность первой стратегии равна $\textstyle v_{1}=x$ . Конверты были перемешаны, значение $\textstyle x$ никак не учитывается, поэтому вторая стратегия должна иметь такую же доходность $\textstyle v_{2}=x$ .

С другой стороны, с вероятностью 1/2 в закрытом конверте находится $\textstyle 2x$ (большая сумма). С такой же вероятностью там $\textstyle x/2$ (меньшая сумма). Поэтому:

v_{2}={\frac {1}{2}}\,(2x)+{\frac {1}{2}}\,(x/2)={\frac {5}{4}}\,x.

Упс. Фактически мы повторили рассуждение парадокса и, несмотря на все уточнения формулировки задачи, снова пришли к противоречию. Что неверно в наших вычислениях?

Зайдём с другого конца и вычислим абсолютный (безусловный) средний доход, получаемый игроком при выборе денег из открытого конверта. Большая и меньшая сумма в открытом конверте может появиться равновероятно. Меньшая сумма имеет равномерное распределение на интервале $\textstyle [0,L/2]$ . Поэтому её среднее значение равно $\textstyle L/4$ . Большая сумма, равномерно распределённая на интервале $\textstyle [0,L]$ , имеет среднее значение $\textstyle L/2$ . Поэтому среднее значение суммы в открытом конверте равно:

\left\langle x\right\rangle ={\frac {1}{2}}\cdot {\frac {L}{4}}+{\frac {1}{2}}\cdot {\frac {L}{2}}={\frac {3L}{8}}.

Очевидно, что такое же рассуждение и результат справедливы для средней доходности от выбора закрытого конверта. Поэтому средние доходности первой и второй стратегий равны $\textstyle \left\langle v_{1}\right\rangle =\left\langle v_{2}\right\rangle =3L/8$ .

Но что же тогда означают соотношения $\textstyle v_{1}=x$ , $\textstyle v_{2}=5x/4$ , полученные выше, и какая при их выводе была сделана ошибка? Ответ прост. Вероятности появления большей или меньшей суммы в открытом конверте действительно одинаковы. Однако, выражая доход, полученный от выбора закрытого конверта через сумму $\textstyle x$ , которая обнаружилась в открытом, мы вычисляем условное среднее. Т.е. вопрос стоит так: какова в среднем сумма в закрытом конверте, если в открытом мы видим $\textstyle x$ . Знание значения $\textstyle x$ меняет вероятности для сумм $\textstyle x/2$ и $\textstyle 2x$ в закрытом конверте. Например, если $\textstyle x>L/2$ , то в закрытом конверте заведомо находится меньшая сумма (вероятность большей равна нулю). Поэтому в этом случае:

v_{2}=0\cdot (2x)+1\cdot (x/2)={\frac {x}{2}}.

Если же $\textstyle x<L/2$ , то вероятности того, что в открытом конверте лежит меньшая или большая суммы $\textstyle x$ , изменяются. Это уже условные вероятности, рассчитанные после получении информации о том, что $\textstyle x<L/2$ . Они по-прежнему пропорциональны $\textstyle 1/2$ и $\textstyle 1/4$ , т.е. меньшая сумма в открытом конверте в два раза более вероятна. Однако, их необходимо отнормировать, чтобы суммарная вероятность была равна единице. В результате для открытого конверта есть два исхода:

if\;x<{\frac {L}{2}}:\;\;\;\;\;\;\;\;{\begin{array}{r|c|c|c|}x=&\;\;\;\;\;\;x_{min}\;\;\;\;\;&\;\;x_{max}<{\frac {L}{2}}\\\hline p_{i}=&2/3&1/3\end{array}}

Таким образом, до открытия вероятности были 1/2 и 1/2. После открытия и получения информации, что $\textstyle x<L/2$ они стали 2/3 и $\textstyle 1/3$ . Соответственно в закрытом конверте эти вероятности обратные.

Теперь не составляет труда записать условное среднее для стратегии $\textstyle v_{2}$ при условии, что $\textstyle x<L/2$ :

v_{2}={\frac {2}{3}}\cdot (2x)+{\frac {1}{3}}\cdot (x/2)={\frac {3}{2}}\,x.

Окончательно, правильное выражение для $\textstyle v_{2}$ , т.е. для значения условного среднего дохода при выборе закрытого конверта, если в открытом обнаружена сумма $\textstyle x$ , имеет вид:

v_{2}=\left\{{\begin{array}{ll}3x/2,&\;\;if\;x<L/2\\x/2,&\;\;if\;x>L/2.\\\end{array}}\right.

На прямую $\textstyle v_{2}$ нельзя сравнивать c $\textstyle v_{1}=x$ , так как при $\textstyle x<L/2$ имеем $\textstyle v_{2}>v_{1}$ , иначе $\textstyle v_{2}<v_{1}$ . Поэтому, чтобы выяснить, какая из стратегий более доходная, необходимо усреднить эти условные средние.

Для этого потребуется распределение вероятностей для сумм $\textstyle x$ в открытом конверте. Меньшая сумма существует на интервале $\textstyle [0,L/2]$ , поэтому обозначим ступеньку её плотности вероятностей как $\textstyle P_{L/2}(x)$ . Соответственно, для большей суммы это функция-ступенька $\textstyle P_{L}(x)$ . Конверты равновероятно перемешаны, следовательно плотность вероятности для суммы $\textstyle x$ в открытом конверте равна:

P(x)={\frac {1}{2}}P_{L/2}(x)+{\frac {1}{2}}P_{L}(x).

Другими словами, каждую ступеньку необходимо разделить на 2 и результаты сложить. Итоговая плотность вероятности представлена ниже на правом рисунке:

Обратим внимание, что $\textstyle P_{L/2}(x)$ в 2 раза уже и выше чем $\textstyle P_{L}(x)$ , как и должно быть для выполнения условия нормировки (см. левый рисунок).

Абсолютный средний доход от выбора второго конверта равен:

\left\langle v_{2}\right\rangle =\int \limits _{0}^{L}v_{2}(x)\cdot P(x)dx=\int \limits _{0}^{L/2}{\frac {3x}{2}}\cdot {\frac {3}{2L}}\,dx+\int \limits _{L/2}^{L}{\frac {x}{2}}\cdot {\frac {1}{2L}}\,dx={\frac {3}{8}}\,L.

Этот же результат ранее мы получили более простым способом.

Если с плотностью вероятностей $\textstyle P(x)$ усреднить $\textstyle v_{1}=x$ , то получится такое же выражение: $\textstyle \left\langle v_{1}\right\rangle =3L/8$ . Поэтому, при аккуратной записи условных средних, результаты естественно совпадают.

$\textstyle \bullet$ Перейдём теперь к более активной и доходной стратегии. Если игрок в открытом конверте видит $\textstyle x>L/2$ , то он должен брать эту сумму, так как в закрытом конверте лежит заведомо меньше. В этом случае выигрыш $\textstyle v_{3}=x$ . Если $\textstyle x<L/2$ , то более вероятно, что в открытом конверте меньшая сумма, поэтому стоит выбрать закрытый конверт. В этом случае $\textstyle v_{3}=v_{2}$ . Объединяя оба варианта, запишем условное среднее выигрыша от "активной стратегии" следующим образом:

v_{3}=\left\{{\begin{array}{ll}3x/2,&\;\;if\;x<L/2\\x,&\;\;if\;x>L/2.\\\end{array}}\right.

Чтобы найти средний доход, получаемый при использовании активной стратегии, необходимо снова проинтегрировать $\textstyle v_{3}$ c плотностью $\textstyle P(x)$ :

\left\langle v_{3}\right\rangle =\int \limits _{0}^{L}v_{3}(x)\cdot P(x)dx={\frac {15}{32}}\,L\approx 0.469\,L.

"Отодвигание" границы $\textstyle L$ на бесконечность не меняет относительной доходности $\textstyle (\left\langle v_{3}\right\rangle -\left\langle v_{1}\right\rangle )/\left\langle v_{1}\right\rangle =25\%$ активной и пассивной стратегий.

$\textstyle \bullet$ Можно изменить правила игры для ослабления краевого эффекта. Пусть, если в открытом конверте лежит $\textstyle x>L/2$ , раунд игры останавливается. Игрок ничего не выбирает и не получает. Игра происходит, только если $\textstyle x<L/2$ . В этом случае он лишен "активной" стратегии.

Найдём доходы от выбора открытого ( $\textstyle v_{1}$ ) и выбора закрытого ( $\textstyle v_{2}$ ) конверта. В первом случае игрок всегда получает ту сумму которую видит: $\textstyle v_{1}=x$ . При выборе закрытого конверта необходимо воспользоваться условными вероятностями:

v_{2}={\frac {2}{3}}\cdot (2x)+{\frac {1}{3}}\cdot (x/2)={\frac {3}{2}}\,x.

Закрытый конверт на 50\% более доходный. Это и понятно: дополнительное правило изменило симметрию между конвертами.

Абсолютная средняя доходность равна:

\left\langle x\right\rangle ={\frac {2}{3}}\cdot {\frac {L}{4}}+{\frac {1}{3}}\cdot {\frac {L}{4}}={\frac {L}{4}},

где $\textstyle L/4$ — среднее значение меньшей суммы, а $\textstyle L/4$ — среднее значение большей на интервале $\textstyle [0,L/2]$ (при условии, что игра началась, т.е. $\textstyle x<L/2$ ). Фактически сразу можно написать $\textstyle L/4$ , так как это середина интервала для сумм, возможных в первом конверте. Поэтому при взятии закрытого конверта получается доход $\textstyle \left\langle v_{2}\right\rangle =(3/2)\cdot (L/4)=3L/8=0.375L$ . Эта сумма несколько ниже, чем у активной стратегии в игре, которая начинается независимо от суммы в открытом конверте.

Неравномерное распределение

В случае неравномерного распределения очевидно, что конверты неравноправны. Кроме функции $\textstyle P(x)$ необходимо фиксировать также правило формирования конвертов. Пусть ведущий игру, как и раньше, выбирает случайное число с распределением $\textstyle P(x)$ , считая его максимальной суммой. Минимальная получается из $\textstyle x$ делением на 2. Затем конверты перемешиваются.

Если известно распределение $\textstyle P(x)$ для случайной величины $\textstyle x$ , то распределение для величины $\textstyle y=x/2$ имеет вид $\textstyle 2P(2y)$ . Действительно, пусть вычисляется среднее от некоторой функции $\textstyle f(y)$ . Его можно вычислить при помощи вероятности $\textstyle P(x)$ :

\left\langle f(y)\right\rangle =\int \limits _{0}^{\infty }f(x/2)P(x)dx=\int \limits _{0}^{\infty }f(y)2P(2y)dy.

Во втором равенстве сделана замена переменной интегрирования $\textstyle x=2y$ . Так как последний интеграл усредняет $\textstyle f(y)$ по $\textstyle y$ , то множитель при функции и является плотностью распределения для $\textstyle y$ .

Таким образом, в приведенном выше алгоритме формирования случайно перемешанных конвертов, сумма $\textstyle x$ в открытом конверте имеет следующую плотность вероятности:

P_{o}(x)={\frac {1}{2}}\cdot P(x)+{\frac {1}{2}}\cdot 2P(2x).

В частности, среднее значение суммы в открытом конверте равно:

\left\langle x\right\rangle _{open}=\int \limits _{0}^{\infty }xP_{o}(x)dx={\frac {3}{4}}\,\int \limits _{0}^{\infty }x\,P(x)\,dx.

Естественно, что такая же сумма в среднем будет находиться и в закрытом конверте.

Найдём теперь оптимальную стратегию игры. Для определённости будем считать, что итоговая вероятность $\textstyle P_{o}(x)$ , обнаружить сумму $\textstyle x$ в открытом конверте монотонно снижается с ростом $\textstyle x$ . Тогда существует некоторая оптимальная константа $\textstyle x_{0}$ для которой следующая стратегия приносит максимальный доход:

$\textstyle \;v_{3}$ : Если в открытом конверте обнаружена сумма $\textstyle x$ и при этом $\textstyle x>x_{0}$ — забираем открытый конверт, иначе — закрытый.

Наша задача состоит в вычислении оптимального значения $\textstyle x_{0}$ .

Запишем условное среднее. Если $\textstyle x>x_{0}$ , то $\textstyle v_{3}=x$ . Если же $\textstyle x<x_{0}$ , для закрытого конверта необходимо воспользоваться условными вероятностями. Если мы видим в открытом конверте сумму $\textstyle x$ , то вероятность того, что это меньшая сумма пропорциональна $\textstyle 2P(2x)$ . Вероятность большой суммы пропорциональна $\textstyle P(x)$ . Поэтому в этом случае:

v_{3}={\frac {2P(2x)}{2P_{o}(x)}}\cdot 2x+{\frac {P(x)}{2P_{o}(x)}}\cdot (x/2),\;\;\;\;\;\;\;if\;x<x_{0}.

Вероятности разделены на $\textstyle 2P_{o}(x)$ , чтобы сумма условных вероятностей была равна единице. Найдём среднее значение $\textstyle v_{3}$ :

\left\langle v_{3}\right\rangle =\int \limits _{0}^{\infty }v_{3}(x)P_{o}(x)dx=\int \limits _{0}^{x_{0}}x\left[2P(2x)+{\frac {1}{4}}\,P(x)\right]dx+\int \limits _{x_{0}}^{\infty }xP_{o}(x)dx.

После несложных преобразований, получаем:

\left\langle v_{3}\right\rangle =\int \limits _{0}^{x_{0}}x\cdot \left[P(2x)-{\frac {1}{4}}\,P(x)\right]\,dx+{\frac {3}{4}}\,\int \limits _{0}^{\infty }xP(x)dx.

Второй интеграл равен среднему доходу от пассивных стратегий. Первый интеграл — бонус за активность. Найдём его максимум, взяв производную по $\textstyle x_{0}$ и приравняв её нулю. Это даст следующее уравнение для $\textstyle x_{0}$ :

4P(2x_{0})=P(x_{0}).

К примеру, вычислим доходности для распределения в виде убывающей экспоненты:

P(x)=e^{-x}.

Она нормирована на единицу и имеет единичное среднее $\textstyle \left\langle x\right\rangle =1$ . Поэтому средний доход от пассивного выбора открытого или закрытого конвертов составляет $\textstyle \left\langle v_{1}\right\rangle =\left\langle v_{2}\right\rangle =3/4=0.75$ .

Оптимальное значение константы равно $\textstyle x_{0}=\ln 4$ . Соответственно, средний доход от активной стратегии будет равен:

\left\langle v_{3}\right\rangle ={\frac {3+\ln 16}{64}}+{\frac {3}{4}}={\frac {51+\ln 16}{64}}\approx 0.840.

В результате, активная стратегия оказывается на 12\% более доходной, чем пассивные.

В случае немонотонных функций плотности распределения, эффективная стратегия может быть существенно более затейливой, чем простой пороговый выбор одного или другого конверта.

Парадокс возвращается

Существует очень любопытная модификация парадокса для дискретных сумм с убывающими вероятностями. Она была предложена в Интернете участником SeTosha при обсуждении классического парадокса двух конвертов. Мы рассмотрим несколько более общую формулировку этой задачи.

Выберем некоторое число $\textstyle q>1$ , и будем считать, что для игры формируются пары конвертов со следующими суммами и вероятностями:

{\begin{array}{r|ccccccc}envelopes:&(1,q)&(q,q^{2})&(q^{2},q^{3})&...&(q^{n-1},q^{n})&(q^{n},q^{n+1})&...\\\hline p_{i}=&1/2&1/4&1/8&...&1/2^{n}&1/2^{n+1}&...\end{array}}

Таким образом с вероятностью $\textstyle 1/2^{n}$ большая сумма в конверте равна $\textstyle q^{n}$ , а меньшая в $\textstyle q$ раз меньше, где $\textstyle n=1,2,...,\infty$ . Несложно видеть, что сумма всех вероятностей равна единице, и такое распределение вполне реализуемо на практике. Как и раньше, после того как в два конверта кладутся деньги, эти конверты случайным образом тасуются. В этом случае средний выигрыш от взятия суммы $\textstyle x$ из открытого конверта равен среднему выигрышу от выбора закрытого конверта.

Условное среднее при выборе открытого конверта равно $\textstyle v_{1}=x$ . Для закрытого конверта необходимо рассмотреть две ситуации. Если $\textstyle x=1$ , значит гарантированно, в закрытом конверте находится сумма $\textstyle v_{2}=q$ . Во всех остальных случаях, вероятность того, что в открытом конверте находится меньшая сумма в 2 раза выше, чем вероятность того, что это большая сумма. Следовательно условные вероятности равны $\textstyle 2/3$ и $\textstyle 1/3$ . Соответственно, условное среднее для закрытого конверта, если $\textstyle x=q^{n}$ , равно:

{\frac {1}{3}}\,q^{n-1}+{\frac {2}{3}}\,q^{n+1}={\frac {2+q^{2}}{3q}}\,q^{n}.

Поэтому, условные средние от выбора открытого и закрытого конверта можно записать следующим образом:

v_{1}=q^{n},\;\;\;\;\;\;\;\;\;\;\;\;\;\;v_{2}=\left\{{\begin{array}{cl}q,&if\;n=0\\{\frac {2+q^{2}}{3q}}\,q^{n},&if\;n>0\end{array}}\right.

Теперь время парадокса. Пусть $\textstyle q=2$ (как и принимается в классической задаче двух конвертов). Тогда, при $\textstyle n>0$ имеем равенство стратегий $\textstyle v_{1}=v_{2}$ , а при $\textstyle n=0$ закрытый конверт лучше ( $\textstyle v_{2}=2$ против $\textstyle v_{1}=1$ ). Поэтому, при прочих равных, надо предпочесть закрытый конверт. Если же $\textstyle q>2$ , то для любых $\textstyle n$ условное среднее закрытого конверта больше: $\textstyle v_{2}>v_{1}$ . Но конверты-то неразличимы и равноправны!

Ошибки в вычислении условных средних нет. Поэтому, чтобы разобраться в чём дело, вычислим абсолютный средний доход при любом $\textstyle x$ . Вероятности $\textstyle p_{n}$ обнаружить при открытии конверта сумму $\textstyle x=q^{n}$ равны:

p_{0}={\frac {1}{4}},\;\;\;\;\;\;\;\;\;\;\;p_{n}={\frac {3}{2^{n+2}}}.

С $\textstyle p_{0}$ — понятно. Пара конвертов $\textstyle (1,q)$ выбирается с вероятностью $\textstyle 1/2$ . Каждый из конвертов может быть открыт также с вероятностью 1/2. Для всех остальных пар имеем $\textstyle (1/2)(1/2^{n})+(1/2)(1/2^{n+1})=3/2^{n+2}$ . Естественно абсолютные средние доходности оказываются равными:

\left\langle v_{1}\right\rangle \;\;\;=\;\;\;{\frac {1}{4}}\cdot 1+\sum _{n=1}^{\infty }{\frac {3}{2^{n+2}}}\cdot q^{n}\;\;\;=\;\;{\frac {1+q}{2(2-q)}}.

\left\langle v_{2}\right\rangle ={\frac {1}{4}}\cdot q+\sum _{n=1}^{\infty }{\frac {3}{2^{n+2}}}\cdot {\frac {2+q^{2}}{3q}}\,q^{n}={\frac {1+q}{2(2-q)}}.

Несложно видеть, что при $\textstyle q\geqslant 2$ эти выражения остаются равными, но теряют смысл. В этом и кроется корень проблемы. Если $\textstyle 1<q<2$ , то дробь $\textstyle (2+q^{2})/(3q)$ в $\textstyle v_{2}$ меньше единицы, поэтому сравнить условные средние $\textstyle v_{1}$ и $\textstyle v_{2}$ не представляется возможным. Если $\textstyle n=0$ , то больше $\textstyle v_{2}$ , в противном случае — больше $\textstyle v_{1}$ . Единственный способ, на основании этих условных средних принять правильное решение, это их усреднить. В результате оказывается, что выбор конверта роли не играет: $\textstyle \left\langle v_{1}\right\rangle =\left\langle v_{2}\right\rangle =(1+q)/(2(2-q))$ . Точка $\textstyle q=2$ оказывается пороговой, как для возможности однозначного сравнения условных средних, так и для сходимости рядов при усреднении по всем $\textstyle x$ .

И всё же, почему нельзя сравнивать условные средние при $\textstyle q\geqslant 2$ ? Да, их усреднение невозможно (даёт бесконечный результат). Однако если при любом условии $\textstyle x$ для конечных условных средних всегда $\textstyle v_{2}>v_{1}$ , то хочется сделать вывод, что закрытый конверт лучше. Хотя понятно, что это заведомо неверный вывод. В чём дело?

Дело, по всей видимости, в математическом смысле условного среднего. Говоря, что при данном $\textstyle x$ условная средняя доходность равна $\textstyle v_{2}(x)$ , мы подразумеваем, что для неё должно выполняться условие нормировки, как и для распределения вероятностей $\textstyle P(x)$ . При усреднении по всем возможным $\textstyle x$ должно получаться осмысленное (конечное) выражение. Если этого не происходит, то функция $\textstyle v_{2}(x)$ плохо определена. Также как плохо определено ненормируемое распределение $\textstyle P(x)$ . В этом случае выводы на основе сравнения различных условных средних могут оказаться ошибочными. Всё как в школе: на ноль делить нельзя и точка.

Компьютерное моделирование

Решение или проверка решения задач по теории вероятности почти всегда могут быть реализованы при помощи компьютера. Ниже приведен исходный код на C++, который моделирует игру с непрерывным постоянным распределением вероятностей шириной $\textstyle L$ .

#include <stdlib.h>
#include <stdio.h>
#include <math.h> 
#include <time.h> 

// случайное число (0 .. 1]
inline double Rnd(){ return double(rand()+1) / double(RAND_MAX+1); }          

void main()
{
   srand(time(0));                         // встряхиваем генератор
   double c[2];                            // конверты
   double L = 1;                           // граница

   int n=0;                                // число игр
   double v1=0, v2=0, v3=0;                // заработки от стратегий
   for(int iter=0; iter<10000000; iter++){
      c[0]=Rnd()*L;
      c[1]=c[0]/2;

      int i1 = rand()%2;                   // номер открытого конверта
      int i2 = (i1+1)%2;                   // номер закрытого конверта

      //if(c[i1]>L/2) continue;            // прерываем раунд

      v1+=c[i1];                           // доходы от стратегий:
      v2+=c[i2];
      v3+=( (c[i1]>L/2)? c[i1]: c[i2] );
      n++;
   }
   v1/=n; v2/=n; v3/=n;                    // средние значения

   printf("v1=%.4f\tv2=%.4f\tv3=%.4f\n", v1, v2, v3);
}

В основном цикле программы, который совершается 10 миллионов раз происходит формирование сумм в конвертах. Конверты реализованны в виде массива $\textstyle c[0]$ , $\textstyle c[1]$ . В "нулевой" конверт $\textstyle c[0]$ кладётся равномерно распределённое случайное число из диапазона $\textstyle (0,L]$ . Для этого функция Rnd(), возвращающая случайное число в диапазоне $\textstyle (0,1]$ , умножается на $\textstyle L$ . В конверт $\textstyle c[1]$ помещается половина от $\textstyle c[0]$ . Затем, случайно выбирается номер открытого конверта $\textstyle i1$ . Соответственно $\textstyle i2$ — это номер закрытого конверта.

Закомментированная строка соответствует дополнительному условию по началу игры (прерываем раунд, если в открытом конверте сумма больше, чем $\textstyle L/2$ ).

Для контроля статистической оценки достоверности получаемых результатов, в начале программы стоит "встряхиватель" случайных чисел: srand(time(0)). Несколько последовательных запусков позволят увидеть, какая цифра "дёргается". Это и есть примерная ошибка моделирования. Приведём примеры работы программы:

       v1=0.3752       v2=0.3751       v3=0.4689 
       v1=0.3750       v2=0.3751       v3=0.4688 
       v1=0.3750       v2=0.3750       v3=0.4687 
       v1=0.3751       v2=0.3750       v3=0.4688 
       v1=0.3750       v2=0.3750       v3=0.4687

Каждая строка вычислений занимает около четверти секунды на машине средней мощности. Результаты работы с раскомментированным условием прерывания раунда следующие:

       v1=0.2500       v2=0.3749       v3=0.3749 
       v1=0.2501       v2=0.3751       v3=0.3751 
       v1=0.2499       v2=0.3749       v3=0.3749 
       v1=0.2500       v2=0.3750       v3=0.3750 
       v1=0.2500       v2=0.3750       v3=0.3750

Заметим, что для проведения большого количества численных итераций необходимо обязательно использовать тип удвоенной точности double, а не одинарной — float. Ошибки округления достаточно быстро накапливаются, и без удвоенной точности появится систематическая ошибка. Вообще говоря, использование встроенного в С++ генератора случайных чисел для подобных моделирований это не лучший выбор. Он генерит только 32768 различных псевдослучайных чисел, хоти и с достаточно большим периодом повторения. Тем не менее для экспериментов "на скорую руку" он вполне приемлем.

Для получения случайной величины с распределением $\textstyle P(x)=e^{-x}$ , можно воспользоваться формулой $\textstyle x=-\ln r$ , где $\textstyle r$ — равномерно распределённая на интервале (0,1] случайная величина, т.е. Rnd(). Действительно, интегральное распределение для $\textstyle P(x)=e^{-x}$ равно: $\textstyle W(x)=1-e^{-x}$ и изменяется от 0 до 1. Поэтому равновероятно выбрав то или иное значение $\textstyle W=W(x)$ несложно найти $\textstyle x$ .

Аналогично, можно смоделировать дискретные случайные числа, появляющиеся с вероятностями $\textstyle 1/2^{n}$ . Для этого необходимо выяснить в какой из интервалов $\textstyle [1-1/2^{n-1},1-1/2^{n}]$ попала случайная величина $\textstyle r$ . Одним словом, вариантов для численного моделирования задачи двух конвертов существует огромное множество.

Немного философии

Иногда на форумах при обсуждении задачи о двух конвертах, задаётся следующий вопрос:

Хорошо. Выбрав конкретные правила игры (=распределение), можно показать, что противоречия нет. Но как быть, если игрок не знает каким образом формируются конверты и суммы в них. В этом же случае вероятности по-любому 50/50?

Нет, это не верно. Важно понимать, что отсутствие знания не свидетельствует о равновероятности исходов. Наоборот, равновероятность возникает, если мы уверены в симметричности исходов, поэтому:

незнание $\textstyle \neq$ равновозможности

Теория вероятностей может оперировать только вероятностями, которые заданны из соображений симметрии или получены в эмпирическом исследовании. Например, подбрасывая симметричную монету мы присваиваем каждому исходу (орёл или решка) вероятность 1/2 именно потому, что монета симметрична, а не потому, что мы не знаем, что выпадет. Бросая кость, мы тоже не знаем что выпадет, но из соображений симметрии уже считаем вероятности равными 1/6. Если проводится эмпирическое определение вероятностей, исходя из наблюдаемых частот, то мы предполагаем, что эти вероятности не изменяются во времени (чего увы нет, например, на финансовых рынках).

Ни каких других способов задания вероятностей нет. Ещё раз напомним, что математика — это игра с чётко определёнными правилами. Неявный выход за них и приводит парадоксам.

Незнание не обладает симметрией. Чтобы незнание превратить в числа (вероятности) необходимо, как минимум провести некое эмпирическое исследование. Однако и в этом случае математика подстерегает множество неприятностей (нестационарность, возможность чуда и т.п.).

Стоит напомнить старую шутку про блондинку, которая уверена, что завтра она с вероятностью 1/2 встретит динозавра, потому, что она его либо встретит, либо не встретит. Во времена культа политкорректности, эта шутка не актуальна и сейчас уже все блондинки умеют вычислять вероятности и знают, что динозавры давно вымерли $\textstyle {\ddot {\smile }}$ .

Эти же блондинки понимают, что если им неизвестно в какую геологическую эпоху они живут, нельзя априори присвоить событию встречи динозавра ту или иную вероятность. И уж точно это не будет вероятность равная 1/2.

Теперь мы можем вернуться к парадоксу Крайчика с двумя кошельками. Напомним, что вывод о выгодности игры для каждого игрока был сделан на основании вероятностей выигрыша или проигрыша равных 1/2. Действительно, если бы, например, вероятность выиграть некоторую сумму была существенно ниже вероятности лишиться своих денег, вряд-ли участвующие желали бы сыграть в такую игру.

Поэтому это типичная сказка о динозавре. На основании незнания делается вывод о равновероятности, а затем применяется теория вероятности. В результате получается парадокс.

Естественно, если следуя Крайчику мы зададим конкретные вероятности распределения денег в кошельках, посмотрим в свой и увидим сумму $\textstyle x$ , то будем знать, стоит или нет играть в такую игру. Если не заглядывать в кошелёк, то получится игра с нулевым средним доходом. Именно так и сформулирована эта проблема в терминах двух конвертов.

Таким образом, мы проанализировали задачу двух конвертов на примере различных распределений вероятностей для сумм, находящихся в конвертах. Если игра происходит без ограничений (нет селекции открытого конверта), то доходность выбора открытого и закрытого конвертов одинаковы, как и следует из соображений симметрии. Однако существует более доходная ("активная") стратегия, учитывающая значение суммы в открытом конверте. В случае равномерного ограниченного и монотонно убывающего распределений эта стратегия пороговая. В зависимости от того больше $\textstyle x$ некоторой константы или меньше, выбирается открытый или закрытый конверт.

Если для равномерного на интервале $\textstyle [0,L]$ распределения правила игры изменить, чтобы ослабить краевой эффект, то активная стратегия становится недоступной. Однако симметрия между конвертами нарушается. В открытом конверте может лежать только сумма $\textstyle [0,L/2]$ , тогда как в закрытом она находится в диапазоне $\textstyle [0,L]$ . Поэтому и доходность выбора закрытого конверта выше, чем открытого.

Парадокс двух конвертов возникает по двум причинам. Во-первых проводится некорректное вычисление условного среднего дохода при выборе закрытого конверта. Во-вторых это вычисление делается без конкретизации условий задачи, с неверной посылкой о том, что незнание этих условий соответствует равновероятности всех исходов.

Вот собственно и всё.

Степанов Сергей по просьбе Степанова Дениса

(с) 2010, synset.com

Cм. также:

Версия для печати (pdf)
Дискретная задача двух конвертов

Материалы статьи могут быть использованы в некоммерческих и public information целях на условиях лицензии GNU Free Documentation License (версии 1.2 или более поздней). При использовании необходима ссылка на источник: http://synset.com/ru/Парадокс_двух_конвертов

Парадокс двух конвертов

Содержание

Формулировка парадокса

Уточнение задачи

Равномерное ограниченное распределение

Неравномерное распределение

Парадокс возвращается

Компьютерное моделирование

Немного философии

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

почитай

Инструменты