Парадокс двух конвертов — различия между версиями
WikiSysop (обсуждение | вклад) (Новая страница: «==Формулировка парадокса== Рассмотрим следующую игру: <blockquote> Есть 2 конверта. В один из них…») |
WikiSysop (обсуждение | вклад) (→Формулировка парадокса) |
||
Строка 21: | Строка 21: | ||
Несмотря на то, что парадокс достаточно прост, мне не удалось быстро найти подходящий источник, а так как сын срочно требовал разъяснений, пришлось сесть и написать сей трактат. | Несмотря на то, что парадокс достаточно прост, мне не удалось быстро найти подходящий источник, а так как сын срочно требовал разъяснений, пришлось сесть и написать сей трактат. | ||
+ | |||
+ | ==Уточнение задачи== | ||
+ | |||
+ | Математика работает с непротиворечиво определёнными моделями. Пока исходные формулировки нечётки, любые рассуждения могут привести к любому ответу, в результате чего и возникают парадоксы такого рода. | ||
+ | |||
+ | В задаче с двумя конвертами необходимо сначала определить способ формирования конвертов. Вариантов может быть множество. Для определённости будем считать, что ведущий игру выбирает некоторую сумму <math>\textstyle x_{max}</math>, которую считает большей. Соответственно во второй конверт он кладёт <math>\textstyle x_{min}=x_{max}/2</math>. После этого конверты случайно перемешиваются. | ||
+ | |||
+ | Второе уточнение связано со способом выбора большей суммы <math>\textstyle x=x_{max}</math>. Предполагается, что она выбирается случайно. Это означает, что существует некоторое распределение вероятностей выбора того или иного значения <math>\textstyle x</math>. Возможны два варианта: \item[1)] Суммы, участвующие в игре, являются дискретными. Например, это может быть ограниченная последовательность <math>\textstyle \{1,\,2,\,4,\,8\}</math> с возможными парами конвертов <math>\textstyle (1,2)</math>, <math>\textstyle (2,4)</math> и <math>\textstyle (4,8)</math>. Можно также рассматривать неограниченную (в одну или обе стороны) последовательность. Например: <math>\textstyle \{...,\,2^{-2},\, 2^{-1},\, 1,\, 2,\, 2^2,\,..\}.</math>. В любом случае вероятности будут дискретными числами <math>\textstyle p_i</math>, где <math>\textstyle i</math> — номер значения суммы. \item[2)] Суммы, участвующие в игре — непрерывные вещественные положительные числа. Их вероятность необходимо уже задавать при помощи плотности вероятности <math>\textstyle P(x)</math> (или распределения вероятностей). В этом случае вероятность того, что при некотором малом <math>\textstyle \Delta x</math>, выбранное число попадёт в интервал <math>\textstyle [x, x+\Delta x]</math>, равняется <math>\textstyle P(x)\Delta x</math>. | ||
+ | |||
+ | В обоих вариантах должно выполняться условие нормировки, при котором полная вероятность любого исхода принимается за единичную. Если число возможных значений сумм <math>\textstyle x</math> бесконечно, то условия нормировки имеют вид: | ||
+ | |||
+ | :<center><math>\sum^\infty_{i=0} p_i = 1,\;\;\;\;\;\;\;или\;\;\;\;\;\;\; \int\limits^\infty_0 P(x)dx = 1.</math></center> | ||
+ | |||
+ | Понятно, что для равновероятных значений <math>\textstyle x</math> (т.е. <math>\textstyle p_i=const</math> или <math>\textstyle P(x)=const</math>) эти соотношения выполнятся не могут. Другими словами, невозможно ни в теории, ни на практике реализовать равновероятное распределение на бесконечном интервале. | ||
+ | |||
+ | Пусть, например, случайная величина <math>\textstyle x</math> непрерывна. Тогда возможны только два варианта для плотности вероятности:\\ 1) равномерное распределение с границей так, что <math>\textstyle P(x)=0</math> при <math>\textstyle x>L</math>.\\ 2) неравномерное распределение, при котором <math>\textstyle P(x)</math> убывает при <math>\textstyle x\to\infty</math>.\\ Ниже на левом рисунке представлен первый вариант, а на правом, соответственно, второй: | ||
+ | |||
+ | <center>[[File:envel_Px.png]]</center> | ||
+ | |||
+ | Понятно, что первый вариант на самом деле эквивалентен второму, но имеет более "изломанное убывание" на бесконечности. Тем не менее, нам будет удобнее их различать. | ||
+ | |||
+ | Задача двух конвертов в более общей постановке предполагает формирование различных стратегий поведения игрока и выбор из них наиболее доходной. Стратегии могут учитывать или не учитывать информацию о сумме <math>\textstyle x</math> в открытом конверте. Например: \item[<math>\textstyle v_1</math>:] Всегда забираю открытый конверт. \item[<math>\textstyle v_2</math>:] Всегда забираю закрытый конверт. \item[<math>\textstyle v_3</math>:] Если <math>\textstyle x>100</math>, беру открытый конверт, иначе — закрытый. В случае, если конверты были тщательно перемешаны, первые две стратегии должны приводить к одинаковому доходу. Они никак не используют знания об <math>\textstyle x</math>, и в открытый конверт в этом случае можно даже не заглядывать. Собственно, это и утверждалось в первом варианте рассуждения. Поэтому не верны именно рассуждения при вычислении среднего <math>\textstyle v_2=5x/4</math>. Нам предстоит разобраться в чём состоит проблема. | ||
+ | |||
+ | Ниже мы рассмотрим сначала влияние краевого эффекта для равномерного распределения с границей. Это будет проделано отдельно для непрерывного и дискретного случаев. Мы увидим, что даже при формальном "отодвигании" границы на бесконечность существует выигрышная стратегия, и в ряде случаев симметрия между открытым и закрытым конвертами не восстанавливается. В заключение мы приведём примеры моделирования задачи о двух конвертах на C++. | ||
+ | |||
+ | По-хорошему необходимо также рассмотреть вариант плавного убывания <math>\textstyle P(x)</math> на бесконечности. Однако все ключевые идеи будут выявлены на "ступенчатом" распределении, и обобщение на произвольную функцию <math>\textstyle P(x)</math> не составит труда. | ||
+ | |||
+ | ==Равномерное ограниченное распределение== | ||
+ | |||
+ | Пусть в конвертах не могут появляться суммы большие, чем <math>\textstyle L</math> (верхняя граница). Как мы договорились выше, ведущий случайно выбирает из интервала <math>\textstyle [0,L]</math> большую сумму <math>\textstyle x</math>, а меньшую получает делением <math>\textstyle x</math> на 2. Понятно, что меньшая сумма будет также равновероятно распределена, но уже на интервале <math>\textstyle [0,L/2]</math>. После запечатывания конверты случайным образом перемешиваются. | ||
+ | |||
+ | <center>[[File:envel_24.png]]</center> | ||
+ | |||
+ | Выше на правом рисунке изображено дерево вариантов, сопровождающих открытие конверта. С вероятностями 1/2 в открытом конверте может находиться меньшая и большая сумма. Если эта сумма большая, она снова равновероятно может быть меньше или больше <math>\textstyle L/2</math>. | ||
+ | |||
+ | Таким образом, мы имеем три исхода при открытии первого конверта со следующими вероятностями: | ||
+ | |||
+ | :<center><math>\begin{array}{r|c|c|c|} x=&\;\;\;\;\;\;x_{min}\;\;\;\;\; & \;\;x_{max}<\frac{L}{2}\;\; & \;\;x_{max}>\frac{L}{2}\;\;\\ \hline p_i= &1/2 & 1/4 & 1/4 \end{array}</math></center> | ||
+ | |||
+ | Рассмотрим сначала пассивные стратегии: "всегда берём открытый конверт" (<math>\textstyle v_1</math>) и "всегда берём закрытый конверт" (<math>\textstyle v_2</math>). Если в открытом конверте находится сумма <math>\textstyle x</math>, то понятно, что средняя доходность первой стратегии равна <math>\textstyle v_1=x</math>. Конверты были перемешаны, значение <math>\textstyle x</math> никак не учитывается, поэтому вторая стратегия должна иметь такую же доходность <math>\textstyle v_2=x</math>. | ||
+ | |||
+ | Попробуем, не используя соображений симметрии, вычислить <math>\textstyle v_2</math> при помощи известных вероятностей. Рассмотрим следующее рассуждение: | ||
+ | |||
+ | С вероятностью 1/2 в закрытом конверте находится <math>\textstyle 2x</math> (большая сумма). С такой же вероятностью там <math>\textstyle x/2</math> (меньшая сумма). Поэтому: | ||
+ | |||
+ | :<center><math>v_2=\frac{1}{2}\,(2x)+ \frac{1}{2}\,(x/2) = \frac{5}{4}\,x.</math></center> | ||
+ | |||
+ | Упс. Фактически мы повторили рассуждение парадокса и, несмотря на все уточнения формулировки задачи, снова пришли к противоречию. Что неверно в наших вычислениях? | ||
+ | |||
+ | Зайдём с другого конца и вычислим абсолютный средний доход, получаемый игроком при выборе денег из открытого конверта. Большая и меньшая сумма в открытом конверте может появиться равновероятно. Меньшая сумма имеет равномерное распределение на интервале <math>\textstyle [0,L/2]</math>. Поэтому её среднее значение равно <math>\textstyle L/4</math>. Большая сумма, равномерно распределённая на интервале <math>\textstyle [0,L]</math>, имеет среднее значение <math>\textstyle L/2</math>. Поэтому среднее значение суммы в открытом конверте равно: | ||
+ | |||
+ | :<center><math>\left\langle x\right\rangle = \frac{1}{2}\cdot \frac{L}{4} + \frac{1}{2}\cdot \frac{L}{2} = \frac{3L}{8}.</math></center> | ||
+ | |||
+ | Очевидно, что такое же рассуждение и результат справедливы для средней доходности от выбора закрытого конверта. Поэтому средние абсолютные доходности первой и второй стратегий равны <math>\textstyle \left\langle v_1\right\rangle =\left\langle v_2\right\rangle =3L/8</math>. | ||
+ | |||
+ | Но что же тогда означают соотношения <math>\textstyle v_1=x</math>, <math>\textstyle v_2=5x/4</math>, полученные выше, и какая при их выводе была сделана ошибка? Ответ прост. Вероятности появления большей или меньшей суммы в открытом конверте действительно одинаковы. Однако, выражая доход, полученный от выбора закрытого конверта через сумму <math>\textstyle x</math>, которая обнаружилась в открытом, мы вычисляем ''условное среднее''. Т.е. вопрос стоит так: какова в среднем сумма в закрытом конверте, ''если'' в открытом мы видим <math>\textstyle x</math>. Знание значения <math>\textstyle x</math> меняет вероятности <math>\textstyle p_1</math> и <math>\textstyle p_2</math> для сумм <math>\textstyle x/2</math> и <math>\textstyle 2x</math> в закрытом конверте. Например, если <math>\textstyle x>L/2</math>, то в закрытом конверте заведомо находится меньшая сумма и <math>\textstyle p_1=1</math>, <math>\textstyle p_2=0</math>. Поэтому в этом случае: | ||
+ | |||
+ | :<center><math>v_2 = 0\cdot (2x) + 1\cdot (x/2) = \frac{x}{2}.</math></center> | ||
+ | |||
+ | Если же <math>\textstyle x<L/2</math>, то вероятности того, что в открытом конверте лежит меньшая или большая суммы <math>\textstyle x</math>, изменяются. Это уже ''условные вероятности'', рассчитанные после получении информации о том, что <math>\textstyle x<L/2</math>. Они по-прежнему пропорциональны <math>\textstyle 1/2</math> и <math>\textstyle 1/4</math>, т.е. меньшая сумма в открытом конверте в два раза более вероятна. Однако, их необходимо отнормировать, чтобы суммарная вероятность была равна единице. В результате имеется две возможности в открытом конверте: | ||
+ | |||
+ | :<center><math>if\;x<\frac{L}{2}\;\;\;\;\;\;\;\; \begin{array}{r|c|c|c|} x=&\;\;\;\;\;\;x_{min}\;\;\;\;\; & \;\;x_{max}<\frac{L}{2}\\ \hline p_i=&2/3 & 1/3 \end{array}</math></center> | ||
+ | |||
+ | Таким образом, до открытия вероятности были 1/2 и 1/2. После открытия и получения информации <math>\textstyle x<L/2</math> они стали 2/3 и <math>\textstyle 1/3</math>. Соответственно в закрытом конверте эти вероятности обратные. | ||
+ | |||
+ | Теперь не составляет труда записать условное среднее для стратегии <math>\textstyle v_2</math> при условии, что <math>\textstyle x<L/2</math>: | ||
+ | |||
+ | :<center><math>v_2 = \frac{2}{3}\cdot (2x)+\frac{1}{3}\cdot (x/2) = \frac{3}{2}\,x.</math></center> | ||
+ | |||
+ | Окончательно, правильное выражение для <math>\textstyle v_2</math>, т.е. для значения ''условного среднего дохода'' при выборе закрытого конверта, если в открытом обнаружена сумма <math>\textstyle x</math>, имеет вид: | ||
+ | |||
+ | :<center><math>v_2 = \left\{ \begin{array}{ll} 3x/2, & \;\;if\;x<L/2\\ x/2, & \;\;if\;x>L/2. \\ \end{array} \right.</math></center> | ||
+ | |||
+ | Имея это условное среднее можно ещё раз вычислить абсолютное среднее <math>\textstyle \left\langle v_2\right\rangle </math>. Для этого необходимо найти распределение вероятностей обнаружить в открытом конверте сумму <math>\textstyle x</math>. Так как меньшая сумма существует на интервале <math>\textstyle [0,L/2]</math>, обозначим ступеньку её плотности вероятностей как <math>\textstyle P_{L/2}(x)</math>. Соответственно, для большей суммы это функция-ступенька <math>\textstyle P_L(x)</math>. Конверты перемешаны, поэтому плотность вероятности для суммы <math>\textstyle x</math> в открытом конверте равна: | ||
+ | |||
+ | :<center><math>P(x) = \frac{1}{2}P_{L/2}(x) + \frac{1}{2}P_{L}(x).</math></center> | ||
+ | |||
+ | Другими словами, каждую ступеньку необходимо разделить на 2 и результаты сложить. Итоговая плотность вероятности представлена ниже на правом рисунке: | ||
+ | |||
+ | <center>[[File:envel_sum.png]]</center> | ||
+ | |||
+ | Обратим внимание, что <math>\textstyle P_{L/2}(x)</math> в 2 раза уже и выше чем <math>\textstyle P_{L}(x)</math>, как и должно быть для выполнения условия нормировки (см. левый рисунок). | ||
+ | |||
+ | Чтобы найти абсолютный средний доход от выбора второго конверта, необходимо провести усреднение: | ||
+ | |||
+ | :<center><math>\left\langle v_2\right\rangle = \int\limits^L_0 v_2(x) \cdot P(x) dx = \int\limits^{L/2}_0 \frac{3x}{2}\cdot \frac{3}{2L}\,dx + \int\limits^{L}_{L/2} \frac{x}{2}\cdot \frac{1}{2L}\,dx = \frac{3}{8}\,L.</math></center> | ||
+ | |||
+ | Этот же результат выше мы получили более простым способом. | ||
+ | |||
+ | Если с плотностью вероятностей <math>\textstyle P(x)</math> усреднить <math>\textstyle v_1=x</math>, то получится такое же выражение: <math>\textstyle \left\langle v_1\right\rangle =3L/8</math>. | ||
+ | |||
+ | <math>\textstyle \bullet</math> Перейдём теперь к более активной и доходной стратегии. Если игрок в открытом конверте видит <math>\textstyle x>L/2</math>, то он должен тут же брать эту сумму, так как в закрытом конверте лежит заведомо меньше. В этом случае выигрыш <math>\textstyle v_3=x</math>. Если <math>\textstyle x<L/2</math>, то более вероятно, что в открытом конверте меньшая сумма, поэтому стоит выбрать закрытый конверт. В этом случае <math>\textstyle v_3=v_2</math>. Поэтому, объединяя оба варианта, запишем условное среднее выигрыша от "разумной стратегии" следующим образом: | ||
+ | |||
+ | :<center><math>v_3 = \left\{ \begin{array}{ll} 3x/2, & \;\;if\;x<L/2\\ x, & \;\;if\;x>L/2. \\ \end{array} \right.</math></center> | ||
+ | |||
+ | Чтобы найти средний доход, получаемый при выборе разумной стратегии, необходимо снова проинтегрировать <math>\textstyle v_3</math> c плотностью <math>\textstyle P(x)</math>: | ||
+ | |||
+ | :<center><math>\left\langle v_2\right\rangle = \int\limits^L_0 v_2(x) \cdot P(x) dx = \frac{15}{32}\,L</math></center> | ||
+ | |||
+ | Относительная доходность "разумной стратегии" по сравнению с пассивным выбором любого конверта оказывается равной <math>\textstyle (v_3-v_1)/v_1=25\%</math>. Это значение не зависит от <math>\textstyle L</math>, поэтому "отодвигание границы" на бесконечность ничего не изменит. | ||
+ | |||
+ | <math>\textstyle \bullet</math> Можно изменить правила игры для ослабления краевого эффекта. Пусть, если в открытом конверте лежит <math>\textstyle x>L/2</math>, раунд игры останавливается. Игрок ничего не выбирает и не получает. Игра происходит, только если <math>\textstyle x<L/2</math>. | ||
+ | |||
+ | Найдём доходы от стратегии выбора открытого конверта <math>\textstyle v_1</math> и выбора закрытого конверта <math>\textstyle v_2</math>. При выборе открытого конверта игрок всегда получает ту сумму которую видит: <math>\textstyle v_1=x</math>. При выборе закрытого конверта необходимо воспользоваться условными вероятностями: | ||
+ | |||
+ | :<center><math>v_2 = \frac{2}{3}\cdot (2x)+\frac{1}{3}\cdot(x/2) = \frac{3}{2}\,x.</math></center> | ||
+ | |||
+ | Закрытый конверт на 50\% более доходный (конверты неравноправны!). | ||
+ | |||
+ | Абсолютная средняя доходность равна: | ||
+ | |||
+ | :<center><math>\left\langle x\right\rangle = \frac{2}{3}\cdot \frac{L}{4} + \frac{1}{3}\cdot \frac{L}{4} = \frac{L}{4},</math></center> | ||
+ | |||
+ | где <math>\textstyle L/4</math> — среднее значение меньшей суммы, а <math>\textstyle L/4</math> — среднее значение большей на интервале <math>\textstyle [0,L/2]</math> (при условии, что игра началась, т.е. <math>\textstyle x<L/2</math>). Фактически сразу можно написать <math>\textstyle L/4</math>, так как это середина интервала для сумм, возможных в первом конверте. Поэтому при взятии закрытого конверта получается доход <math>\textstyle \left\langle v_2\right\rangle =(3/2)\cdot(L/4)=3L/8=0.375 L</math>. Эта сумма несколько ниже, чем в игре которая начинается независимо от суммы в открытом конверте. | ||
+ | |||
+ | ==Дискретная задача двух конвертов== | ||
+ | |||
+ | <math>\textstyle \bullet</math> Рассмотрим теперь дискретный вариант задачи двух конвертов. Пусть в конвертах может появится одно из следующих <math>\textstyle n+1</math> чисел: | ||
+ | |||
+ | :<center><math>1,\;2,\;2^2,\;2^3,\;...,\;2^n.</math></center> | ||
+ | |||
+ | Соответственно возможны следующие пары: | ||
+ | |||
+ | :<center><math>(1,2);\;(2,2^2);\;(2^2,2^3);\;....;\;(2^{n-1},2^{n}),</math></center> | ||
+ | |||
+ | Они выбираются равновероятно, затем конверты перемешиваются. | ||
+ | |||
+ | Чтобы по-возможности лишить игрока знания о краевых эффектах, снова ограничим его. Если в открытом конверте обнаруживается 1 или <math>\textstyle 2^n</math> (крайние значения сумм), игрок ничего не выбирает и не получает (раунд игры пропускается). Во всех остальных случаях, как и прежде, он может забрать деньги из открытого конверта или выбрать вместо него закрытый. | ||
+ | |||
+ | Пусть, например, <math>\textstyle n=6</math>, т.е. разрешены суммы от 1 до 64. В открытом конверте (если раунд игры не прекращён) равновероятно могут находится суммы от 2 до 32. Соответственно, во втором конверте, снова равновероятно, будут суммы в два раза больше или меньше. Изобразим это в виде следующего дерева: | ||
+ | |||
+ | <center>[[File:envel_1_64.png]]</center> | ||
+ | |||
+ | Пары крайних значений 1,2 и 32,64 во втором конверте встречаются по разу, а остальные числа — по два раза. Поэтому гистограммы появления сумм в первом и втором конверте (число возможностей) имеют вид: | ||
+ | |||
+ | <center>[[File:envel_n.png]]</center> | ||
+ | |||
+ | Для <math>\textstyle n+1</math> чисел вероятность появления (в игре) в первом конверте сумм от 2 до <math>\textstyle 2^{n-1}</math> одинаковые и равны <math>\textstyle 1/(n-1)</math>. Чтобы найти вероятности во втором конверте необходимо посчитать число квадратиков в гистограмме. В нижнем ряду их <math>\textstyle n+1</math>, а в верхнем <math>\textstyle n+1-4</math>. Поэтому всего их <math>\textstyle 2(n-1)</math>. В результате вероятности сумм в середине диапазона равны <math>\textstyle 1/(n-1)</math>, а по краям — <math>\textstyle (1/2)/(n-1)</math>. | ||
+ | |||
+ | Нарисуем эти два распределения: | ||
+ | |||
+ | <center>[[File:envel_n2.png]]</center> | ||
+ | |||
+ | При большом <math>\textstyle n</math> заштрихованные области одинаковых вероятностей могут быть сколь угодно широкими. Кажется, что "краевыми эффектами" в этом случае можно пренебречь, оба конверта имеют одинаковые распределения и, следовательно, приносят одинаковый доход. | ||
+ | |||
+ | Однако это не так, даже при <math>\textstyle n\to\infty</math>! Действительно, найдём доход при выборе первого (открытого) конверта: | ||
+ | |||
+ | :<center><math>v_1=\frac{2+...+2^{n-1}}{n-1} = \frac{2 (2^{n-1}-1)}{n-1}\to \frac{2^n}{n},</math></center> | ||
+ | |||
+ | где использована известная формула для суммы геометрической прогрессии <math>\textstyle 1+q+q^2+...+q^n=(q^{n+1}-1)/(q-1)</math> и записано выражение, к которому стремиться <math>\textstyle v_1</math> при <math>\textstyle n\to\infty</math>. Аналогично вычисляется средний доход при выборе второго конверта: | ||
+ | |||
+ | :<center><math>v_2 = \frac{2+...+2^{n-2}}{n-1}+\frac{1+2+2^{n-1}+2^{n}}{2(n-1)} = \frac{5}{4}\,v_1.</math></center> | ||
+ | |||
+ | Таким образом, относительная доходность второй стратегии ''при любом'' <math>\textstyle n</math> больше на 25\%, чем для первой стратегии. | ||
+ | |||
+ | Разберёмся с тем, что получилось. Для больших <math>\textstyle n</math> вклад в <math>\textstyle v_1</math> или <math>\textstyle v_2</math> левой границы (суммы 1 и 2) исчезающе мал и роли она не играет. Основной вклад в разницу средних даёт правая граница. И этот вклад остаётся, даже когда она формально отодвигается на бесконечность. Причина связана с быстрым (экспоненциальным) ростом величины суммы <math>\textstyle 2^n</math>, потенциально получаемой во втором конверте. В тоже время эта сумма ни когда не встречается в первом конверте. При больших <math>\textstyle n</math> она равна сумме всех денег до этой границы: | ||
+ | |||
+ | :<center><math>1+2+...+2^{n-1} = 2^{n} - 1.</math></center> | ||
+ | |||
+ | Именно это приводит к тому, что относительная доходность выбора второго конверта оказывается больше, чем первого. Кажущийся парадокс возникает потому, что при <math>\textstyle n\to \infty</math> существует сколь угодно много вариантов появления сумм в обоих конвертах, которые имеют одинаковую вероятность. Это и создаёт иллюзию равноправия конвертов. | ||
+ | |||
+ | ==Компьютерное моделирование== | ||
+ | |||
+ | Решение или проверка решения задач по теории вероятности почти всегда могут быть реализованы при помощи компьютера. Ниже приведен исходный код на C++, который моделирует игру с непрерывным постоянным распределением вероятностей шириной <math>\textstyle L</math>. \cppsrc{envel.cpp} \\ \\ Закомментированная строка соответствует дополнительному условию по началу игры (прерываем раунд). Любое компьютерное моделирование требует проведения статистической оценки достоверности полученных результатов. Можно поступить проще и поставить встряхиватель случайных чисел (строка srand(time(0)); ). Несколько последовательных запусков позволит увидеть, какая цифра "дёргается". Это и есть примерная ошибка моделирования. | ||
+ | |||
+ | :::::: Степанов Сергей begin_of_the_skype_highlighting end_of_the_skype_highlighting по просьбе Степанова Дениса | ||
+ | :::::: (с) 2010, synset.com |
Версия 16:20, 11 сентября 2010
Содержание
[убрать]Формулировка парадокса
Рассмотрим следующую игру:
Есть 2 конверта. В один из них вкладывается сумма , во второй — . Значение неизвестно и каждый раз случайно изменяется. Конверты неразличимы. Игрок открывает один из конвертов и видит лежащую там сумму. У него есть две возможности - забрать её или выбрать второй, нераспечатанный конверт. Какая из этих возможностей в среднем даст большую прибыль?
Так как конверты неразличимы, вероятность того, что в данном конверте лежит сумма или , равна 1/2. Значения сумм, лежащих в каждом конверте, заранее неизвестны. Знание суммы в открытом конверте не добавляет информации о том, какая сумма лежит во втором. Поэтому любой выбор даст одинаковую доходность.
С другой стороны. Пусть игрок видит сумму . Тогда во втором конверте лежит или . Эти две возможности равноправны. Поэтому средний доход от выбора второго конверта равен:
Таким образом, игрок при выборе второго конверта получает больше, чем при выборе первого, который даёт ему только . Независимо от значения суммы , относительная доходность при выборе закрытого конверта больше на .
Два разумных и вполне правдоподобных рассуждения приводят к несовпадающим результатам. Это противоречие и называется "парадоксом двух конвертов". Существуют также версии названия: "парадокс двух шкатулок", "парадокс двух карманов" и т.д.
Парадокс был предложен в 1953 году Кратчиком (Maurice Kraitchik), в терминах двух карманов. Широкую популярность парадокс получил благодаря Гарднеру (Martin Gardner), который описал его в 1982 г. в книге "Aha! Gotcha". В дальнейшем карманы превратились в конверты.
Вокруг парадокса время от времени вспыхивают споры в интернет-сообществе. Иногда появляются "сенсационные" заявления от том, что некто парадокс наконец решил. С другой стороны, часто в общих словах происходит, в принципе, верное объяснение сути, но без конкретных расчётов, создаётся ощущение философского надувательства.
Несмотря на то, что парадокс достаточно прост, мне не удалось быстро найти подходящий источник, а так как сын срочно требовал разъяснений, пришлось сесть и написать сей трактат.
Уточнение задачи
Математика работает с непротиворечиво определёнными моделями. Пока исходные формулировки нечётки, любые рассуждения могут привести к любому ответу, в результате чего и возникают парадоксы такого рода.
В задаче с двумя конвертами необходимо сначала определить способ формирования конвертов. Вариантов может быть множество. Для определённости будем считать, что ведущий игру выбирает некоторую сумму , которую считает большей. Соответственно во второй конверт он кладёт . После этого конверты случайно перемешиваются.
Второе уточнение связано со способом выбора большей суммы . Предполагается, что она выбирается случайно. Это означает, что существует некоторое распределение вероятностей выбора того или иного значения . Возможны два варианта: \item[1)] Суммы, участвующие в игре, являются дискретными. Например, это может быть ограниченная последовательность с возможными парами конвертов , и . Можно также рассматривать неограниченную (в одну или обе стороны) последовательность. Например: . В любом случае вероятности будут дискретными числами , где — номер значения суммы. \item[2)] Суммы, участвующие в игре — непрерывные вещественные положительные числа. Их вероятность необходимо уже задавать при помощи плотности вероятности (или распределения вероятностей). В этом случае вероятность того, что при некотором малом , выбранное число попадёт в интервал , равняется .
В обоих вариантах должно выполняться условие нормировки, при котором полная вероятность любого исхода принимается за единичную. Если число возможных значений сумм бесконечно, то условия нормировки имеют вид:
Невозможно разобрать выражение (синтаксическая ошибка): {\displaystyle \sum^\infty_{i=0} p_i = 1,\;\;\;\;\;\;\;или\;\;\;\;\;\;\; \int\limits^\infty_0 P(x)dx = 1.}
Понятно, что для равновероятных значений (т.е. или ) эти соотношения выполнятся не могут. Другими словами, невозможно ни в теории, ни на практике реализовать равновероятное распределение на бесконечном интервале.
Пусть, например, случайная величина непрерывна. Тогда возможны только два варианта для плотности вероятности:\\ 1) равномерное распределение с границей так, что при .\\ 2) неравномерное распределение, при котором убывает при .\\ Ниже на левом рисунке представлен первый вариант, а на правом, соответственно, второй:

Понятно, что первый вариант на самом деле эквивалентен второму, но имеет более "изломанное убывание" на бесконечности. Тем не менее, нам будет удобнее их различать.
Задача двух конвертов в более общей постановке предполагает формирование различных стратегий поведения игрока и выбор из них наиболее доходной. Стратегии могут учитывать или не учитывать информацию о сумме в открытом конверте. Например: \item[:] Всегда забираю открытый конверт. \item[:] Всегда забираю закрытый конверт. \item[:] Если , беру открытый конверт, иначе — закрытый. В случае, если конверты были тщательно перемешаны, первые две стратегии должны приводить к одинаковому доходу. Они никак не используют знания об , и в открытый конверт в этом случае можно даже не заглядывать. Собственно, это и утверждалось в первом варианте рассуждения. Поэтому не верны именно рассуждения при вычислении среднего . Нам предстоит разобраться в чём состоит проблема.
Ниже мы рассмотрим сначала влияние краевого эффекта для равномерного распределения с границей. Это будет проделано отдельно для непрерывного и дискретного случаев. Мы увидим, что даже при формальном "отодвигании" границы на бесконечность существует выигрышная стратегия, и в ряде случаев симметрия между открытым и закрытым конвертами не восстанавливается. В заключение мы приведём примеры моделирования задачи о двух конвертах на C++.
По-хорошему необходимо также рассмотреть вариант плавного убывания на бесконечности. Однако все ключевые идеи будут выявлены на "ступенчатом" распределении, и обобщение на произвольную функцию не составит труда.
Равномерное ограниченное распределение
Пусть в конвертах не могут появляться суммы большие, чем (верхняя граница). Как мы договорились выше, ведущий случайно выбирает из интервала большую сумму , а меньшую получает делением на 2. Понятно, что меньшая сумма будет также равновероятно распределена, но уже на интервале . После запечатывания конверты случайным образом перемешиваются.

Выше на правом рисунке изображено дерево вариантов, сопровождающих открытие конверта. С вероятностями 1/2 в открытом конверте может находиться меньшая и большая сумма. Если эта сумма большая, она снова равновероятно может быть меньше или больше .
Таким образом, мы имеем три исхода при открытии первого конверта со следующими вероятностями:
Рассмотрим сначала пассивные стратегии: "всегда берём открытый конверт" () и "всегда берём закрытый конверт" (). Если в открытом конверте находится сумма , то понятно, что средняя доходность первой стратегии равна . Конверты были перемешаны, значение никак не учитывается, поэтому вторая стратегия должна иметь такую же доходность .
Попробуем, не используя соображений симметрии, вычислить при помощи известных вероятностей. Рассмотрим следующее рассуждение:
С вероятностью 1/2 в закрытом конверте находится (большая сумма). С такой же вероятностью там (меньшая сумма). Поэтому:
Упс. Фактически мы повторили рассуждение парадокса и, несмотря на все уточнения формулировки задачи, снова пришли к противоречию. Что неверно в наших вычислениях?
Зайдём с другого конца и вычислим абсолютный средний доход, получаемый игроком при выборе денег из открытого конверта. Большая и меньшая сумма в открытом конверте может появиться равновероятно. Меньшая сумма имеет равномерное распределение на интервале . Поэтому её среднее значение равно . Большая сумма, равномерно распределённая на интервале , имеет среднее значение . Поэтому среднее значение суммы в открытом конверте равно:
Очевидно, что такое же рассуждение и результат справедливы для средней доходности от выбора закрытого конверта. Поэтому средние абсолютные доходности первой и второй стратегий равны .
Но что же тогда означают соотношения , , полученные выше, и какая при их выводе была сделана ошибка? Ответ прост. Вероятности появления большей или меньшей суммы в открытом конверте действительно одинаковы. Однако, выражая доход, полученный от выбора закрытого конверта через сумму , которая обнаружилась в открытом, мы вычисляем условное среднее. Т.е. вопрос стоит так: какова в среднем сумма в закрытом конверте, если в открытом мы видим . Знание значения меняет вероятности и для сумм и в закрытом конверте. Например, если , то в закрытом конверте заведомо находится меньшая сумма и , . Поэтому в этом случае:
Если же , то вероятности того, что в открытом конверте лежит меньшая или большая суммы , изменяются. Это уже условные вероятности, рассчитанные после получении информации о том, что . Они по-прежнему пропорциональны и , т.е. меньшая сумма в открытом конверте в два раза более вероятна. Однако, их необходимо отнормировать, чтобы суммарная вероятность была равна единице. В результате имеется две возможности в открытом конверте:
Таким образом, до открытия вероятности были 1/2 и 1/2. После открытия и получения информации они стали 2/3 и . Соответственно в закрытом конверте эти вероятности обратные.
Теперь не составляет труда записать условное среднее для стратегии при условии, что :
Окончательно, правильное выражение для , т.е. для значения условного среднего дохода при выборе закрытого конверта, если в открытом обнаружена сумма , имеет вид:
Имея это условное среднее можно ещё раз вычислить абсолютное среднее . Для этого необходимо найти распределение вероятностей обнаружить в открытом конверте сумму . Так как меньшая сумма существует на интервале , обозначим ступеньку её плотности вероятностей как . Соответственно, для большей суммы это функция-ступенька . Конверты перемешаны, поэтому плотность вероятности для суммы в открытом конверте равна:
Другими словами, каждую ступеньку необходимо разделить на 2 и результаты сложить. Итоговая плотность вероятности представлена ниже на правом рисунке:

Обратим внимание, что в 2 раза уже и выше чем , как и должно быть для выполнения условия нормировки (см. левый рисунок).
Чтобы найти абсолютный средний доход от выбора второго конверта, необходимо провести усреднение:
Этот же результат выше мы получили более простым способом.
Если с плотностью вероятностей усреднить , то получится такое же выражение: .
Перейдём теперь к более активной и доходной стратегии. Если игрок в открытом конверте видит , то он должен тут же брать эту сумму, так как в закрытом конверте лежит заведомо меньше. В этом случае выигрыш . Если , то более вероятно, что в открытом конверте меньшая сумма, поэтому стоит выбрать закрытый конверт. В этом случае . Поэтому, объединяя оба варианта, запишем условное среднее выигрыша от "разумной стратегии" следующим образом:
Чтобы найти средний доход, получаемый при выборе разумной стратегии, необходимо снова проинтегрировать c плотностью :
Относительная доходность "разумной стратегии" по сравнению с пассивным выбором любого конверта оказывается равной . Это значение не зависит от , поэтому "отодвигание границы" на бесконечность ничего не изменит.
Можно изменить правила игры для ослабления краевого эффекта. Пусть, если в открытом конверте лежит , раунд игры останавливается. Игрок ничего не выбирает и не получает. Игра происходит, только если .
Найдём доходы от стратегии выбора открытого конверта и выбора закрытого конверта . При выборе открытого конверта игрок всегда получает ту сумму которую видит: . При выборе закрытого конверта необходимо воспользоваться условными вероятностями:
Закрытый конверт на 50\% более доходный (конверты неравноправны!).
Абсолютная средняя доходность равна:
где — среднее значение меньшей суммы, а — среднее значение большей на интервале (при условии, что игра началась, т.е. ). Фактически сразу можно написать , так как это середина интервала для сумм, возможных в первом конверте. Поэтому при взятии закрытого конверта получается доход . Эта сумма несколько ниже, чем в игре которая начинается независимо от суммы в открытом конверте.
Дискретная задача двух конвертов
Рассмотрим теперь дискретный вариант задачи двух конвертов. Пусть в конвертах может появится одно из следующих чисел:
Соответственно возможны следующие пары:
Они выбираются равновероятно, затем конверты перемешиваются.
Чтобы по-возможности лишить игрока знания о краевых эффектах, снова ограничим его. Если в открытом конверте обнаруживается 1 или (крайние значения сумм), игрок ничего не выбирает и не получает (раунд игры пропускается). Во всех остальных случаях, как и прежде, он может забрать деньги из открытого конверта или выбрать вместо него закрытый.
Пусть, например, , т.е. разрешены суммы от 1 до 64. В открытом конверте (если раунд игры не прекращён) равновероятно могут находится суммы от 2 до 32. Соответственно, во втором конверте, снова равновероятно, будут суммы в два раза больше или меньше. Изобразим это в виде следующего дерева:

Пары крайних значений 1,2 и 32,64 во втором конверте встречаются по разу, а остальные числа — по два раза. Поэтому гистограммы появления сумм в первом и втором конверте (число возможностей) имеют вид:

Для чисел вероятность появления (в игре) в первом конверте сумм от 2 до одинаковые и равны . Чтобы найти вероятности во втором конверте необходимо посчитать число квадратиков в гистограмме. В нижнем ряду их , а в верхнем . Поэтому всего их . В результате вероятности сумм в середине диапазона равны , а по краям — .
Нарисуем эти два распределения:

При большом заштрихованные области одинаковых вероятностей могут быть сколь угодно широкими. Кажется, что "краевыми эффектами" в этом случае можно пренебречь, оба конверта имеют одинаковые распределения и, следовательно, приносят одинаковый доход.
Однако это не так, даже при ! Действительно, найдём доход при выборе первого (открытого) конверта:
где использована известная формула для суммы геометрической прогрессии и записано выражение, к которому стремиться при . Аналогично вычисляется средний доход при выборе второго конверта:
Таким образом, относительная доходность второй стратегии при любом больше на 25\%, чем для первой стратегии.
Разберёмся с тем, что получилось. Для больших вклад в или левой границы (суммы 1 и 2) исчезающе мал и роли она не играет. Основной вклад в разницу средних даёт правая граница. И этот вклад остаётся, даже когда она формально отодвигается на бесконечность. Причина связана с быстрым (экспоненциальным) ростом величины суммы , потенциально получаемой во втором конверте. В тоже время эта сумма ни когда не встречается в первом конверте. При больших она равна сумме всех денег до этой границы:
Именно это приводит к тому, что относительная доходность выбора второго конверта оказывается больше, чем первого. Кажущийся парадокс возникает потому, что при существует сколь угодно много вариантов появления сумм в обоих конвертах, которые имеют одинаковую вероятность. Это и создаёт иллюзию равноправия конвертов.
Компьютерное моделирование
Решение или проверка решения задач по теории вероятности почти всегда могут быть реализованы при помощи компьютера. Ниже приведен исходный код на C++, который моделирует игру с непрерывным постоянным распределением вероятностей шириной . \cppsrc{envel.cpp} \\ \\ Закомментированная строка соответствует дополнительному условию по началу игры (прерываем раунд). Любое компьютерное моделирование требует проведения статистической оценки достоверности полученных результатов. Можно поступить проще и поставить встряхиватель случайных чисел (строка srand(time(0)); ). Несколько последовательных запусков позволит увидеть, какая цифра "дёргается". Это и есть примерная ошибка моделирования.
- Степанов Сергей begin_of_the_skype_highlighting end_of_the_skype_highlighting по просьбе Степанова Дениса
- (с) 2010, synset.com