Если верить учебникам матстата, то доверительный интервал считается по формуле вида
В ней d - это половина доверительного интервала, t - определяется по таблице Лапласа и зависит от необходимой точности вычислений, n - размер выборки, а сигма - среднеквадратическое отклонение выборки.
Нам отсюда известно все, кроме n - собственно длинны необходимой дистанции.
Теперь вставляем известные значения.
Сигма для холдема принимается равной 80бб/100. (Обратите внимание, что мы оперируем выборками по сто рук, поэтому итоговый результат нужно будет умножить еще на сотню.) Если хотите повторить расчеты для Омахи, то там СКО вроде бы 120бб/100, но голову на отсечение не дам.
t берем из таблицы Лапласа, Для 95% вероятности (0.95) мы берем значение функции F(t)=0.95/2=0.475 (Если интересно почему делим на два - идем читать объяснения в учебниках.) Наиболее близкое табличное значение t=0.64, его и будем использовать.
d это погрешность. Если мы хотим вычислить винрейт с точностью 1бб/100, то d=0.5 Если с точностью 2, то d =1 и т.д.
Получаем
Домножаем на 100 и получаем вывод:
Для того, чтобы получить правдивый винрейт рега 6макс NLHE с точностью 95% и ошибкой не более плюс-минус 0.5бб/100 нужна дистанция 1 048 576 рук.
Если сделать допустимую ошибку плюс-минус 1бб, то необходимая дистанция в будет четыре раза меньше, ~250к рук, что вполне возможно наиграть.
Счастливого гринда! :)
PS: Если вы посмотрите на результаты с http://www.evplusplus.com/poker_tools/variance_simulator/, то невооруженным глазом видно, что на этих дистанциях за доверительный интервал выскакивает большее количество значений. Возможных объяснений три:
- ГСЧ подкручен, и псевдослучайные циферки нас подводят.
- Нормальное распределение смоделированно несколько неверно на уровне алгоритма.
- Я облажался и где-то ошибся на порядок. Будет здорово, если кто-нибудь проверит результаты.
В случае моей ошибки необходимая дистанция еще больше.