你的位置:菲律宾赌场 > 菲律宾网上赌场 >

如何战胜大乐透高级篇

如何战胜大乐透高级篇

Attention:请谨慎购买彩票,切勿沉迷。
(为了验证猜测,本人进行了一些实践,共计购买了1500注彩票,中奖金额1905元,返奖率为63.5%。数据截止至17年11月16日。若干年后会公布购买细节)
大乐透 中级篇
大乐透 初级篇
结论:本文根据大乐透的历史开奖记录证实该彩票的可靠性:针对开奖记录,解释了为何有四次前区开奖号码重复的事件。本文还研究了彩票的分布情况,并证实在期望值的角度,特定的彩票号码组合能够战胜彩票机构。最后对彩票中的各种问题进行说明(使用的开奖数据截止至2017/11/16,前1609期次)


一、引言
在15世纪就已经有人研究赌博中的概率问题,到了17世纪,费马、帕斯卡、伯努利等深入研究赌博游戏,且帕斯卡将概率论进行系统化【1,2】。近年MIT的学生也曾出版图书讲解如何通过赌博赢钱,封面上写着6个MIT学生从拉斯维加斯赌城赚得百万的故事【3】(封面好俗)。看来对赌博进行研究的也并不全是赌徒。
关于大乐透或者国内的其他彩票,诟病很多。部分原因是国内彩票返奖率只有~50%(即使彩票不作假,盈利也是很可观了),所以有人称买彩票是交智商税【4】。此外,有部分彩民对彩票极度痴迷,已经超过了理智。大众对彩票的热衷也导致了各种中奖预测和号码推荐。从数学直觉上看,这些预测不可信,因为概率论中假定了事件之间完全不相关,但事实上是否有联系并不容易证明。不过也有作者研究过,按照预测号码买彩票,,中奖概率不会提高。可见各种号码预测全凭猜测或胡乱建立联系,跟随机选号没什么差别。本文仅对彩票概率进行粗略的论证,说明部分号码组合确实能够提高中奖概率(不做预测)。
二、概率与随机
我们如何去认识概率和随机?我们可以轻易的获取大量数据,但如何看待这些数据?我取出一枚硬币,对它不断进行抛掷,去统计它的正反面。统计了100次,有38次的正面网上博彩,距离50%的可能性为正面的概率有些远;统计1000次,有600次正面,60%,稍微接近50%了。从直觉上认为,只要有毅力去不断抛硬币,正面的概率会无限接近于50%的。但当我们越深入这个问题,就越容易忽略一个表面的事实:我们假定了它是理想硬币,它的正面概率就应该是50%。事实偏离了假设,让我感到焦虑。但其实因为:1,硬币正反面的凹凸不一致,导致质心不在最中心;2,硬币制造过程不能保证硬币的各个位置的密度一样,导致质心不在最中心;3,我抛硬币喜欢从正面在上开始抛……这些问题都足够保证抛硬币过程不是理想的。每个硬币都有它的固有概率,而且这个概率也许只属于此刻的此枚硬币(在我不断抛掷的同时,因为磨损或沾染汗渍造成了硬币改变,固有概率会改变)。所以固有概率≠理想概率。硬币抛掷概率属于二项分布问题,对于理想硬币,1000次抛掷中有600次正面的概率密度只有5*10-9 %。不断尝试下去,它很可能(99.99999995%)不会收敛于理论概率50%(会大于50%)。
除了统计概率的异常,我们还需要考虑数据前后是不是异常(我是指造假)。比如有人声称,做了十万次抛硬币实验,如何去判断他有没有作假?我们假定硬币是随机的,那么随机序列应该表现出一些特征:1、如上所说的正面的概率在50%附近,并收敛于某个值;2、掷1000次硬币,出现连续5次(或以上)正面的次数【5】;3、佛曰不可说。。。第三种特征不好用数学去描述,但如果看到01011001010111010010010,就需要警觉了,因为它是我编的(看起来0,1分布的很均匀,没有连续出现3个1或0)。我随机生成了一个30位0-1数列11011 10011 10111 10100 00001 10101,它看着反而好像很不随机,但这个却是真的随机生成的结果。对于序列的随机性判断比较困难【6】,我们只能模糊看到它的影子。比如大乐透的某个数字连续出现了8期,某两个数字组合连续出现了5期。
三、碰撞问题【7】
如果要求房间中至少有2个人有相同生日的概率大于1/2,那么房间中所需的最少人数是多少?
想象一下,一年有366天(不考虑闰年)。从直觉上想,估计需要有百八十人吧。但是事实呢?23人。计算方法很简单,假定共n个人,每个人的生日都不相同:

至少有2个人有相同生日的概率大于1/2的概率就是1-p,要(1-p) > 1/2。n=22时,(1-p) = 0.475;n=23时,(1-p) = 0.506。
在散列函数中,假定有1 000 000个地址,使得碰撞概率大于1/2的n是1178。也就是使用一百万个位置中的1178个位置时,有超过50%的可能性有位置重复(hash函数的散列冲突)。生日问题和散列冲突问题可以扩展成碰撞问题。
四、前区号码重复问题

四次开奖前区号码重复的事件有四次开奖前区号码重复的事件(碰撞事件)也可用相似的方法计算一下,总的前区号码组合数为C(35, 5) =324 632。可以算出发生碰撞的概率大于1/2的期次是671。而到第1609期次开奖时,发生碰撞的概率已经达到了98.11 %。且可以算出理论上碰撞1次的概率7.52%,碰撞2次的概率14.95%。下图是程序模拟1609期次发生碰撞的次数的概率图,出现3-4次前区号码相同的概率超过35%。前1609期发生4次前区号码碰撞也不必大惊小怪。如果一定要怀疑,可以质疑为什么号码碰撞的期号距离都很近(这个概率应该也不会太小)。

模拟次数:10000;对每次模拟发生的碰撞次数做直方图
五、重复出现的号码
有些号码或者组合连续出现四、五期,让彩民内心惊慌焦虑,到底是出了什么状况,它还会又出现吗?我们不妨计算机模拟一下,经过1000次的模拟1609期次的开奖结果,连续出现n次的某个号码的次数平均值统计如下。其中连续出现5次的概率不小(1609期次有6次某个号码连续出现5期,13次某个号码连续出现4期),但没有发生某号码连续出现6、7期的事件。(计算方法:1、生成随机抽奖数据[5*1609]的二维数组;2根据该数据生成[35*1609]的0-1二维数组(比如某期抽中23号,则该期对应的行的第23列元素为1);3、抽取第一行、第二行进行比较,如果对应位置均不为0,则第二行的该位置数据修改为两者的和,第一行该位置数据置0;4、迭代上述数据,比较二三行,三四行。。。;5、Counter函数统计该数组的各数字的出现次数;6、重复进行1000次取平均。)

六、相似
在数学分析【8】中,数列收敛理论指出,数列收敛则其任何子数列都收敛(随着抽奖次数的增加,概率会逐渐接近该值)。这不禁让我想到,我们认为彩票是真随机事件(彩票没有被人为控制),它肯定会拥有这种性质。按照期数除以3的余数为0,1,2将历史抽奖数据分为3组。这些数据没有太大问题:在第1组抽中次数多的号码在2,3组也容易抽中。当然,其实这个问题很难去判断。

前区
后区七、号码概率
按照第二章的推理,如果进行的次数足够多,掷硬币的正面概率要收敛于50%,如果没收敛就说明了固有概率与理论不符合。对于彩票,则相当于抛一个有35个面的筛子。历史抽奖1609期,数据量太少,没法研究单个号码的出现概率。但产生的数据不论如何分布,都存在一个离散程度的特征(标准差sigma),也就是某些球抽中的次数多,有些少,但多与少的程度是有范围的。但到底离散程度是多少才符合理论呢?程序随机生成1609期的抽奖数据,就能计算它的离散程度。把这个过程不断重复20万次,就产生了离散程度的分布图。实验得到的离散程度的均值为13.9,范围大概在10.60~17.26(95%置信度)。实际情况的离散程度为34.95,差的很离谱。如果我们假设标准差的分布是正态分布,那么离散程度达到34.95的可能性只有1.36*10-34。银河系的尺寸1021,原子的尺寸10-10。如果我们把理论前区标准差的分布图的x轴画成银河系直径那么长,那么实际值的高度仅有原子尺寸的千分之一;或者说,你买了4次单注彩票,全中了一等奖。

号码会表现出离散性归结于两个原因:随机性造成的离散和抽奖造成的固有离散。随机性离散即上述程序模拟的离散程度分布。只需用实际离散程度减去随机性离散就可以得到固有离散程度(此处将问题简化处理,便于计算)。我们假设实际情况不会脱离理论太多,可以选取95%置信区间,也就是随机性离散程度[10.60, 17.26]。假定数字的出现概率=固有概率+随机性概率,且出现次数越多的数字的随机性概率越大。那么可以得到修正的固有概率,如下表。

根据各个号码的抽中概率,可以按照非等概率不放回抽样计算概率。并由14052期(自此期开始实行了新的奖金规则)之后的各等级奖金金额计算期望值:

即使按照最大修正,在期望值上仍能够取得胜利。需注意:此处的所有修正都是在把出现次数多的球往小的方向修正(在理论上来讲,是应该两个方向都修正,也就是说,虽然某些号码抽中概率很高,但其实它的固有概率更高。只是被离散性概率拉低了,所以表现出来的概率没那么高)。实际期望值或许在2.6附近,大于购买彩票的筹码。
八、为何如此?
如大乐透中级篇所述,猜测是抽奖设备造成的29-35号抽中的概率较大。首先,这些号码的固有概率偏大是事实,造成这个结果的原因:1、球本身的问题;2、设备设计问题。如何设计实验证明是否是球本身的问题?不妨想象,如果我们改变球的放置顺序:29-35号球从左侧移到右侧,1-7号球移到左侧,如果抽奖实验结果是1-7号的抽中概率大,那就可以排除球本身的问题了。这个实验不好操作,但我们注意到,大乐透是有3套抽奖球的。如果这3套球的29-35号的固有概率都偏高,也可以证明是抽奖设备的问题。关于采用的哪套球的自11年开始的历史记录(至17134期共1056期次),在http://www.lottery.gov.cn/中可以找到。因为每一套球的使用次数只有不到400,所以随机性离散较大。29-35号的个别球的抽中概率反差较大,也许说明这几个球的差异较大。

九、号码相关性
之前提到过,是否某些号码之间有相关性,比如1号被抽中那么2号被抽中的可能性就会很大?对此进行统计:

横纵轴的数字代表两个号码,中间的数值代表横纵坐标对应的两个号码均被抽中的次数我们知道,29-35被抽中的次数本来就多,所以这个位置的数值较大。我们可以考察: P(AB)/(P(A)*P(B))。通过程序模拟该过程,真实分布在理论范围内,可以认为号码之间无相关性。不再对此问题做过多说明。
总结:本文根据大乐透的历史开奖记录证实该彩票的可靠性;在期望值的角度,特定的彩票号码组合能够战胜彩票机构。但是需要考虑到,如果机构自身购买这些号码,那么派给外部的奖金就会减少,从而彩民购买的期望值会降低。也许这能解释为什么第11110期(中奖号码: 30 31 33 34 35 + 4 7)会中65注一等奖,且每一注都是单独中奖,单注奖金69万。(当然,16150期106注一等奖也很玄幻)。购买需谨慎,请勿要沉迷。


最后的问答环节
1、双色球2004009期补摇奖录像【9】,此问题在《彩民质疑双色球摇奖过程》【10】中有答案。文中解释,每次开奖现场都有两部摄像机,一部负责宏观场面的拍摄,另一部则负责画中画的特写镜头。但第2004009期双色球开奖时,负责拍摄画中画的特写镜头的摄像机出了问题,直到开奖后才发现没有画中画的特写镜头。因此进行了补录,而所谓的补录不是重新摇奖(估计是打开设备,直接把球塞到中奖的管子里的方式,毕竟只需要补拍那个位置)。但确实应该在公示时说明情况,而不是事后解释。自行判断是否可信。
2、频频出现高倍中一等奖,请问为什么没有高倍中二等奖的。这个只能说作者没仔细调查。大家都关注一等奖,更关注高倍一等奖,进而忽视了高倍二等奖的。可以搜一下,比如有20倍二等奖530万的啊,怎么能选择性忽略呢【11】。知乎上也有文章分析为什么会出现高倍一等奖。
3、关于大乐透造假,曾有视频指出,某号码在出奖的瞬间从xx变成了xx(记不清了)。
此问题有慢镜头视频证明,是光的折射导致画面偏差。


引文
1 http://www.udpwork.com/item/8697.html(在这里可以了解一点点概率论)
2 https://zhuanlan.zhihu.com/p/24647096
3 图书:《Bring Down The House》 ,作者Ben Mezrich
4 https://www.zhihu.com/question/38672879
5 https://www.zhihu.com/question/46388875
6 https://www.guokr.com/question/525135/
7 图书:《离散数学及其应用(中文版)》p390-391
8 《数学分析 (中文版)》p81 卓里奇
9 https://www.zhihu.com/question/19728488
10 http://news.sina.com.cn/c/2004-02-13/11261791180s.shtml
11 http://baijiahao.baidu.com/s?id=1578339460482166313&wfr=spider&for=pc