大家的风研信:【人间的统计学】聊聊各种分布1:让你不白努力的白努力分布及其变身后的二项分布

大家的风研信:【人间的统计学】聊聊各种分布1:让你不白努力的白努力分布及其变身后的二项分布

开篇声明:1:以下内容转自以下内容转自微信公众号大家的风研信:

【人间的统计学】聊聊各种分布1:让你不白努力的白努力分布及其变身后的二项分布,如有侵权,可联系删除

                 2. 以下观点,仅代表作者个人观点,请带着质疑的态度去阅读。如有问题,欢迎评论区留言或直接联系作者

【人间的统计学】聊聊各种分布1:让你不白努力的白努力分布及其变身后的二项分布


第一次看到“白努力”这个名字的时候,突然感觉打通了东西方文化的壁垒。我们老家就流传着“起贱名,好养活”的说法。所以,周围有好多“铁蛋”,“狗剩”,“二丫”之类的小名。以至于我总寻思,如果我爸妈给我起个小名叫“瞎忙活”,会不会就能有更多的学术成就了。唉。尽管如此,我还是浅薄了。后来知道人家“白努力"是姓,而不是名。咱的文化里,就算是改名,也改不了姓啊。或许,等某一天,我人生盖棺定论时,可以在墓碑上写上“蒋·瞎忙活·新宇”。在形式上,与伟大的人物对齐。哈哈哈哈。Bernoulli distribution,官方翻译应该是伯努利分布。但你可以想象东北口音把“伯”重读成“白”的感觉,直到走出东北之前,我都一直白努力白努力的......)

拉回来,说正经的。我们到处都见到的“白努力”,可能不是一个人。白努力是瑞士的一个商人和学者家族。这个家族经常出现在书本上的有三个人,哥哥雅各布白努力,对,这个是我们概率统计里面正牌的白努力,以白努力分布而闻名。弟弟约翰白努力,大数学家,以最速降线闻名。他应该没有他哥哥那么有名。但他有个很厉害的学生,就是大神欧拉(哇,大神欧拉的老师啊)。他还有一个很优秀的儿子,丹尼尔白努力,嗯,就是流体力学的白努力定理的那个白努力。这种“一门三学士,师徒皆大家”的感觉,跟我偶像苏东坡他家一模一样。

好了,我们回到雅各布的白努力分布(Bernoulli distribution)吧。白努力分布是一个离散型概率分布,又叫两点分布或者0-1分布。定义如下:


如果一个随机变量 只能取值0和1,并且概率为 , ,则随机变量 具有参数为 的白努力分布。我们还可以用一种更帅气的方式表达:

这是数学的表达的魅力,一个公式把两种意思表达得清清楚楚:当 时,带进去, ;当 时,带进去, 。这种表达在以后写似然函数的时候,非常有用,使得你不用同时写好几个公式。 白努力分布的期望和方差都挺好算的:


白努力分布很简单,就是0-1分布。我们用柱状图就能很好地表示出来。

大家的风研信:【人间的统计学】聊聊各种分布1:让你不白努力的白努力分布及其变身后的二项分布

这0-1分布啊,就像我们人生中的好多事情,抛开事实不谈,不就是两种结果么?成功或者失败,然后再加上个概率。这种表达一次成功或失败的概率分布,的确不用很深刻地去理解。范仲淹先生不是说么“不以物喜不以己悲”,徐志摩同学也说过“得之我幸不得我命”。一次的成功或失败,加强人生舞台上作为一个演员的自我修炼就好了。毕竟,人生不是一次事件决定的。但,万一一辈子,一直失败,我是说万一哈,那值得思考了。

我们把问题简化和具象一些吧。假设我们人生经历的事情是一个序列 ,这些事情是相互独立的且每个事情都只有两种状态,成功1,失败0.然后所有成功的概率都是 。问,那些0-1随机变量的总和, 的概率分布是怎么样的。于是,我们得出了0-1分布的集合变身---二项分布。(小时候看过那个集合变身的动画片吧?组成脚和腿,组成躯干和手臂,我来组成头部...)


如果随机变量 服从以 为参数的白努力分布, ,那么 服从以 , 为参数的二项分布。由于 在成功时候取1,失败时候取0,那么这个 加和组成的 ,你完全可以当成成功的次数。

记住了二项分布是白努力的组合变身,那么他的期望和方差,也自然而然就记住了。


这种组合,还可以再升级一个版本:如果随机变量 服从参数为 的二项分布,那么 则服从以 为参数的二项分布。这些性质,极大地方便了二项分布的应用。

我们来看看二项分布随参数变化的样子吧。老规矩,两个参数,我们先固定一个,看另一个变化导致的形状变化。先固定p,看n的变化。

大家的风研信:【人间的统计学】聊聊各种分布1:让你不白努力的白努力分布及其变身后的二项分布

 再固定n,看p的变化。

大家的风研信:【人间的统计学】聊聊各种分布1:让你不白努力的白努力分布及其变身后的二项分布


白努力和二项分布最著名的应用,应该就是group testing了。为了纪念5年前的那段经历,我们写一个当时背景下的例子吧:疫情下,为了保护人民生命财产安全,大家都要做核酸。设某大学有1000名学生。一次核酸试剂测试20块钱。已知xx疫情的感染率是0.02%。问,如何做核酸才能保证准确和经济?

当然,土豪如你的校长可以大手一会,说“做,大家都做。1000乘以20也不过20000的事儿。”

嗯,行,这能保证准确。全员来一次,也不过20000块钱的事儿。

但,很快,校长同志就顶不住了。一天20000倒是小事儿,但是架不住天天要做啊?

于是,100天以后,他哭着抱着统计系老师的大腿说“求您想想办法吧!”

统计老师轻轻抚摸着校长的头,说:“哭有锤子用,看老子给你弄得巴适。”(你看,多么浪漫的想象啊...)

于是,统计老师掐指一算:每个人有两种状态,感染1,非感染0,感染概率是0.0002。那么每个人的状态服从白努力分布 。1000个人,如果做1000次试剂测试,那么我们可以知道 ,服从 的二项分布。我们期望感染人数为1000乘以0.0002=0.2人,我们有很大可能一个人都不感染。

哎呀,为了一个0.2的期望,每次花20000块钱做检测,即使政治再正确,经济也受不了啊。OK,我们得想点办法。

统计老师接着说,那,不如我们这样,先讲1000人分成10组,每组100人。然后把100人的核酸棉签采样液都抽出一点混在一起测一次。这样,我们测10次就能测完1000人。这时,如果某组发现感染者,再对这一组全员进行的核酸棉签采样液进行测试。这样,最少我们花200块钱做10次,最多花20200做1010次就能搞定。

我们再认真算一下:设 是第 组的情况,那么 包含有感染者1和无感染者0两种状态。有感染者状态的概率为 。于是 。而10组的状态就服从二项分布 。那么我们要测试的次数就是 (比如Y=2,说明两组有感染者,那么要测试的次数就是200),由于 ,所以分组的期望测次数就是 次。再加上我们必须要测的10次,分组混合条件下,平均只需要测试30次,600块钱就能搞定了。

我们把测量次数的概率分布画一下。你可以看到,最坏的情况,我们需要测1010次,出现的概率9.261e-18,这几乎是不可能事件。即使是测310次,概率也才8.098e-04。大部分情况下,我们只需要10次(p=0.819)或者110次(p=0.165)。

大家的风研信:【人间的统计学】聊聊各种分布1:让你不白努力的白努力分布及其变身后的二项分布

刚才把1000人分成10组,我们只是随意地分了一下。再稍微拓展一点,按照这个计算方法,看看分成更少的组数或者更多的组数会是怎么样呢?

大家的风研信:【人间的统计学】聊聊各种分布1:让你不白努力的白努力分布及其变身后的二项分布


将混合组数与期望测试次数做一个散点图,就能清晰地了解,1000个人我们分多少组进行测试最具有经济性了。从图中我们可以看到,分10-20组进行混合测试,是比较好的。大概30次左右测试就能搞定1000人了。

大家的风研信:【人间的统计学】聊聊各种分布1:让你不白努力的白努力分布及其变身后的二项分布

 好啦,故事就到这里了。统计老师帮校长解决了问题。校长感激不尽。从此,统计老师升职、加薪、迎娶白富美、走上人生巅峰...哈哈哈哈...(这只是一个故事哈,生活中,我们可以解决问题,但不能看到领导的脆弱)。但不管怎么样,我们看到了,白努力分布,让我们没有白努力。lol


说起了疫情,我们都是幸运的。我想到了一些人。我把当时写的文字留在这里吧。为了纪念,为了忘却的纪念。


时代的---纪念李医生和他们

题记:人只因为疼痛而流泪,不会因为白细胞的死而哭。

当你不属于你,

便可勇往直前,无所畏惧。

当你真属于你,

也会义无反顾,前赴后继。

可是人啊,总是在是你非你之间犹豫,

于是大了声音,小了记忆。

当我不属于我,

便可淡看风云,尽得其所。

当我真属于我,

也会目营心匠,洞若观火。

可是人啊,总是在是我非我之间蹉跎,

于是难得糊涂,模棱两可。

这地球在转啊转,转啊转,重复着,重复着。

这世界在变啊变,变啊变,在试错,在试错。

像湖面一粒石子的波,

像托体同山阿的挽歌,

蝴蝶不一定是效应,也可能是庄生晓梦的传说。

明天太阳会照着英雄的纪念碑,

十年后谁的回忆里残留着余悲?

都是统计的样本,都是历史的烟灰。

都在时代中消逝,都在红尘里纷飞。

可是,
微斯人,吾谁与归!


半夜写项目本子,写不下去时,突然想起了李医生。他和我同年,都是东北人,都在武汉。他已经去了,虽然可能什么都没改变。我在写本子,可能也不会改变什么。但我们都想让这个时代更美好一些。真实和美好,是历史的尘埃都想努力的原因吧。2020.04

完结


原文链接:https://mp.weixin.qq.com/s/gQ5WOexuB0swLPen8yKstQ

0条评论

评论文章

您的电子邮件等信息不会被公开,以下所有项均必填