一个来自《随机漫步的傻瓜》中的概率学问题,如何解释?

-

这个问题摘自《随机漫步的傻瓜》一书,本人并未受过系统的统计学计算,知识水平停留在高中数学阶段,实在是不得其解,望解答。

书中有这样一个例子:一种疾病,全国人口罹患它的概率为千分之一,但是在检验这种疾病时会有百分之五的概率产生误报,现在随机检测一群人之后,发现有个病患的检测结果呈现阳性,那么这位病患染上这种疾病的概率有多少?

书中作者解体思路:假设有一千人被检测,那么预料将有一位罹患这种疾病。剩下999位健康的人当中,根据百分之五的误报率,将有将近50人被检测出阳性,那么答案是,被随机检测的人当中,检测呈现阳性的且确实染病的概率为1/51,将近2%。

我的思路是:首先考虑可能被检测出是阳性的概率:真正的患者(千分之一)被检测出阳性的概率(百分之九十五)的概率是0.095%,健康人(千分之九百九十九)被检测出是阳性(百分之五)的概率为4.995%,那么任何一人被检测出是阳性的概率为5.09%,最后用0.95%/5.09%约等于1.866%,这个和书中作者的数据不同。

请详解作者这样解的原因和本人的错误之处,十分感谢!

数学 概率 概率论 随机过程 《随机漫步的傻瓜》

原书中「5% 的误报」指的是假阳性的误报,原书并没有提到假阴性的误报率是多少。

所以在原书的解答中,默认假阴性的误报率为 0%,即 100% 的真病人都能检测为阳性。

而在题主的解答中,题主默认了:「假阳性率 = 假阴性率 = 5%」的这一事实,即有 5% 的真病人会被检测为阴性,所以与原书计算结果有差异。

按照题主的思路,原书的条件来解答,真病人的阳性概率应为 0.1% ,最后应该是 0.1% / 5.09% = 1.96% ,和原书的 1/51 是相等的。

原书的解释清晰明确。
另:书中的说法和你的描述有差异。

贝叶斯公式,百度搜一下就理解了

True Positive (真正, TP)被模型预测为正的正样本;
False Positive (假正, FP)被模型预测为正的负样本;
False Positive Rate (假正率, FPR)
FPR = FP /(FP + TN)
被预测为正的负样本结果数 /负样本实际数

你在两处使用了近似。一处是近似50人,一处是0.1%当中也有5%误报被你近似掉了,两个5%近似,叠加起来就是你数据上的10%多一点点的误差。

题主为什么要用0.95除以50.9而不是1除?

© COPYRIGHT BY i How And Why.com 2015