数据挖掘知识

免费体验
当前位置: 首页 > 知识库 > 数据挖掘知识 >

数据中的悖论

分享到:
时间:2013-10-14 22:09来源:谷歌推广seo网络知识 作者:谷歌优化怎么做
人们在对数据进行统计分析时发现一种“反常”现象:在分组比较中都占优势的一方,有时在总评中反而是劣势的一方。是辛普森首先对此进行描述,故称“辛普森悖论”。本篇通过事例介绍这一统计上著名的悖论,并探讨了导致辛普森悖论出现的原因。

说到数据王国里有悖论,很多人会感到诧异。王国历史悠久,居主导地位的统计学建立在严格的数学基础上,完整的理论体系和巧妙的应用,让涉足王国的人们无不折服,悖论何来之有?但事实的确如此,请看下面的事例:

某市利用周六组织了一次人才招聘会。下周一刚刚上班,市人事局信访科来了几位不速之客,她们都是刚刚毕业的女大学生。

来访者说:“前天招聘会明显歧视女性,facebook推广,不仅有个别单位公然不要一名女生,即使是适合女性工作的医药卫生单位,表面上一视同仁,实际上也存在性别歧视。”

信访科长:“噢,别着急,坐下来慢慢讲,把具体情况告诉我,我们好做调查。”

来访者说:“就以招收女生最多的这两个单位来说,今年男生录用率(注:录用率=录用人数/应聘人数)36%,比女生录用率19%高出了17%。"

科长顺手从桌上拿过招聘会资料,然后说:

“总体情况看,你们反映的性别歧视问题确实存在,已经引起各方面重视,国家在考虑立法,市里也想了不少办法,但你们反映的这两个单位,在录用人员过程中似乎并不存在性别歧视问题。你们看:前天甲单位录用率是:女性10%,男性只有5%。乙单位录用率是女性50%,男性为48%,两个单位的录用率都是女性比较高嘛。”

来访者对科长的诚恳态度很满意,便微笑着拿出她们整理的资料。对科长说:“您看,这是我们的调查结果。”

信访科长看着来访者带来的统计调查表,满脸疑惑。

对甲单位和乙单位分别统计,女性录用率都高于男性录用率,但两单位的总录用率男性却高于女性!这里的统计数字没有重叠,且计算无误。

信访科长:“到底是怎么回事呢?把我搞糊涂了!”

 

实际上,信访科长遇到的这类问题,属于统计上著名的辛普森悖论(Simpson's Paradox)。

在研究诸如上述录用率与性别是否相关这类问题时,人们通常会进行分组比较。“辛普森悖论”是在这类研究中遇到的一种特殊现象:在分组比较中都占优势的一方,有时在总评中反而是劣势的一方。这种现象早在20世纪初就有人讨论过,但一直到1951年E· H· 辛普森在他发表的论文中,该现象才被正确描述,故称为“辛普森悖论”。

 

以上面录用率与性别为例,我们来分析一下,是什么原因导致辛普森悖论的出现?

在最后总计两单位男、女性录用率时,实际上是对各单位男、女性录用率按应聘率进行加权平均,即

总计男性录用率=甲单位男性录用率×甲单位男性应聘率+乙单位男性录用率×乙单位男性应聘率

这里的权数是应聘率。

其中,某单位男性应聘率=某单位男性应聘人数/两单位男性总应聘人数

类似给出总计女性录用率:

总计女性录用率=甲单位女性录用率×甲单位女性应聘率+乙单位女性录用率×乙单位女性应聘率

按表中所给数据,具体算式是:

总计男性录用率:5%*40/140+48%*100/140=50/140=36%

总计女性录用率:10%*100/130+50%*30/130=25/130=19%

不难发现,虽然在每个单位,女性录用率都高于男性,但录用率低的甲单位,女性应聘率高(100/130),录用率高的乙单位,女性应聘率低(30/130),而男性的情况正相反,造成加权后的总录用率,女性反而比男性低。

 

可见,悖论的产生是由于“权重”的不同倾斜。在计算男性总录用率时,录用率高的乙单位的权重大,录用率低的甲单位的权重小;而在计算女性总录用率时,录用率高的乙单位的权重小,录用率低的甲单位的权重大。

至于是什么原因引起权重的这种倾斜,则需要具体问题具体分析。

例如,会不会是乙单位的工作,更适合男性?或者,乙单位计划录用的女性人数本身就比较少?也就是说,工作性质或该单位计划录用人数这样的潜在变量造成了两个单位应聘男、女性人数的显著差异。当出现辛普森悖论时,研究者应该去寻找从简单对比中所发现矛盾的背后原因。

 

辛普森悖论所暴露出来的统计分组中这种令人费解的现象,在民主选举、药品检验、体育比赛等场合也曾有发生,例如,在一次选举中,有两个候选人甲和乙。在两个地区的投票结果都是甲的得票率高,但汇总后的结果却是乙的得票率高;又如,两个棒球手甲和乙一年的击球统计数据显示,无论是左手还是右手的击球成功率,甲都胜过乙,但奇怪的是,甲的总击球成功率却比乙低。

人们对数据进行统计分析时,还产生过其它一些与人的直觉和日常经验相矛盾的结论。对此,美国作家马丁· 加德纳(Martin Gardner)在20世纪就编写过系列故事,并制作成幻灯片,国内也翻译出版过他的有关专著。

“悖论”本来是逻辑学范畴的概念,在统计学中有人把“悖论”还称为“逆论”,甚至有人视之为“魔术”。大量的事实表明,“数据王国”里既有“陷阱”又有“悖论”。它提醒我们分析看待数据要格外小心,注意从多因素着眼,多层次、多角度地研究问题,谨防简单化、表面化。
 

来源:《漫游数据王国》

作者:魏振军

(整理:英文推广TuiGuang123.com)
分享到:
------分隔线----------------------------
购买咨询 | 联系我们 | 产品报价 | 付款方式
网站地图 Copyright·深圳市亿推信息技术有限公司 版权所有 粤ICP备13042246号