数据挖掘知识

免费体验
当前位置: 首页 > 知识库 > 数据挖掘知识 >

生活中的统计学:“捉放法”推算

分享到:
时间:2013-10-14 22:09来源:谷歌推广seo网络知识 作者:谷歌优化怎么做
受主客观条件的限制,对很多数据的把握不可能做到精算。对此,人们想出了不少办法,“捉放法”就是其中之一。下面我们用估计鱼塘中鱼数的例子来说明这一巧妙方法。

华北某地的一个村庄,很多农户挖塘养鱼,总要先估算一下鱼塘里有多少鱼。假设某农户春季放了大约1万条鲤鱼苗,这些鱼苗不一定都成活。现在我们用“捉放法”来帮该农户估算一下,他的鱼塘中现有多少条鱼?

生活中的统计学
(配图来自百度图片)

做法是:先从鱼塘中捕出200条鱼,做上标记之后,再放回鱼塘,过几天后,再从鱼塘中捕出500条鱼,数一下其中有多少条标有记号。根据第2次捕出的鱼中有记号的鱼占捕出鱼数的比例,就可能估计全塘鱼的总数。

 

也许大家要问:这样做的依据是什么呢?下面我们来给出解答:上面叙述的全过程实际上是四步:捉——做标记——放——捉。我们不妨假定,两次捕捉,塘中鱼的总数不变,做标记的鱼在全部鱼中均匀分布;而且,第2次捕捉必须是随机的,也就是说,鱼塘中的每条鱼(不论是否做了记号)被捕捉到的可能性相同。

 

我们用n表示塘中鱼的总数,它是未知的,需要我们作出估计。用m表示第一次捕出的鱼数,谷歌新闻收录,即做记号的鱼数;用r表示第二次捕出的鱼数;用k表示第二次捕出的鱼中有记号的鱼数。m,r,k是可以观察到的,现在我们想通过观察到的m,r,k去估计未知的n。显然,m/n是做标记的鱼在总鱼数中所占的比例,在我们只知道做标记的鱼数而不知道鱼的总数时,无法得到m/n的值。也就是说,还缺乏信息。于是将做标记的鱼放回鱼塘,待它们与塘中的鱼混合均匀后,又进行了再次捕捉。这次捕捉,可以看作是从全塘鱼中随机抽取的一个样本,样本的大小是r。加上这次捕捉获取的信息,我们就可以作出对塘中鱼数n的估计。所依据的是统计学中用样本估计总体的思想。

 

前面说到,第2次捕捉是随机的,不论是有标记或无标记的鱼,被捕捉到的可能性相同。这样,在前面假设的前提下,应有

k/r=m/n

 

于是我们得到塘中鱼数n的估计为

n=mr/k

 

在估计农户鱼塘中鱼数的例子中,如果第二次捕出的500条鱼中做标记的鱼有12条,则鱼塘中鱼数的估计值是

n=200*500/12≈8333(条)

 

需要指出的是,用捉放法求得的塘中鱼数,是估计值而不是准确值。但方法的核心思想都离不开统计学的基本原理。为加深对捉放法的理解,读者可以设计一个简单的模拟试验:在一个杯子中放一些大小均匀的黄豆,再放入一些同样大小的青豆。这里青豆就相当于做了标记的鱼。两种豆子之和就是塘中鱼的总数。将杯中的所有豆子充分搅匀后,从中随机取出若干粒豆子,由青豆在取出的豆子中所占比例,进而估计杯子中全部的豆子数(鱼数)。

摘自:《漫游数据王国》之《欲擒故纵》
作者:魏振军

(整理:英文推广TuiGuang123.com)
分享到:
------分隔线----------------------------
购买咨询 | 联系我们 | 产品报价 | 付款方式
网站地图 Copyright·深圳市亿推信息技术有限公司 版权所有 粤ICP备13042246号