深圳市百通达科技:白话统计(2):中心极限定理 — Windows Live

来源:百度文库 编辑:中财网 时间:2024/05/09 19:49:40

白话统计(2):中心极限定理

http://johnthu.spaces.live.com/blog/cns!2053CD511E6D5B1E!377.entry

资料来自美国G.H.维恩堡等著的《数理统计初级教程》(常学将等译,太原:山西人民出版社,1986)

《白话统计(1):平均数、中位数、众数》

*************************************************************************

定理1:(中心极限定理)假定大量的等容量随机样本都是从同一无限总体采样的,算出每个样本的和,并把不同样本的和放在一起以形成一个新的分布,于是这个新的分布就是渐近正态的(其中要假定产生这些和的随机样本每个容量是足够大)。

在传统概率论教科书上,一般会这么陈述这个定理:

定理1`:(独立同分布的中心极限定理)设随机变量X1,…Xn,…相互独立,服从同一分布,且具有相同的数学期望和方差,则随机变量之和ΣXi的标准化变量服从标准正态分布。

演示性例子

想像一个很大的箱子,装满了小纸条,可供我们无穷无尽地抽取,每张纸条上写有一个数字。为简单起见,假定只有0、1、2三个数字,且每个数字出现在每张纸条上的可能性都是1/3。记住,这个箱子里的纸条如此之多,以致我们可以抽取任一数目的任一种纸条,而不必担心会改变箱中剩下的各种纸条之间的比例。

箱子有一个小口,通过它,每次可以释放出一张纸条。箱子还有一个洗牌装置,这种装置会把纸条洗得这样得均匀,以至当我们决定抽取一张时,每张纸条有同样的被释放出来的机会。因此,我们的观察室独立的,而且我们的样本是随机的。

现在我们就来抽取等容量的随机样本,假设每个样本都包含200张纸条。

我们一张一张地抽取200张纸条。比如头一张纸条上的数字是2,第二张纸条的数字是0,第三张纸条是2,如此等等。假设构成这个第一份样本的200张纸条上的数字总和是210,这个和成为所产生的新的分布的第一项。

第二个样本的200张纸条上的数字之和比如是194.对大量的样本,每个样本都包含200张纸条,重复这个过程。定理1告诉我们,这种样本和数越来越多时,样本和的分布近似于正态分布。

如何实际运用定理1

关于定理1,对被抽取样本的那个总体没有要求任何限制。不管被抽取样本的那个总体,其分布的形状如何,样本和的分布都是正态的。

定理1说明,为什么正态分布出现在如此多的不同的问题之中。我们用于纸条取样的那种方法,看来是实际中特别喜欢使用的一种方法。在每次情况中出现的、构成一个正态分布的那些数,都可以看作独立观察资料的等容量样本的和

例子1。考察射击时围绕靶子构成正态分布的子弹。每一颗子弹击中的位置实际上是许多随机影响的和,比如姿势、风向、光线、心理等等。这些因素和诸如此类因素的影响,同时在一位特定射手的身上起作用;且对于不同的射手,它们是不同的。一个射手的得分,表明他的子弹最终射到何处去了,这个得分是那些随机影响的样本之和。具体地,比如每一个射手的分布式70项主要影响之和,因而每一发子弹的得分,都可以看作是70项的一个样本和(与70张纸条上的那些数字的和相对应)。这样一来,不同射手的得分,就可以看作是不同的等容量样本的和。根据定理1,子弹得分的分布式正态的。

例子2。考察每个人的智力水平,也可以当作出自不同根源的小影响的和来看待,包括营养、机会、性格、遗传等等等等。这么看来,大量的人的智力水平的分布式正态的。

定理2:(定义1的一个变形,平均数的中心极限定理)假定,大量的等容量随机样本是从同一无限总体中采集的,算出每一个样本的平均数,并把不同样本的平均数放到一起形成一个新的分布,于是这个新的分布就是渐近分布的(假定产生这些平均数的随机样本容量是足够大的)。

样本平均数的集合可以通过样本和集合直接得到,因此平均数的分布就是和的分布的一个小比例的变形。样本平均数的分布用两个有用的性质:

  1. 假定无穷多个等容量随机样本是从同一无限总体中抽取的,而且把这些样本的平均数放到一起,以构成一个新的分布,那么这个新分布(样本平均数构成的)的均值与原总体的均值相同。
  2. 假定无穷多个等容量随机样本是从同一无限总体中抽取的,以n表示每一个样本的容量,这些样本的平均数的分布有一个标准差,它等于原总体的标准差除以n的平方根。

定理2及其两个性质就是我们熟悉的mean(X)~N(μ,σ**2/n)。