汉庭总部电话:自由度

来源:百度文库 编辑:中财网 时间:2024/05/09 15:44:23
自由度,很多统计量的计算公式中都有自由度的概念,可为什么同样是计算标准差,总体标准差的自由度是n,而样本标准差的自由度就是n-1?为什么其它公式中的自由度还有n-2、n-3呢? 它到底是什么含意?
翻看了以前的教材以及到网上查阅了大量相关资料,原来,不仅仅是统计学里有自由度的概念呀!下面把有关自由度的问题点简要归纳一下。
理论力学:确定物体的位置所需要的独立坐标数称作物体的自由度,当物体受到某些限制时——自由度减少。一个质点在空间自由运动,它的位置由三个独立坐标就可以确定,所以质点的运动有三个自由度。假如将质点限制在一个平面或一个曲面上运动,它有两个自由度。假如将质点限制在一条直线或一条曲线上运动,它只有一个自由度。刚体在空间的运动既有平动也有转动,其自由度有六个,即三个平动自由度x、y、z和三个转动自由度a、b、q。如果刚体运动存在某些限制条件,自由度会相应减少。
热力学中:分子运动自由度就是决定一个分子在空间的位置所需要的独立坐标数目。
统计学中:在统计模型中,自由度指样本中可以自由变动的变量的个数,当有约束条件时,自由度减少自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df = n - k(df自由度,n样本个数,k约束条件个数)
我们当然最关心的还是统计学里面的自由度的概念。这里自由度的概念是怎么来的呢?据说:
一般总体方差(sigma^2),其实它是衡量所有数据对于中心位置(总体平均)平均差异的概念,所以也称为离散程度,通常表示为sum(Xi-Xbar)^1/2/N ,(有多少个数据就除多少)而样本方差(S^2),则是利用样本数据所计算出来估计总体变异用的(样本统计量的基本目的:少量资料估计总体).一般习惯上,总体怎么算,样本就怎么算,可是在统计上估计量(或叫样本统计量)必须符合一个特性--无偏性,也就是估计量的数学期望值要等于被估计的总体参数=> E(S^2)=sigma^2(无偏估计)。很不幸的,样本变异数E(S^2)并不会等于sigma^2所以必须做修正,而修正后即为sum(Xi-Xbar)^2/(N-1).才会继续带出后来的自由度概念。(自由度是由修正样本统计量得来的吗?)
网上一些文献的说法也是林林总总。
金志成实验设计书中的定义:能独立变化的数据数目。只要有n-1个数确定,第n个值就确定了,它不能自由变化。所以自由度就是n-1。自由度表示的是一组数据可以自由表化的数量的多少。
通俗点说,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来了,自由度少一个了。
自由度的设定是出于这样一个理由:在总体平均数未知时,用样本平均数去计算离差(常用小s)会受到一个限制————要计算标准差(小s)就必须先知道样本平均数,而样本平均数和n都知道的情况下,数据的总和就是一个常数了。所以,“最后一个”样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。至于有的自由度是n-2什么的,都是同样道理。
n-1是通常的计算方法,更准确的讲应该是n-k,n表示“处理”的数量,k表示实际需要计算的参数的数量。如需要计算2个参数,则数据里只有n-2个数据可以自由变化。例如,一组数据,平均数一定,则这组数据有n-1个数据可以自由变化;如一组数据平均数一定,标准差也一定,则有n-2个数据可以自由变化。df=n-k的得出是需要大量的数理统计的证明的。太复杂的情况,我们就不讨论了 统计学上的自由度包括两方面的内容:

     首先,当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数称为该统计量的自由度。

例如,在估计总体的平均数时,由于样本中的 n 个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以其自由度为n。

在估计总体的方差时,使用的是离差平方和。只要n-1个数的离差平方和确定了,方差也就确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。

   其次,统计模型的自由度等于可自由取值的自变量的个数。如在回归方程中,如果共有p个参数需要估计,则其中包括了p-1个自变量(与截距对应的自变量是常量1)。因此该回归方程的自由度为p-1。