飘素迎歌是什么意思:统计学:二十一世纪的挑战和机遇

来源:百度文库 编辑:中财网 时间:2024/04/30 20:51:08

统计学:二十一世纪的挑战和机遇

Bruce Lindsay

Jon Kettenring

David Siegmund

20036月编

缪柏其译

中国科学技术大学统计与金融系

2003.12

报告是由美国国家科学基金会(NSF)资助召开的一个研讨会的一份工作报告,时间为2002年的56日至8日。大约由50 位来自世界各地的统计学家参加。研讨会的目的是确认统计学今后的挑战和机遇。它主要集中于科学研究,但也涉及重要的相关领域,如统计教育,基础结构,国际前景和长期目标。该科学委员会负责起草出这份报告,在明年的这一过程中,还将收到来自该委员会其他成员和专业统计组织负责人的意见。这个报告试图反映出这些意见的一个综合观念。

统计本身是一门科学——从数据中学习的科学,它扎根于继续增长的知识核心。这表明它的根是概率论和数学,同时也受到更现代的计算机科学的影响。统计学来自于这些根,又反馈给它们新的数学和计算问题。统计也是一个不多见的学科交叉领域。的确,应用是它的原动力。在为认可的技术提供有价值的市场时它们激发了关于新理论和新方法的研究。

对统计来说目前最迫切的是要适应于这种数据集的需求,它们是如此之大和如此复杂,以至于需要新的概念。统计学家不但要使用数据,而且要设计试验和阐述试验结果。这些问题经常是广泛的学科间合作的源泉——从天文到公共政策到动物学——这些都是今天的统计学家从事的领域。

1统计是什么?

假如面对广大的听众演讲,委员会感到有必要来阐述科学中的统计角色。许多科学家(如果不是全部)仅仅看到了我们领域的一点皮毛。为此在研讨会上的第一个演讲者,牛津大学著名的D. R. Cox 教授,被要求从最基本的讲起,以及确认“统计是什么?”该问题在研讨过程中被反复提及。我们在这儿综述一些主要观点。

统计学科本质上可以用它的多学科性来识别。该领域的长远(over-arching )目标是从所有类型的数据中提取科学的和有意义的信息。统计学家用不同的方法在大量的科学过程中达到这一目标。在好的实验原理培养下,他们可以成为从初级实验设计一直到最终数据分析和得出结论这一科学过程的合作者。

统计工作的科学领域几乎与科学尝试一样广泛,在研讨会中,我们集中讨论六个主要领域:统计核心加上六个应用的主要领域:

● 生物科学

● 工程和工业统计

● 地理和环境科学

● 信息技术

● 物理科学

● 社会和经济科学

被选择的这些领域大体上对应于(美国)国家科学基金资助的不同的方向。

在本报告的第五章,这些领域的每个部分,除了一个外都将给出一个有深度的回顾,但社会和经济科学必须被不幸地排除。编委们面临的困难是这个领域不但很难与别的领域分开,而且相当复杂。在该领域的研究工作者大多不在统计系工作,但对诸如经济学,心理学和社会学感兴趣。这包含了若干个领域,这些领域有它们自己成熟的和特有的统计文献,如心理计量学和经济计量学等。关于对这种成熟的和有大量文献领域的回顾已超出我们的时间框架和资源。

在合作领域外,统计学者的核心活动是用于信息抽取的数学和概念工具的构造。虽然大部分这类研究的数学基础是概率论,但最终目的是要提供在经验工作中有用的结果。这区分了统计学家理论研究结果和大多数数学领域的结果——在其中抽象结果纯粹追求它们内在的意义。正如NSF报告9895 “关于美国数学的国际评估的高级评估小组报告”(report of the Senior Assessment Panel for the Inttrnationd Assessment of the U.S.A Machematical Science)(以后称为”Odom Report”) 所述,:

统计总是与应用连在一起的,结论的重要性,既使是理论统计,也是强烈依赖于与结论有关的应用类型。在这方面它非常不同于计算数学以外的其它所有数学分支。(我们所强调的)

统计领域的显著特点,以及它发展的方法论,集中在从数据得出科学结论的小心谨慎原则的设计上。该原则性方法使统计有别于数据处理,组织和分析的场合。一个主要的要求是规定我们必须要对由数据作出的科学陈述的不确定性提供一种度量。设计的这类统计工具如置信系数,显著性水平以及信任区域等,提供了关于有效性的容易解释的度量。适当使用这些工具有助于控制来自于数据的虚假结论。

 首先是本杰明 狄斯瑞利(Benjamin Disraeli),后来由马克 吐温引用,说道:“有三类谎言:谎言,可恶的谎言,以及统计。”事实上,统计学家被训练成能区分科学真理和科学虚构。为了指出这一点,在本报告的后面,我们将讨论有效性的一种新的度量,假发现率(false discovery rate),它是由于在现代科学研究中的海量数据和假设范围很大而发展起来的。

当然,统计学拥有统计工具一点也不比数学家拥有数学工具多。确实,大多数的统计应用和统计研究是由其它学科领域的科学家得到的。统计研究的基本作用是发展新工具用于尖端科学。本报告的后一节我们将描述近年来产生的非常激动人心的统计研究的可能性。特别,数据收集和储存的可能性已打开了对数据分析问题的全新方法的需求。

统计学会

根据统计工作的性质,统计学者在很广的范围内工作。在美国,有许多统计学家在统计系工作。这种系可以在大多数研究型大学中找到。目前在统计,生物统计和生物计量领域有86个博士点。它们往往集中在研究生的研究中,包括与其它学科合作,教学,以及为本科服务的课程。本报告后面要演讲的一个主要问题是,在为主修统计的本科生拓宽进入统计领域渠道的主要努力中他们潜在的未来角色。

这些系大部分是在二十世纪后半叶从数学系分出来的。因此统计常常被认为是数学的一个分支。这种结构观点也很明显反映在NSF本身。在其中,概率和统计作为数学下的一个分支,与纯数学分支,如拓扑和代数等同放在一起。但是“未来”研讨会与会代表的一个主要结论是统计与其它数学分支越来越不同。统计学家的科学目标和现代科学的方向指向这样一个方向:计算机和信息科学工具对统计而言至少与概率论同等重要。

大量的科学统计学会的分支不在统计系。这可能就出现在有统计系的大学里,我们可以在商学院,社会科学和不同门类的理科系中发现它们。在没有统计学的学院,例如在四年制的学院,统计学家经常在数学系,因为数学系需要他们为本科生上课。最后,还有许多统计学家在生物统计系工作。

还有大量的统计学家在科学学会外,但与学会有良好联系,他们受雇于政府、企业和许多统计使用者。NSF报告,即Odom报告,叙述了关于统计的领域:

在科学学会与工业和政府中的使用者之间的交流发展得很快,因此理论思想与来于应用的挑战性的问题,以及各学科传统之间的散布都非常快。,

统计学家也工作于各政府部门,从人口普查局到国家标准化和技术研究所,到国家卫生研究所。他们也受雇于许多工业企业,经常是从事质量控制工作。特别,医药工业已成了统计学家最大的雇主。他们完成药品以及所需的试验设计和分析。

著作《二十一世纪的统计》(Raftery等著)包含了当今许多领头学者们撰写的70 篇论文。可以把它介绍给统计学家作为有用的信息要目,它在很广的统计主题范围内涵盖了统计当前的地位和将来的研究方向。

2. 历史回顾

统计方法在科学上的应用已经有很长的历史了,尽管将之认知为一门独立的学科要追溯到20世纪。西格尔(Stigler(1986)将现代统计学确认为一门统一的学科,“既是逻辑又是方法”。于是在这种基础上产生了各种统计思想。其中之一就是源于天文和地理测量中的联合测量难题上的数据分析。最早的贡献就是1800年左右拉格朗日(Legendre)的最小二乘法。

第二个分支是起源于概率论早期发展的不确定理论的基础。这里,数学家贝努里(Bernoulli),德谟弗(DeMoivre),贝叶斯(Bayes),拉普拉斯(Lapalace),高斯(Gauss) 奠定了概率模型结构的基础,同时也提供了从概率模型得出关于数据结论的基础。 

十九世纪后期在英国统计思想才有了本质性的加速,现在那些产生概念的度量正是起源于遗传和生物计量学所用的度量。相关系数和回归这些主要的统计思想正是在这个时候发展起来的。不久K·皮尔逊(K· Pearson)发展了检验(1900)。这是一个相当重要的概念性的突破。直到今天它还被用作统计模型中科学假设的严格检验。伦敦大学的应用统计系在1911年由K· 皮尔逊建立,它是世界上第一个大学里的统计系。它的前身是优生学实验室和生物计量实验室.

几年之内, R· 费歇(R· Fisher),也是英国人,创建了很多现代统计学的基础。费歇也是现代人类遗传学的创立者,他具有极高的天赋。他创建了复杂实验的分析方法,即现在每天被科学家们使用成千上万次的“方差分析”。他证明了一个称之为似然的函数可以用来研究几乎任一概率模型中的最优估计和检验程序。受农业田间实验的启发,他建立并发展了实验设计的主要思想。

费歇有相当强烈的统计直觉。至少二十世纪的一些重要工作都仅仅是弄清显著性和推广他田间试验的研究领域。在随后的二十世纪30年代的重要工作就是伦敦大学的J· 纽曼和E· 皮尔逊对假设检验的严格的理论发展了。这个理论已成为二十世纪后期这个领域中其他研究的基础。

到了二十世纪中期,美国的统计学家做出了一些开创性的工作。哥伦比亚大学的A·瓦尔特(A .Wald)是发展序贯分析的领导者,这是二战时期需要有效抽样而发展起来的一门学科。同时,他也是统计决策理论发展方向的领导者。这个时期的另一个大师级人物就是宾夕法尼亚州立大学的C.R. 劳(C.R. Rao)――前不久全国科学金牌的获得者(national medal of science),――他在多元统计方面有很多的创新,解决了研究多维数据的复杂结构问题。另一个科学金牌获得者普林斯顿的J. 土凯(J.Tukey)则是现代数据分析之父。

正是在这段时期,统计学在美国作为一门独立学科开始制度化和系统化,统计学不同于数学也不是数学应用的特殊领域。美国的哥伦比亚大学和北加州大学都是最早的一批加入者。后来,随着科学的发展,统计部门的数量和规模都在逐步壮大。下一章节中我们将会看到这方面的迹象。

上个世纪很多重要的发展都出自建模和估计领域,这些研究出来的方法扩大了可用模型的视野和拓宽了统计程序有效性的范围。这些研究的一个重要副产品是所谓的大样本理论的扩展—-当数据样本大小很大时统计过程的分布性质的研究。不确定性的精确度量是统计推断的关键部分。大样本理论使统计学家们能够在很广的一类问题中计算这些度量的相当好的近似值。

科学上的一个主要革命发生在二十世纪七十年代,这次革命注定要永远改变统计学的面貌。起初是笨拙地用打孔机打卡,但是计算机很快地取代了这种很慢的打孔方法,它完全改变了得出统计分析结论的意义。它也改变了科学家们收集数据和存储数据的工作。

那么随之而来的是什么呢?这个报告正是关于这些问题的。关于历史,我们注意到这样一个事实:二十世纪末最成功的方法,如自助法和比例危险率模型,如果没有计算机的帮助,这些方法可能就不能付诸实际。科学家们收集更多和更复杂数据的能力给我们指出了一个令人兴奋和极具挑战性的,并有更多基础性结果的未来。

现状

概述

统计的理论和应用涉及很多学科。

   应该注意到,统计学科不可能有一种在传统分类意义下分成不同研究领域的统一分法。

专业性质

Odom 报告对于美国学者们在统计上的努力给予了充分肯定,报告指出:“美国的统计科学非常正常地涵盖了所有分支,成为全世界的主导”。

一份有关四本主流统计杂志(其中两本在英国)的非正式调查证实了这一结论。下表展示了这些杂志中美国基本作者的部门背景。

统计学          49

生物统计学      23

工业             6

数学科学         5

数学             4

其它            13

  这些作者中大约一半的人有美国背景。基本上这些作者都在学术机构。而且,大部分来自统计和生物统计系,小于十分之一的人来自数学或与数学科学。下表展示了已出版研究成果的资金来源。

NIH                          40%

NSF                          38%

NSA(美国标准化协会)        9%

ARO/ONR/EPA                 4%

其它                          9

很显然,国家科学基金(NSF)和国家健康研究所(NIH)是统计研究资金的两个主要的来源。

专业的规模

衡量统计领域规模的方法之一是把它和其他的数学学科相比较。下表中我们给出了主要的统计学和数学机构中大概的会员数:

美国统计协会(ASA)         16,000

数理统计学会(IMS)             3,500

生物统计学会(ENAR/WNAR)     3,500

美国数学会(AMS)           30,000

美国数学联合会(MAA)      33,000

工业和应用数学会(SIAM)     9,000

这些数目比较起来有些困难,因为会员名单中有重复。但是这些数据表明统计领域的会员数可能占数学家的1/41/2

美国数学会2001年度的调查表明在统计,生物统计和生物计量学中有86个博士(program)计划,(第四组)这可以和其他数学领域的196(program)计划相比较(第一,二,三,五组)。数字上不是很容易比较,但是确实提供了规模的一些概念。

每年统计博士的人数可能是一个更好的度量。然而,这些数据受到许多通常数据采集方法的影响:总体的定义,数据的质量以及调查无反应。下表展示了三个对统计而言完全不同的会员数和关于数学其余部分的两个估计数。

AMS 调查2000(概率除外)                  310

美国数学会 在线2000(自身报告)            457

NSF 2000年获得博士学位(包括统计分支)     822

作为参考,排除统计的数学:

AMS 调查 2000                              809

NSF  获得博士学位的调查                     925

AMS的调查承认了统计(program)计划中的无反应问题。NSF有关已获博士学位数目的调查是把统计的各分支学科加总来算的。在这个基础调查中,这些学科中博士被分成几乎300个细类。

如果我们考虑除掉统计后数学中的博士数目,那么在AMSNSF的调查中就有许多的一致之处。这样再一次表明了对统计而言,在数据的收集和确认中存在许多问题。

NSF的调查提供的数据让我们了解了统计和其他数学学科之间的关系在过去的35年内发生了改变。表3.1表明了每年统计学博士的数目(由NSF定义)至少有200人,但比数学学位人数的1/3还要小,但是大体沿着线性速度增长到800,在二十世纪八十年代和数学学位的人数基本相同,然后就稍稍超过数学。

   研究型博士的数目是研究活跃水平的一个大体反映。不管怎么说,在DMS中有三个项目方向是统计和概率的,而其余19个项目是数学的其余所有领域。这种平衡似乎并没有反映出统计研究成果的程度,这是由参与者衡量的,不涉及对科学的重要性,我们将在后面说明。

数据收集

我们报告的主题是统计领域在它的科学价值和科学工作量上正经历着一个引人注目的增长,这是由于科学的变化,特别是数据收集变化的结果。Odom报告指出:“随着高速计算机和传感器的出现,一些实验科学现在可以产生大量的数据――人类基因就是一个例子――然后需要编制这些数据和从中提取有用信息的新工具,这些新工具将依赖于数学科学。”

在所有的数学科学中,统计学是唯一关注科学数据的收集和分析的学科。近年来每一个高级统计学者都已经感受到数据量的惊人成长所带来的冲击。

科学合作带来的机遇增长

这个报告的第二个主要议题是科学上对统计知识需求的增长给统计学者们带来了与日俱增的压力,他们本身需要抓紧时间学习,同时也要给各个科学领域提供指导。正如Odom报告所指出:

无论是在应用还是多个学科的交叉项目中,既有误用统计模型的严重问题。又有对科学家,工程师,社会科学研究者以及其他统计方法的使用者的教育质量的严重问题。当观测产生更多的数据时,或许就要由包括统计学者的研究队伍来解决这个难题。

3.1 NSF 关于学科中博士的调查

Odom的报告进一步指出将来的科学难题将会非常复杂,以及需要多方面的努力。报告指出:单个研究者掌握数学/计算机科学两个学科以及对复杂问题仅仅建立一个科学准则几乎是不可能的事。

我们完全同意这个发现并且会进一步给予详细阐述。

关于下一代:

从几个方面来看,未来的挑战对统计学与数学是有所区别的。例如,在Odom的报告中指出三个要点:

…美国数学会同其他国家一样面临着诸多重大的挑战,包括与其他科学领域和工程学的隔离的环境、进入这一领域的年青人数量的滑坡、与非科学领域,特别是私人部门联系的匮乏。(我们所强调的观点)

我们可以发现,在过去的一些年中,美国居民进入统计领域的人数确实在不断的缩减,博士学位人数的增长主要来自于国外留学者。另一方面,从科学委员会的观点看, Odom报告中提到的与其他学科、领域及非自然科学联系不够的问题,在统计领域似乎不存在。

4.统计的核心

统计学中有一个正在不断扩展的知识传统,对此,没有一个合适的词语来称呼,暂且称之为统计的核心。这个术语并没有被学术界广泛地接受,所以有必要对它的含义加以阐明。我们定义统计核心为众多统计工作的子集,这些统计工作指的是统计学内在的研究而不是它的延伸,尤其是那些触及特定学科领域的统计需求。作为“核心”的同义词,内延(“inreach”)是可以接受的。它反映了核心是外延的对立面。按照这样的说法,几乎所有的统计学家都同时涉及到了内延和外延。

对“核心”领域的研究集中在对统计模型、方法和根据统计学一般原理的相关理论的研究。目的是创建统一的基本原理、概念、统计方法以及计算工具。尽管这是一种内部审视的行为,但是核心的一个中心理念是:一个问题的重要性不是由其内在美(即抽象数学)所决定的,而是由其潜在的广泛应用价值所决定的,换句话说,是由我们的方法对扩展科学有效性的理解中的价值决定的。

从内在和外在结合的角度来看,核心可看作一个信息插座。核心可以由它和所有其它学科的有效连接和应用来定义。核心中的统计概念和方法可同时被用于非常广泛的学科,同时应用是统计发展的巨大源泉,作为结论,核心对所有科学提供了高的价值。

核心研究有别于“特殊应用统计研究”,后者完全是为解决某一特定科学领域里的问题而需要分析数据所驱动的。必然地,这种研究以核心知识作为工具以及作为对这些工具局限性的一种认识。这种研究为将来核心研究提供了原始素材。

4.1 对统计核心互动性的理解

有一个指标可以反应统计核心在科学界贡献的普遍价值,那就是统计文献的被引用次数。从谨慎的角度来看,被引用次数不要解释过度,因为单篇论文的高引用可以反映质量或内在重要性以外的事情。我们在这里选择引用次数是因为它可以提供一个简单而又可行的度量,来衡量统计在其他科学领域研究里的广泛影响力。


4.1 被引用最多的数学家的引用次数

著名的编制SCI和相关文献的科学信息研究所(ISI),创建了“二十世纪九十年代被引用最多的科学家”的几个排行榜。根据Jennifer MinnickISI20001011日提供的数据,19912001年之间在前25名被引用最多的数学家中由18位是统计学家或生物统计学家。每位学者的被引用次数情况见图4.1。补充一点,JASA(Journal of the American Statistical Association) 则是远远超过被引用次数最多的数学科学杂志。

有证据表明,统计文献相对于整体数学的高引用率是与它广泛的科学影响分不开的。例如,HallTitterington (1987)的一篇论文,文中考虑了关于在非参数函数估计中选择光滑参数的棘手问题,大约三分之二的引用都是来自与统计核心的任一定义无关的领域,如:IEEE杂志, 显微镜, 生物医学工程,以及物理学杂志(Journal de Physique)。该论文发表在核心研究杂志上并不影响它的理论传播。


4.2 统计信息向其它学科的扩散

一篇介绍自助法的论文,作为最重要的论文之一,直接从统计核心的研究进入到许多科学的主流领域。在该文最新的500次引用中,只有152次出现在统计文献中。图4.2表明,由统计核心产生的新方法得到广泛的传播。

当然,核心也产生于对科学有意义和有用的方法中,因为它延伸到某些特殊领域,发现重要的概念,以及创立扩大可应用性的必要推广。例如,在保险精算中有个特定年龄死亡率的问题,我们可以考虑这些方法的拓展。在1972年和1975年,提出的比例危险率回归和偏似然分析 (partial likelihood analyses) ,使我们可处理关于协变量信息删失的数据,这极大丰富了寿命数据分析的可用工具。从那个时候起,这些思想和这个方法被发展和传播到有删失和部分可观测数据的所有科学中。这也许包括天文学,例如,一颗用某种观测工具可以看到的可视星,可能由于不适当的信号用另一种观测工具却看不到。

4.2 互动性的一个详细例子

如下最近的例子更具体地表明这样一个事实:统计的核心研究与统计外延努力相互反馈和相互作用。因为至少有一些这类工作是NSF资助的,因此它部分指出了这类相互作用。在支持核心研究时应该记住这点。

去年,三个天体物理学家在Science上发表了一篇证实宇宙起源大爆炸理论的论文。他们研究了当今宇宙物质分布中所谓声音振荡的痕迹,得出这种痕迹是与从早期宇宙发出的宇宙微波背景辐射是一致的。这不仅给大爆炸理论提供了支持,也提供了一种认识早期宇宙物理性质的方法,这种方法可以根据随时间向前向后的微波背景辐射来预测物质的分布情况。

这个发现是通过使用一种叫做假发现率(周知为FDR)的新统计方法来探测振荡而得到的。在假发现率为1/4的情形下,8被标记为可能与光滑无特征的功率谱不一致。这个发现和更深入的分析使得作者得出这样的结论:振荡在统计意义上不同于通常物质密度功率谱。

这种方法是通过与两位统计学家合作完成的,并发表在《天文学杂志》(The Astronomical Journal)上。用这种方法,作者才能够获得他们的发现而且能够把论文发表在Science上,而与此同时,其它的竞争团队却由于数据过多而难以前进。

追踪这个成功的历史是件很有意义的事情,因为它很好地描述了统计核心如何作为“信息插座”而运作。图4.3描述了该统计思想的迁移路径。

当人们根据同一数据集检验许多假设时,必须调整检验的显著性水平以免错误地拒绝真正的原假设。这种“同时推断”问题也许在医学统计中受到高度重视,至少所引用的所有参考文献是作为动机出现在医学文献中的。确实,这儿统计的贡献不是提出用于本例中的序贯P-值程序(这种程序实际上可以追溯到80年代(也许更早)的西门斯(Simes)),而是建立起了一种令人信服的理论判断。这种理论判断,也就是FDR控制,导致了其他研究人员提出一种新的估计。

这个估计建议引起了别人的注意,因为它对统计信号过程中小波缩减方法中阈值的选取有着潜在的作用。CMU(卡内基 梅隆大学)的统计工作者已经开始使用FDR方法了,不仅在核心课题中使用,而且也在他们与天体物理学家MillerNichol的合作中使用。最初,他们考虑巨大像素阵列的信号探测问题。后来,在他们的合作中,物理学家们发现这种方法可以应用到声音振荡信号中,正是这个发现导致了Science的一篇论文。

MillerNichol称,当他们把这一工作向物理学界报告的时候,人们对FDR方法表示了极大的兴趣。CMU物理学教授Bob Nichol写道:我个人愿意强调,在CMU的统计学家和天体物理学家已经产生了某种共生关系。现在已经很清楚存在着两个领域的研究者们都感兴趣的公共核心问题,如把FDR方法用于天体物理问题。

实际上,当统计学家乐于扮演帮助认识宇宙的角色时,天体物理学家对统计的数学美也甚是赏识(甚至想参与其中)。除了这些联合项目外,这种合作也推动着各自领域里新的研究。总之,这种多渠道合作不仅激发了新的联合研究,也激发了各自领域中新的研究。因此,这是一个完美的结合。

4.3一系列研究挑战

下面我们将给出未来在统计研究的核心领域中将要面临的一些重要挑战的建议。我们认为统计领域中的这些挑战和其他科学领域有着内在的细微区别。例如在数学领域,大多数重点都放在那些延续下来的持久性的挑战,而在统计领域,统计问题总是随着新的数据结构和新的计算方法而发展的。和实验科学不同,统计学没有在主要研究前沿上与众多实验室竞争―或共同运行―而需要大的花费问题。大多数最重要的进步是不可预测的,也许这一点统计学比其它学科更有体会。

正是因为如此,我们需要保持一种理解的哲学,即足够的灵活性以适应变化的哲学。同时,要注意到这些未来的研究不能退化为各种不同工具的组合。

我们可以确定一些导致现代核心领域研究的广泛的论题。这些挑战主要是基于概念框架的发展和用多参数,多刻度,以及有复杂相依结构的适当的渐近逼近理论来处理(可能的)海量观测值。

4.3.1 数据的规模

注意到所收集数据的爆炸已成为很普遍的事。如下观点虽属老生常谈但仍然正确:数据增加呈指数型,数据分析呈二次增长,而统计学家增长是线性的。1994Huber关于数据大小的分类方法,

很小 ,小 ,中等 ,大 ,巨大 

看起来是很奇怪的(Wegman1995)。例如,在斯坦福线性加速器中心,当用“BaBaR”探测器作单粒子物理试验时的一个数据库为比特。

在每一个规模上,我们有许多问题需要研究―在100以下的数据集范围内,我们还没有解决所有的问题。然而,对统计新的挑战是各种结果的混合,例如,可归纳性、可测量性、稳健性,以及对数据科学理解的深度,将随着规模和内容而变化。而且,显然我们的研究及研究生教育还没有完全认识到与大规模数据相联系的计算和其它结果。

4.3.2数据缩减和压缩

我们需要更多的“压缩原理”:费歇尔(R. A. Fisher) 给出了许多重要的思想,例如:充分性、辅助性、条件变量,变换、枢轴法,和渐近最优性,后来又有了不变方差。然而,在诸如模型选择、预测和分类等领域显然需要新思想来指导我们。

一种新思想是用“压缩”作为数据分析中的指导性方法。对我们而言基本想法是一个好的理解数据的结构是我们不仅能够压缩储存它们而且能够解压缩和几乎恢复原始信息。例如,在信号和图像数据领域,小波在表达和压缩图像中的曲线边界时实际上不是最优的。这就要求我们需要新的表示系统以便更好地压缩。

4.3.3机器学习和神经网络

现在有很多特别的方法和计算策略来处理“工业强度”的数据。其中大多数方法不能通过泛泛的理解推出来,而且它们也没有被溶入到主流统计中来。这些方法是由机器学习协会等在分析庞大而复杂的数据中发展起来的,因此未来的工作应该包含把这些方法有条理地整合到核心统计中去。

这些研究大体上是建立模型和结构,这些模型和结构允许风险学科以及基于数据的风险评价。这将包括在定向适应的建模过程中研究一些主要的工具。

4.3.4对大pn的多元分析

在许多重要的统计应用中,变量数()往往要比观测单元数()小。这样的例子包括曲线数据、光谱、图像、以及DNA微阵数据的分析。最近在荷兰来顿(Leiden)举行的名为“高维数据:在数理统计和生物医学中的应用”的研讨会突出了该课题与统计中很多领域交叉研究的重要性。

下面这个比较特殊的例子可以用来描述其它领域的新息如何能够证明本问题是有用的,因此加强了核心统计继续往外延伸的观点。随机矩阵理论描述了这样一类模型和方法,这些模型和方法始于在数学物理中对复杂原子核能级的研究,并在最近40年里发展起来的。最近几年这些思想引起了概率论和组合数学的兴趣。

目前应用和研究在高维情况下统计和数据分析中的方法的时机似乎已经成熟。例如,在许多领域中科学家用大的数据矩阵(许多观测值()和许多变量())做研究,几乎没有统计理论来支持和理解用于维数缩减的启发性方法,如主成分,典型相关等。

早期结果显示大n-大p理论有些时候提供了比经典的大n-固定p的渐近理论更有用和更好的近似。例如,关于“高斯正交总体”的Tracy-Widom分布提供了单一的分布,经过恰当的中心化和刻度变换,它提供了关于极值主成分和典型相关系数在零假设下分布的非常精确的描述。

4.3.5贝叶斯估计和有偏估计

九十年代带来的计算技术的发展和效率使得贝叶斯方法可以在很广泛的模型类中实现。未来几十年的挑战是充分研究和开发将贝叶斯方法和近代非参数、半参数统计方法联系在一起的纽带,包括将贝叶斯方法和频率论方法的尽可能结合的研究。

一个显然的结果是对于有许多变量的海量数据模型,无偏性和近似无偏性的概念(例如MLE)将会变得毫无用处,因为统计方法中隐含的数据综合的概念将由于无偏方法的复杂性和变化性而失去意义。因此需要更广的“有偏估计理论”和处理有很多变量的海量数据的新理论。

除了“蒙特卡罗”方法在建模实践中不断增长的作用外,显然也需要深入的,用于推断的“蒙特卡罗”方法的分析。

4.3.6在证明和计算实验之间的中间地带

未来几十年对理论工作最后的挑战是研究证明速度(太慢)和无约束的计算实验的沼泽地(太武断且没有说服力)之间的协议中间地带。

在数学证明中存在许多问题,由于证明太难以及证明不太重要这两个原因,严格的数学验证也许要落后于方法的研究。例如,尽管几十年的工作,有许多重要的统计模型类,例如混合模型,其中可识别性问题根本不考虑,因为含有很难的分析和需要研究的模型结构的不断扩展。

4.4 对核心的机遇和需求

如果收集的数据和数据分析的需求呈指数增长,核心为什么要达到相应水平?这是因为统一的思想可能减弱增长,而统计的核心领域是可以产生思想和通过科学进行沟通的地方。也就是说,从在数据分析中能有效组织和传达的观点来看,发展核心领域统计实际上对科学而言是一个重要的基础目的。

在数据分析方法激增的领域之间,一个健康的统计核心理论(通过与应用有机的联系)对于有效地消化,开发和传播来说是最有希望的。由此可见,总的来说它是科学的重要基石。

4.4.1适应核心外的数据分析 

数据需求的增长对统计学家提出了独特的挑战,要求他们在适当的时间内为在其他领域发展出来的许多数据分析方法提供智力结构。正如一位首席统计学家说的:“如果我们不想被机器学习者或计算机科学家取代,他们专门从事某些有意义的应用领域,而且在他们自己的势力范围内有天然的优势,则我们必须经常考虑一些好的统计思想,这些统计思想容易被使用者接受。”

4.4.2核心研究的分裂

我们的理解是统计的超越能力是很高的,且由于各种好的理由这种势头还在上升。一统的观念可能减弱这种增长,而统计的核心领域是可以产生思想和通过科学进行交流的地方。但是这种增长也会产生这样一种结果,我们认为是非故意的,即对基础研究的相对忽略,以及统计领域分裂的潜在危险。

我们再次强调核心研究的重要性:FDR例子说明对特殊方法的方法论/理论洞察力扩大了它们潜在的应用。

有人或许会提到一些数据来支持下面的说法:在前些年里,根据由Stephen Stigler提出 的“出口得分”分析,《统计年鉴》是最有影响力的统计杂志。然而,根据最近的趋势反映,提交该杂志的论文已经下降了大约25%,也许是非偶然的,美国作者的比例也由20年前的70%降到到现在的35%

这个人力资源问题注定会变得更坏,因为统计的博士生通过求职市场明显发现超越技术有很高的价值。

4.4.3在专业需求中的增长

统计的核心研究在工具上是多学科的:它至少借助于信息论、计算机科学、物理学以及概率论和传统数学领域。

因为统计学家变得越来越重视数据(在解决现代规模和范围的实际问题的意义上),在核心领域中需要的数学技巧已经提高。例如,统计学家也许需要懂得复分析(鞍点)、代数学(列联表)、马尔可夫链(MCMC),或者泛函分析(建立复模型)。同时需要足够多的计算机科学家去发展数据分析所需的算法和计算机软件。

需要不断增长的技术手段给予了我们第二个方面的挑战:保持核心活力作为统计思想整合的一个场所。

5.科学与工业中的统计

统计学作为一门学科,它的一个显著特征就是它与整个自然科学、社会科学和技术的相互作用。这一章主要阐述统计学在广泛的领域内对于人类提高认识所起的作用。

5.1 生物统计

二十世纪上半叶农业和遗传统计学首先获得了发展,在其基础上发展起来的生物统计学、统计流行病学、随机化临床试验学已经成为攻克人类疾病的一个里程碑。这在过去的半个世纪里显著提高了人类的期望寿命。

最近在分子生物和遗传领域取得重要进展,使得人类在可以预见的将来在分子层面上对基础生命过程的理解将有飞速的进展。该项研究的长期目标是把分子过程的知识应用到整个有机体和种群上。这些目标包括对个人医疗方案的改善(即设计出个性化基因疗法),通过改良重要的农作物品种和家畜来缓解营养不良和饥饿问题,改进公共卫生,以及更好地防范生物恐怖袭击(bioterrorism)

除了对即将在下文讨论的‘新’生物学所产生的问题的新解决方法外,统计研究的成功也依赖于对在过去半个世纪中发展起来的临床诊断、实验室试验和野外试验,以及观测研究等统计方法更好的理解和这些方法的进一步的发展。

统计和计算方法已经扮演和会继续扮演重要角色的大体上包括如下四个领域:(A)计算基因组学,特别包括生物分子序列分析和功能基因组学;(B)遗传流行病学和基因定位(gene mapping);(C)进化和种群遗传学以及生态学;(D)计算神经学。

A生物分子序列分析和功能基因组学是一种生物研究方法,它是基于DNA序列(基因构成片段)分析、氨基酸序列(蛋白质的构成片段)分析,以及在各种细胞状态下的RNA和蛋白质的全剖面(grobal profile)分析,来发现基因和蛋白质的结构和演化过程,以及它们在正常和不正常过程中的功能,例子包括

1数据库搜索:基于蛋白质序列对齐,比较新发现蛋白质与已研究过的有关蛋白质来推断新蛋白质的机能。

2识别基因组中的控制区域:这个基因组区域控制蛋白质的数量以及产生蛋白质的条件。

3不同生物或动物种群的同源遗传区域的序列对比:这是推断它们种群史的第一步。

4在正常和疾病细胞中基因表达水平的比较分析:它不仅可以为那些表现出相似临床症状的疾病提供客观和不同的诊断,而且在了解疾病病理学中基因的过表达和欠表达规律的基础上,为该类疾病大体上提供成功治疗的途径。

在这个领域很有希望的方向包括在分子医药学、细胞和发展生物学这些领域使用计算的和功能遗传学的方法。

分子医药学包括以下几个方面的研究:用遗传数据来识别对药品毒性有风险的人群;基于基因型、RNA和蛋白质外形(profile)研究疾病子类型的更细的分类;根据用分子水平分析得到的预测模型来发展个性化的治疗方法。在这个方向上研究的理由最终将依赖于传统的针对临床的生物统计学领域,如临床试验和队列研究。对生物统计学科来说,这是一个充满无限机遇的领域。

尽管统计学在细胞和发展生物学方面还没有完全建立起来,但随着设计越来越大的试验方案,例如,目前按96井或384井精心安排的试验分析来平行获得上千个基因promoter活性的真实时间测量,新的统计和计算方法对将来该方向的进步是本质的。

借助于时衰显微镜(time-lapsed),杂交和抗体着色中的大量图象将动态地提供在有机体发展的每个阶段上发生的关键分子事件。特别令人兴奋的一个研究方向是研究方法的进步,它有能力把来自第一手文献(PubMed,在线文章)和数据库(如,Locus LinkOMIMFlybaseGene Ontology)与大型的功能功能基因组学和细胞成像数据分析信息结合起来。

B遗传流行病学的目标是理解环境和遗传在人类疾病中的相对重要性。基因定位包括使用分子标记图,来确定与感兴趣的表现型有关的基因的位子。这经常是它迈向更好理解并治疗动植物中遗传疾病的第一步。 人们也希望对导致那些在重要农作物和家畜中具有所需特性的基因定位,或对生物体模型中表现型的基因定位,如对实验鼠,这可以对类似的人类表现型的遗传提供线索。

在实验生物体中遗传定位包括生殖试验设计以获得最多的信息。关于不能进行生殖实验的人类基因定位则更复杂,一些方法解释了家族成员间的关联,而另外一些方法包含了对一人群内个体之间更难于推断和更复杂的关联。

C)进化,种群遗传学和生态学研究发生在动植物中总群水平下的变化,这种变化是由于基因库的随机突变和环境发生引起的。虽然最初定位于进化关系的研究(例如,支持现代人类有共同非洲祖先假设的证据),种群基因的概念逐渐用于理解细菌和病毒的进化(为了提供合适的疫苗和药品)和不同的动植物种群中蛋白质的进化(通过识别进化中保存下来的不同物种中的相关蛋白质部分来理解蛋白质的结构和功能)。

D)运用现代神经成像学(PETfMRI),计算神经学试图在少量的交互神经水平下和整个大脑水平下来理解神经系统功能:在什么条件下,哪部分大脑被激活?正常人和精神病人的大脑在结构和/或功能方面有什么区别?以及如何利用这些知识来诊断和治疗?

计算神经学涵盖了基本的分子生物学,从离子通道行为的研究、简单神经网络中的神经元脉冲建模、嗅觉视觉感受器的反应,到用于活大脑成像和冷冻切片技术的宏观测量方法,再到计算视觉中的抽象方法。统计在分析的每个水平上发挥了至关重要的作用。

统计方法和计算方法

对于这些大量的科学问题,统计、概率和计算的方法已被证明是非常有用的。一些方法适用于许多领域,而另外一些方法适用于某些特殊的领域。

随机过程,从有限马尔可夫链到点过程和高斯随机场,在所有问题中都很有用。分类、聚类和主成分分析等统计方法广泛地应用于(A)和(D),随机过程中的似然分析和/或贝叶斯分析在(A)、(B)和(C)中是非常重要的。由于大量产生的数据,如个体样本中上万个基因的微阵表达水平,或来自于分布于上千个个体基因的上千个标记的数据(将来可能达到十万个),对产生于(A)、(B)和(D)中的多重比较问题提出了挑战。

在计算和最大化()、(B)和(C)中的似然函数时,隐马尔科夫模型和MCMC(马尔科夫-蒙特卡洛)提供了重要的计算算法。一部分统计方法虽然需要作适当的修改(主成分曲线,随机过程的似然分析)来处理由现代生物实验所产生的大量数据,但是这些方法仍然是经典的(例如,主成分、似然分析);其他统计方法(隐马尔科夫模型、MCMC)是近期与实现它们所需的现代计算技术同步发展起来的。

另外还有一些统计方法,它们对单个领域的发展是至关重要的。一个例子是运用树(系统发育树和粘联树)来描述群体内部个体之间以及不同群体之间的进化关系。(树在聚类分析中也起到一个方法的作用)。试验设计和方差分量为基因定位提供了重要工具。

许多方法在与应用密切相关的领域中已经发展起来了,人们期望将来重要的贡献来自于对特定应用有很深造诣的统计学家。无论如何,这些方法是建立在一种理论框架上,这种理论是为了响应其他一些感知的需要而发展起来的,它们经常来自于与现代生物学无关的领域。

在数个不同领域找到应用的那些方法的共同方法论特征激励人们去获得更好的理论理解,到那时那种理解也不局限于一个特定的应用。值得注意的是由于知识大爆炸,许多知识都超越了它们传统的界限,正在培养的下一代科学家将需要某种舆论,这包括什么概念将是重要的以及一般方法论与专业物质学科知识之间的平衡。

以上所讲到的共同特征就是数据的量化、复杂性和可变性。计算(通常包括图形)是实现每种想法的一个重要方面。由于从事生物研究的科学家有不同的数学和计算背景,因此把算法尽可能看作“用户友好”这一点很重要。这可能需要专家的支持来提供“前台界面”(“front end”)和必要的文档支持,以便实验科学家能够轻松自如和正确地运用统计学家开发的工具。

例子

1,在解决生物学重要的具体问题时需要广博的数学知识是非常重要的。这可以从如何计算DNA序列对齐的统计显著性这个例子中看出(参见上述(A1下面)

这门学科的现代历史大约开始于1990年,当时一组从事分析单个DNA或蛋白质序列用途的研究人员证实了与Iglehart在1970年发现的研究结果(排队论的一个研究成果)有关。与此同时,其他研究人员推测对成对序列对齐也有一个相似结果,另一组研究队伍在1994年证明了一个更困难的结果,但是它仅适用于没有缺口(gap)数据的人为简化的问题。

根据KarlinAltschul猜想、WatermanVingron猜想(1994),即相同参数形式的近似也许对更重要的有缺口的实际情况是有效的,蒙特卡洛(MC)方法被发展来估计上述参数。这些MC估计被编成了广泛使用的BLAST软件,但是由于计算速度太慢,它们的应用仅局限于上述的一小部分研究案例中。

受应用于质量控制方法的启发,人们得到了对有缺口数据对齐的一种近似方法,它虽然不精确,但是非常容易估计。当前的研究继续致力于寻找一个能成功地把适用性、估计的速度和精度结合在一起的一种近似。

2: 促进新的计算和统计工具快速发展的领域是cDNA微阵分析,它用于在各类生物研究中测量基因表达。一个典型的问题是评估对照和处理组之间的不同表达,它们来自于相对小的个体样本的大量(几千)基因。描述性统计学(经常以聚类算法形式出现)以及推断统计学(用于处理由同时比较上千个基因而产生的特殊问题)都起着重要的作用。例如统计学家与肿瘤与生物化学研究者合作开发出了“微阵显著性分析”软件(SAM)(斯坦福大学)。这个软件是在测量人类细胞对电离辐射遗传反应实验的推动下开发出来的。方法非常简单,在Excel表中就可以操作。这个软件包在20014月发表之后,已经被下载3400多次了。

3: K. Worsely所提供的这个例子用来说明更高级的数学和计算方法提升了对复杂数据的视觉理解。K.Worsely在他最近的十年里主要致力于脑成像数据的研究,这些数据来自于正电子发射断层成像术(positron emission tomogtaphy)(PET )或来自于功能磁性共振成像(functional magnetic resonance imaging)(fMRI)(以及类似的天体物理的数据)(参见 Worsley Evans,Marrett and Neelin (1992))或Worsleyet al.(2002)。Worsley运用微分和积分几何的数学思想来评价在受到外部刺激条件下神经活动区域的统计意义。其中微分和积分几何是首先由C. F. 高斯在1800年代发展起来的。图5.1就是从Worsley的软件中导出的一个例子。

总之,由现代生物实验产生的大量数据及人类对医疗干预反应的不确定性,使得能够同生物学家进行交流并能设计新的试验方法和数据分析。

   

5.2 工程和工业

历史观点和最近进展

统计概念和方法在上个世纪工业的发展中发挥了重要作用。反过来,工程与工业应用已成为统计理论和方法学研究的主要催化剂。这些丰富多彩的问题已经极大地影响了统计这门学科的发展。

工业统计的起源可以追溯到沃尔特 舒赫特(Walter Shewhart)于1920年代在统计过程控制(SPC)上的开创性工作。今天,SPC原理和方法已经成为制造业中质量改进的关键技术,并正被越来越多的用于商业,服务业和卫生行业。

农业生产的需求激发了费歇尔(R.A. Fisher),叶茨(F. Yates)和他们的合作者在Rothamsted实验站早期的试验设计(DOE)工作。化学和纺织工业的产品测试,分析和优化导致因子设计的进一步发展以及产生了新方法,如响应表面法和由伯克斯(G. Box)等人引入的调优运算(evolutionary operation)

强调质量改进和G. Taguchi关于降低波动的稳健设计理念导致试验设计在产品和过程设计、质量与过程改进以及软件测试中的广泛研究和应用。国防,电子工业,航空和航天工业的需求也促进了新的领域的发展,如序列分析,可靠性,谱估计和快速傅立叶变换算法。

可以看到,二战期间在质量控制中统计方法的使用获得了快速发展。停滞了一段时期后,在最近30年间在工业中重新关注质量与生产力的提高再次引起对统计的关注和重视。理解和控制波动的统计理念以及DOESPC的基本统计方法构成了通用质量管理范例的基石,如全面质量管理(TQM),6西格玛和著名的Deming 14点。许多主要的公司都已大力投资以便用质量管理原理和基本统计方法来重新训练他们的员工。

大量的早期统计方法是由农业,制造业和国防工业的需求驱动的。近年来,范围已经广泛地扩展到商业与金融业、软件工程、服务业和卫生行业。这些领域的应用包括信用评分、客户分类、智能公路与交通工具的设计、电子商务、欺诈甄别、网络监控、软件质量和可靠性。

虽然收益难于量化,但是应该清楚,即使从简单的历史综述中也可看出统计和统计思想已经在美国的工程与工业中发挥了深刻的正面影响。

高影响研究领域

全球竞争和不断增长的客户期望正改变着公司运作的环境。这些变化对统计研究方向有重要的暗示。下面是四个一般性例子的概要描述。

A.具有复杂结构的大型数据集:这个主题涉及到了商业和工业的所有部门(以及在本报告中讨论到的其他领域)。商业和制造过程正在变得越来越复杂。因此,与以往相比工程师和管理者需要更多的相关数据以便指导决策。

同时,传感和数据俘获技术的进步使得收集大量的数据成为可能。这些数据经常具有复杂的结构,呈现时间序列,空间过程,文本,图像,及高维等级结构等。这些数据的收集、建模和分析展示了一个有广泛难度的研究挑战。

例如,监测、诊断和高级制造过程的改进对数据压缩和特征提取、智能诊断的开发以及实时过程控制需要新的方法。这些问题也涉及到一般性质的问题,如偏差选择、计算、算法可量测性和可视化。在这个新的环境中,统计学家在设计有效的数据仓库解决方案,保障数据质量,发展信息数据搜集和数据压缩方案中发挥了重要的作用。直到最近,这方面的许多成果才被计算机科学家和工程师掌握。

然而,为了更有效果,这些方法必须依据专业应用背景来研究,以及经验信息必须和工程和用于决策的学科内容相结合。例如,一个关于半导体制造业提高产出的研究项目导致了分析和可视化空间数据的新方法,包括监测空间过程、刻画空间模式和错误诊断研究的方法。关于冲压过程的工程研究导致了一批新方法,这些方法针对数据压缩和特征提取,用于监测把小波技术与工程知识结合在一起的功能数据。

其他应用领域例如信用评分,通信领域的欺诈检测和担保分析也产生了许多可研究的问题。现在每年汽车工业中的保单消费达到了几十亿美元(没有计算安全和生命损失)。因此产生了从巨大和几乎全是噪声的数据中快速检测保单问题(小信号)的需求。

多数过去的工作也是针对个人的活动而没有采用整体方式来建模和优化。主要的挑战之一是企业水平的建模需求和把来自大量的分散资源信息马上转换成有用的知识和有效的决策。

B.大规模计算模型——试验,分析与确认:计算模型与模拟正越来越频繁地被用于许多应用领域。在制造业,竞争的市场力量和随之而来的缩短产品发展周期的压力已经导致物质测试的减少和更多地使用计算机辅助设计与工程(CAD/CAE)。有限元分析和其他技术被广泛应用于汽车工业的产品设计与优化。

半导体制造,航空,国防及其他领域都有相似的趋势。计算模型具有很高的维数,涉及成百甚至上千的参数和设计变量。一个函数的估算在高性能计算平台上可能要花几天时间。

使用大规模计算模型的试验、分析、可视化和确认给统计带来了多种挑战,包括:a)在极高维情况中近似和探索响应曲面的试验设计研究,b)把试验参数和材料特性中的随机性和不确定性混合成计算模型,c)建模,筛选,预测和优化。

在文献中,已经有一些关于计算试验分析和设计的研究,包括新的设计类的研究以及用高斯随机场和空间内插技术进行推断(国家研究委员会1996)。但是,这个领域的研究没有与工业的发展同步。大规模计算模型的确认没有在统计文献中反映出来。序贯方法,DOE(试验设计)和贝叶斯分析等已经在这里起了重要的作用。在数值分析和优化领域也存在统计学家与其他研究人员合作的机会。

C. 可靠性和安全性:满足安全性和环保要求的非常可靠的产品的设计、研发和制造代表了工业面临的另一个主要挑战领域。在可靠性中传统的重点是“失效时间”数据的收集和分析,这在高可靠性问题,即只能有极少失效以及高度删失(数据)试验问题中尤其困难。

幸运的是,传感技术的进步使我们能收集到更广泛的与系统和元件有关的量测数据和缺失(degradation)数据。而这些数据是可靠性信息的丰富源泉,对有效的可靠性估计,预测和维护方面,现只有少量的模型和方法可以分析缺失数据以及把它们与物理失效机理相结合。缺失数据分析和设备失效预测是昂贵的和高可靠性系统的预测维护的必备部分。

现代正在被研发的新材料,如各种复合或者纳米结构的材料需要用适当的模型和方法来预测失效和其他性质。现代航空器和其他结构将对关键部位(即如果发生故障将是灾难性的这些部位)增加这些材料的应用,使用户更安全。为了在这个竞技舞台上成功,统计学家将需要同材料科学家和工程师更密切的合作。

此外,还有大量来自产品担保和维护的性能特性数据库。从这些数据中挖掘出信号并把它们用到过程改进应该是一个主要的关键领域。同样也有把系统运行的所在环境并入到可靠性模型然后分析性能特性数据的需求。这些环境通常是动态的和/或不同类的,在这样的条件下,将需要对可靠性评价与预测的现实模型。

D.软件工程:同工程学的传统分支相比较,这仍然是一个相对新的领域。它对国家的重要性可以从对美国经济日益增涨的信任、高质量的国防和关键的任务软件中看出(国家研究委员会(1996))

统计学家在软件工程中具有重要的作用,因为数据是管理软件开发过程的中心,统计方法已被证明在处理它的好几个方面是有价值的。举几个例子,统计考虑在有效的软件标准的建设和使用中是非常关键的;试验设计理念是降低需要测试软件有效性的试验次数的技术支柱(但不是穷举的)。此外,统计质量控制为软件流程各个部分的数量分析和连续流程的改进提供了理论基础。

的确,对软件开发的正式流程的整体改进,如同软件工程学院的能力成熟度模型一样,可以被部分追溯到W. A. ShewhartW. E. Deming 在统计质量控制和相关主题上的开创性工作。尽管已经取得这些进展,大量其他的研究工作对于处理软件工程的挑战(或更夸张地称为“软件危机”)是必要的。

5.3 地理和环境科学

背景

术语‘地理和环境科学’涵盖了很多研究的专业领域,尤其是如果环境科学被认同包括生态现象和过程的研究。统计活动的广阔领域既没有一个容易综述的历史,也不能用一个简单的发展模式来概括。的确,在地理和环境科学的统计工作的历史是与不同的领域交织在一起的,如农业、基础生物学、城市工程学、大气化学和生态学等等。

这儿的陈述集中于阐述统计和其他科学学科之间相互影响的几个方面,而不是对统计已具有影响,并将继续具有影响的这些领域给出一个广泛的,必然是不完全的回顾。尤其,被选择的例子描述了使用决定性过程模型,随机模型,环境过程变化检测模型,和科学概念化中统计思想的作用。

确定性过程模型和随机模型

现在,大多数重点被放在了确定性模型和随机模型的前后使用上。过程模型典型地采纳了许多基本的科学概念,如在化学要素中作为基础的质量守恒,通过代表物理和化学反应方程的包装(通常以微分方程组的形式出现),建立了更加优雅的数学结构。另一方面,作为模型研究的基本动机,统计模型典型地依赖于观测数据类型的描述。人们越来越认识到对于地理和环境过程的理解可以通过结合来自两个建模方法的观念来提高。

把过程和统计模型结合在一起使用的一种方法是把确定性模型的结果作为随机表达式的输入信息。一个例子是代表南北半球平均温度的二元变量时间序列的分析。随着使用传统的线性趋势项和共变量,如厄尔尼诺-南半球摆动(ENSO)现象的效果,24个确定性大气模型的输出被认为可以描述从1900年到1996年的半球平均温度。作为这些结果一个例子,图5.2展示了两个半球的原始数据和拟合直线,以及把大气温室效应(即大气模型输出结果)与厄尔尼诺-南半球摆动效果结合所得到的估计趋势曲线。直观上很明显,且详细的统计分析也确认了后者的趋势曲线比简单的直线回归更好地拟合了数据。这个例子表明使用统计分析可以提供证据说明在过程模型中考虑的哪些因子是重要的,以及提供了对观察数据的描述。

图表5.2

观测到的北半球(NH)和南半球(SH)的气候异常,拟合直线(虚线)和考虑大气温室效应和ENSO后的

估计趋势(实曲线),来自Smith(2001)

关于海洋表面风速最近工作的作者们阐述了统计和确定性模型方法结合的另一个方法,他们是国家大气研究中心(NCAR)地球物理统计项目相关的统计学家和一个海洋学者。

数据从两个来源获得。一个是来自美国国家航空和宇宙航行局(NASA)散射仪(NSCAT)的卫星数据,这些数据有很高的空间分辨率但空间覆盖很窄。第二个来源于所谓的国家环境预报中心(NCFP)的全球范围数值天气预报模型的分析。从每6小时观测值覆盖了整个区域的意义上来说,这些数据是完全的,但是与NSCAT的测量相比空间分辨率低得多。

这些数据的统计分析所需要的技术超过了标准空间统计和时空统计。除了时间和空间的因素外,统计分析必须协调数个分辨率和覆盖率不一样的数据源,目标是每6小时在整个区域提供可信赖的风速状态。

相关联的数据和环境趋势

许多环境问题涉及到在一段时间内变化的识别和估计。例如一个环境监测机构,如EPA,用趋势估计来评估污染控制项目的成功以及识别哪儿更迫切需要控制。在气候建模中,主要的当务之急是确定数据是否具有总体趋势,这不仅对被广泛研究的变量如全球平均温度,而且包括许多其它的后果不太清楚的变量。

对统计学家而言,估计具有相关误差的趋势因素长期以来一直是个问题,大部分工作涉及到统计学家与地球物理学家和环境科学家之间的交流。例如,以对时间序列分析做出诸多贡献,尤其以Yule-Walker方程闻名的Gilbert Walker爵士,也是一位著名的气象学者,他大量的工作是在厄尔尼诺-南半球摆动(ENSO)现象上,这些贡献大量地是同一研究的结果。

统计学家和地球物理学家的长期合作产生了一系列的关于同温层变化识别的论文,这些论文中的大多数模型都考虑了相关误差。这些研究论文,大多数由统计学家作为第一作者但发表在主流统计领域以外的杂志上,是对统计学外延进入其他科学领域的出色的描述。

许多研究大气科学问题的作者也考虑了模型的相关误差,特别检验了气候变化的结论是如何随着假定不同的误差过程而变化的。这些假设包括具有长程相依性的时间序列模型和由大气模型动力学导出的频谱模型。其他的研究工作者已经给出了另一种方法,它用长程相依过程的小波表示,这个领域持续的工作描述了气候变化的重要科学问题的考虑对研究环境过程新的统计表示的反馈。最近,由统计学家撰写但发表在气象文献中的工作已经采用了长程相依过程的统计模型,这些模型大部分是在经济学问题的分析中发展起来,并被应用于风速和风向。这描述了从一个学科(在本例中,经济学)到另一个学科(气象学)在方法论的转换中统计的角色, 要不然第二个学科也许仍然没有意识到它可应用于该学科中的问题。

5.3 统计建模和科学的概念化

 在统计框架下环境数据记录的变化被概念化为信号加噪声是常见的。事实上,这是我们上面讨论过的许多模型中的一个,其中对模型中的信号(或系统)和噪声(或误差)成分赋予各种形式以便更好地表达研究中的过程。在水化学变量的分析中信号加噪音结构的考虑导致许多湖泊学家得出这样的结论:观察到的数据记录里大部分是噪声,只有少量的信号。

但是这个概念可能导出麻烦,就像在考虑美国华盛顿湖赛克(Secci)深度(水透明度的一种度量)的记录时所展现的一样。图5.3表示的是从19801981这一相对短的时间间隔中的Secci深度。左图显示了有明显增加趋势的一列值。但是当这些观测值被嵌入到右图中稍长一点的观察序列时,我们可以看到在决定湖的特性是否有实质性改变时这个变化是不显著的。 

然而,要接受1980年中期到1981早期的数据仅仅是噪音分量的一个实现这一事实是困难的。在这个例子里,感兴趣的环境过程也许最好被概念化为有许多层过程组成,每个过程都包含了它自己的噪音分量。

5.3华盛顿湖的Secci深度值。左边的图被嵌入为右边图的实线部分

这种情况下的模型已被表达为贝叶斯动态模型的一种扩展。这个模型由三个概念上的过程组成:一个观察过程,一个当前的条件过程和一个湖功能过程,这是在监测水的质量时最感兴趣的过程。这个模型显示可以清楚地识别华盛顿湖从19601990的三个时段中湖功能过程的变化;这些时段对应于三个已知事件,它们影响了华盛顿湖的基本特性。

这里,统计方法有助于环境状况的概念化,对环境状况而言过程模型的研究是极其复杂的。也就是,在动态模型中所用的三个过程没有对应于物理或者化学机理,而是环境过程的科学概念化,类似于湖营养状况的基本湖泊学概念。

另外一个统计有助于科学思想发展的例子是加拿大山猫和雪靴兔种群的周期分析,对此已有大量的研究论文发表在Proceeding of the National Academy of Science(国家科学院院报)和Science上。这里统计学家和生态学家的合作导致了科学理论的加强。通过这项研究,发展了许多概念,包括统计模型自回归的阶和物种之间(如山猫和兔)反馈系统的复杂性的关系,以及种群周期可能展现出空间同步性这一想法。

特别,研究者分析了从1821年到1990年代这段时间山猫种群的21个时间序列。他们采用非线性2阶自回归过程,并通过随机系数和经验贝叶斯估计来组合序列。他们在逐步完善关于观察数据的好的统计描述后给出了理论种群生态学的纯数学模型的等价形式。

根据我们的看法,种群动态学的数学模型赋予了所用统计模型的意义,或者说统计模型有助于引导种群理论描述的研究。这个工作可以作为在种群周期中密度相依和(空间)相位相依的相互关系的一个例证。

其它方向和将来的可能性

大量数据的收集和处理是地球物理学和环境科学中许多主要分支的特性,例如气象学、海洋学、地震学、气候变化的特性和检测、污染物在大气层中的散布。 

在所有这些领域里统计学家已经积极参与活动,由于统计方法已经进展到包括诸如时空数据的复杂模型和相关联的计算方法,所以统计学家与地球物理学家和环境科学家之间直接交流的可能性大大增加了。传统的多元分析和空间统计方法过分依赖于矩阵计算,然而在高维的情形这已经是不可行的;这导致了寻找在高维情形下可行的并且能有效地计算大量数据的方法。

近来多数统计工作致力于发展适合大规模时空数据分析的模型和方法;在前面描述的海洋风速数据模型仅仅是回应这些问题的新的统计方法的一个例子。正在研发的适合这种情况的建模方法包括分级地理统计模型和基于格点结构的一般混合模型。

另一个重要研究领域是关于非平稳的空间模型的研究,包括用能导致平稳性的变形空间表示一个非平稳过程的方法,由一个底随机场的光滑核定义的模型,由多分辨率基(multi-resolution)定义的模型。

监测网络的设计是另一个有大量文献的领域。设计问题也与数据同化的背景有关,例如有可能从一个大而复杂的系统中仅进行少量的测量,此时的关键是要考虑被抽取样本的位置。

 我们期望在数字环境模型的数据分析中能看到巨大的增长以及在这种模型的研发中应用数学家和物质领域科学家的直接交流。以上我们正在考虑的模型出现在气候学和数字天气预报,空气污染建模和多孔渗水介质建模中。这个课题是2003年统计与应用数学科学研究院(SAMSI)即将执行的计划的一个主题,似乎也是将来研究的一个大课题。

尽管在生态学分析中的基本统计问题明显少于时空环境过程建模,统计学家也一直活跃在生态学关心的问题上。因此统计的贡献倾向于更分散,并且很少有统计学家和生态学家长期合作的队伍。

历史上,统计学家对生态学领域研究的抽样问题做了许多工作,如群体估计的评估和群体成分的分析。但是生态学研究的基金分配上,生态学中统计研发可用的基金也一直少于大气过程和污染领域的分析中统计研发可用的基金。

随着对生物多样性具有科学和社会内涵认识的日益增加,在该领域中要应用统计和需要开展统计研究两方面都已成熟。地貌生态学的出现拓宽了生态问题所考虑的空间范围,同样在该领域对统计的介入有很大的需求和机会。

5.4 信息技术

计算技术和大规模数据存储的高速增长已经影响到人们的许多行为,有时候以深刻的方式影响我们。在与信息技术(IT)相关领域工作的统计学家从来没有象现在这样令人激动。

网络的发展和计算机系统指数增长的容量已经打开了难以想象的信息交流的可能性,收集和分析来自不同来源不同性质的极大规模数据的能力,以及交流结果的能力。公开资源软件的发展扩大了研究者施展才华和思想的能力。

从数据中建立和获得统计模型的新的挑战非常多。统计学家和受过统计训练的科学家的努力已经对科学技术的所有领域产生了重要影响,从天文学、生物学、气象学、通信学、工程学到智能学,这还仅仅是列举了一部分。与其他科学领域人们的接触总是增加机会来发展新方法以便表达,建模和帮助解释他们的实验/观察/模拟数据,以及在试验设计和数据收集中发展的新方法。

这一节的剩余部分有选择地强调了一些高影响领域。

通讯

每天每分钟都会产生大量的通信记录。每个无线与有线的呼叫产生一个记录,谁拨打了这个呼叫,谁接收了这个呼叫,什么人什么时间打的,延续有多长,化了多少钱。每个用户要求从因特网上下载一个文件都记录在一个日志文件里。公共论坛在线聊天的每个贴子也都记录在案。

网络工程师对这些通讯记录感兴趣,他们必须设计网络、开发新设备;引起社会学家的兴趣,他们关心人们如何交流、如何组成社团;也引起服务供应商的兴趣,他们需要尽快搜索出欺诈行为;还引起执法机构和安全部门的兴趣,他们寻找犯罪和恐怖行为。

在数据财富转换成信息财富之前必须面对大量的有挑战性的统计问题。这些问题包括刻画描述产生这些记录的上百万人们当前行为的概率分布,当记录传送时更新每个人的被估行为,尽快区分出为数不多的有“异常”行为的人。也许令人惊讶的是,这些本来是小样本问题,由于大多数人不产生大量的记录,由于受到计算时间和空间的严格限制而复杂化了。统计学家对解决这些问题可以做很多的贡献。

机器学习和数据挖掘

机器学习和数据挖掘研究(最初是在计算科学系研究的)与非参数估计研究(开始是在统计系进行的)之间的界限正日益变得模糊不清。事实上,“机械学习”和“数据挖掘”的标签正越来越多地被统计学家使用。在统计系研究非常活跃的主要领域包括分类、聚类、预测建模的新方法。统计学家开发分类工具已经有很长时间了,随着当前的研究成果的应用,计算能力的迅速提高已经导致了一些重大进步。

综合这些优势后,在分类方面这样的一个新进展是支持向量机(Support Vector Machine)。这一方法在计算机科学机器学习协会中高度普及,而且由于统计学家的介入已经大受裨益,统计学家的贡献在于以重要方式来理解该方法的性质。尽管如此,关于该方法的理论基础的研究以及开发有效的应用方法上仍有许多重要的机会。

目前支持向量机的应用包括:微阵基因芯片的疾病分类,根据天气和当前云层的类型对卫星雷达剖面图的分类。

非参数风险因子建模的一个例子是诸多风险因子的联合复杂的相互作用对于医学表型产生的作用。在一个更为探索的水平上,通过混合建模的mRNA信号聚类有助于研究者理解这些数据中子总体的数量和性质。

随着高速计算的出现,对极大数据集以及有许多潜在预测变量和特征变量的数据,统计学家能更好地建立和试验更复杂更精细的模型(即可以用更现实和更容易理解的方式来处理的模型)。重要的是把这些模型建立在坚实的理论和计算基础上以便来指导应用。

网络

对因特网流量的研究大体分为流量测量和建模,网络拓扑和网络断层扫描( network tomography)。所有这些领域都表现出大量的统计挑战。

测量和建模的进一步研究源自提高服务质量和效率的需求。当前提高服务质量的方法是对资源的大量和过量供应,这既是浪费的,也不完全有效,因为邮件爆炸的部分原因是不适当的协议和邮件路由。为解决这些问题已经提出了许多想法,因此关键是比较这些方法,现在主要是由模拟来实现的。这需要建模和认真寻找拟合优度的统计问题。

特别,中心的问题是:“我们怎么知道这些工作象真实的信息流?”这些问题对统计和概率专家提出了许多新的挑战。古典的统计方法和技术显得不切实际,因为许多地方呈递出重尾分布(经常使得诸如方差和相关这些标准方法无效)以及长相依和不平稳(超出了经典时间序列的基本假设)。尽管如此,了解变化和对变化建模仍然十分重要,所以这一领域对于发展新的统计方法有着十分广阔的天地。

网络拓扑展现出不同类型的统计问题。这里的目标是了解因特网的连通结构。该领域中的重大进展需要图论概念,随机过程和抽样理论。

网络断层扫描是仅仅根据通过它发送的信号工作情况来推断因特网的结构。正确了解、分析包含在这一过程中复杂的不确定性以及对它建模对于该领域的发展是重要的。

数据流

对大规模数据集的统计分析经常以批量模式执行。这种数据集可能需要数年的收集和准备,相应的统计分析可以在类似的时段中进行。尽管如此,

就象在处理实时计算和控制的计算机编程中存在一个重要的合适环境一样,对统计学家处理实时数据挖掘也存在一个快速增长的合适环境问题。例如,轨道卫星和地面站之间的有限带宽遥感信号妨碍了所有原始数据的传输,这种情况会出现。第二个例子是像航空机票预定服务系统这样的商业网站,确认或放弃的详细击键数据系列未被存储,也会出现这种情况。

这些数据流的离线统计分析是不可能的,因为这些原始数据完全得不到。尽管如此,可以把一个统计装置直接放进数据流来实时检测和量化当前数据挖掘的典型结果。挑战性在于需要研发几乎快速运行的统计分析工具,以便能同步地对数据流进行分析。

对诸如样本矩这样的简单的统计量,计算并不困难。但是这些工具必须适应实时计算。另外,数据挖掘事实上使用了每一个现代统计工具(如,聚类算法,树,Logistic回归)。把现有的统计工具箱改变和重造成一个新的和非常重要的工具箱将需要想象力和聪明智慧,以及与数学科学其他领域算法专家的合作。

更多

统计学家在IT的其他领域,如医学成象、计算机可视、计算机图形、声音和文字识别、客户和交易分析、文件管理和恢复等,已经和将继续扮演重要角色。

5.5物理科学

历史上,天文学是最早受到统计思想的启发,并应用统计的领域之一。早在十八世纪,天文学家对物体进行测量时,用同一条件下的多次测量结果的平均值作为结果。这导致了在十九世纪初最小二乘法的出现。

近年来,为了从不同性质的星云团或是宇宙微波背景辐射的波动谱中估计宇宙大爆炸(Big Bang)的宇宙参数,天文学的数据在数量和复杂性两方面大大增加。大量基本的统计问题来自Virtual天文台中的多太拉(1000千兆多波长天文调查数据库。

尽管统计学和天文学有共同的渊源,两者都强调对数据的分析,但一直到最近,才出现统计学家和天文学家之间较重要的合作(这方面的例子可见本文核心章节)。

长期存在的统计和天文领域中的鸿沟正是物理学与统计学关系的一个代表性例证。统计学研究从带噪声的个体信息源中有效地增加证据。从历史的角度讲,大部分统计方法论可以被描述为“噪声第一”:生命统计学,经济学,农业,教育,心理学,医学,基因学和生物学。 这些被称为“硬科学”的科学家们相信他们可以在经典的实验中得到几乎完美的信噪比。正由于此,不难理解它们一直抵制统计方法。

然而,最近的趋势正在软化这些硬学科,所以出现了对统计学原理和方法的不断增长的需求。

现在的技术能够进行更大和更雄心勃勃的数据收集项目,如萨德伯里(Sudbury)微中子天文台和Wilkinson微波宇宙探测器的项目。这些项目必须要从噪声数据山中提取至关紧要的但是非常少的信息(在Sudbury信噪比小于百万分之一)。

技术的发展使得很多诸如象萨德伯里(Sudbury)微中子天文台和Wilkinson微波宇宙探测器这样数据庞大的项目处理成为可能。这样项目要求从庞大的噪音数据中筛选出重要的信息。毫无疑问,统计方法在这些项目中起着一个非常重要的,有时候是关键的作用。

为了说明未来统计学在物理科学中的重要作用,我们将从粒子物理、化学光谱学和天文学中给出三个简短但是统计味十足的例子。

   

粒子探测中的置信区间

下面的情况出现在探测某种难以捉摸的的粒子:探测器运行很长一段时间,记录了个特定事件,类似地装有屏蔽这种粒子的探测器记录了个背景事件。那么,这种粒子的真实比例的置信上界是多少?如果超过,统计结论变得特别敏感,以至于比例的无偏估计实际上是负的。随后问题是是否这个置信上界足够大就能鼓励进一步的探测努力。

即使在最简单的形式下(实际情况中涉及很多对复杂背景的精细修正),这个难题引起物理学界的广泛兴趣。引用最多的文献是Feldman 和 Cousins 1998年 Physical Review D 的论文(p.3873-3889)Louis Lyons,牛津大学物理教授,20039月在Stanford线性加速器中心组织了一个致力于研究粒子物理、天体物理学和宇宙学中统计问题的会议。(www-conf.slac.stanford.edu/phystat2002/)

化学光谱学中的比较实验

Richard Zare (斯坦福大学化学教授)开发了一种高级的物质分光计,可以同时记录大量重粒子的移动路程。这就允许在不同条件下对所得粒子收集物之间进行比较,例如:不同化学环境下生长的复杂分子的比较。

典型的谱以若干小的时段内的粒子计数(bin)来表示(也许一次典型的试验中有15000 bins)。比较这样的两种谱,就是找出在两种条件下有显著计数差的bins,这是一个同时假设检验问题。对于15000bins,同时性是个大问题。最初由微阵分析发展起来的统计方法可以应用到化学光谱学的比较中。不过在时间之间的关系不同于基因之间的关系,所以必须发展新的方法来处理这种问题。

生存分析与天文学

与此同时,天文学和生物统计创立了很相近的理论用于对缺失数据的处理。在统计文献中该领域称为“生存分析”。导致数据缺失的原因不同:天文学中,由于地球转动而无法观察到太暗的或者太遥远的事件,从而导致了数据“截断”。而在医学试验中当不能记录到观测对象的关键事件时会发生数据“删失”,如在试验结束前旧病复发或死亡。Lynden-Bell方法和Kaplan-Meier估计,这分别是天文学和统计学对缺失数据的处理方法,在本质上是一致的。

但是这种共同之处在八十年代以前并未被注意。在Penn State召开,由BabuFeigelson组织的一系列重要的天文-统计联合会议导致了对天文数据作统计分析的合作与进步。例如银河系外伽马射线爆发的起因在使用特殊物理器具识别之前就由生存分析方法预测了其存在性。

统计教育

显然,解决统计学者的短缺问题必须改进教育系统,使它能够吸引、培养、维持并奖励那些有天分的下一代学生。这种改进需要从小学到就业人员再教育这样大的范围内进行。必须增加能胜任统计教学的K16教师队伍。

7综述主要议题

对于我们来说所有的证据都表明现在对统计学是独一无二的机会。例如自然科学基金中的数学科学前沿领域的三个支柱是处理大量数据,复杂系统建模和处理不确定性。所有这三个方向都是统计学的核心。

现今,许多科学领域都收集了大量的数据。然而没有合理的收集方法,就必然会收集很多无用数据。如果没有科学合理的处理方法和有效的工具来收集,探索和分析数据,尽管数量庞大,我们也不能更深入理解这些复杂和贫乏的数据,或只能从这些数据中得到片面的认识。

为了抓住这个巨大的机遇,这个专业必须面对数个重要的挑战。一些是知识的挑战,这些在前面几章已经提到了。另一个是从专业外部压力的挑战。本章我们将概括一下外部的挑战。

7.1发展专业的特性

本报告的前面一些地方已花精力讨论了什么是统计学以及回顾了这个专业的历史。原因是简单的。

其他科学学会常常不能很好地理解统计专业的任务。这个学科的核心的许多知识活力来源于发展和应用更加复杂的数学或计算工具,所以未能被其他学科内的大多数科学家所接触和掌握(少数例外)。

统计学是研究波动性,不确定性和在不确定情况下决策的一门学科。由于这些在科学和工程中至关重要,统计学本质上是一门交叉学科科学。虽然统计学没有它自己的固有科学领域(如岩石,云,星星,或DNA),它是共同知识和共同知识继承的结合。

统计学即使曾经是数学的一个分支(如同拓扑学),现在已经不再是数学的一个分支了。不过它仍然大量地使用数学和计算工具。在过去二十年里这个专业的发展是巨大的。例如,统计学博士学位授予的数量已经稳步增长到与“其余”数学科学博士学位数量相当的地步。

如果我们希望分开的要求被满足,则我们需要让其他科学领域了解统计的重要作用,并建立其应有的地位。我们希望这个报告有助于这个目标。

7.2建立和保持核心的活动

当今科学中多方面机遇的探索导致了需要增加更多的专业知识以及更强的应用能力。

反过来这对统计学也是一种挑战,即统计学核心面临着也许会随时间失去当前整合统计学知识和应用于科学前沿两者的有效性的压力。实际上,目前的多学科活动过大和过于多样化以至威胁到专业的凝聚力。

如果收集的数据和数据分析的需求呈指数增长,为什么这与核心的研究有关呢?这是因为统一的统计思想能够适应这种增长,而统计的核心领域是可以产生思想并与其他学科进行沟通的地方。也就是说,从统计核心能在数据分析进展中有效地进行组织和传播这一观点看,提升它的地位实际上对科学来说是一个重要的基础目标。

一个健全的统计核心(通过与应用活跃的联系)最有可能做到在已有的大量数据分析方法之间进行有效的消化、发展和研究交换整合。

在第四章,对核心而言我们确定了如下的这些机遇和需要:

● 适应核心外的数据分析 数据需求的增加对统计学家提出了不寻常的挑战,要求统计学家在适当的时间内对其他领域研发的许多数据分析方法提供理论上的构架。

● 核心研究的分裂 统计应用的范围正在不断增加。我们认为这种增长会产生这样一种无意识的结果——相对而言忽略了基础研究以及与之伴随的统计分裂的危险。

● 人力资源问题 在美国从事核心研究领域工作的研究人员一直在减少。人力资源问题注定要越来越坏,部分是由于进入统计专业人员的一般短缺,部分是由于统计外延领域使统计学家脱离了核心研究。

● 增加专业需求 统计核心研究所用的工具是多学科的:它借助于(至少)信息论,计算机科学,物理学以及概率论和传统的数学领域。当统计学家越来越关注数据时,对于数学工具的需求的不断增加要求统计核心作为整合各种统计思想的地方要保持足够的活力和生命力。

● 研究经费 显然,核心统计的经费跟不上学科增长的步伐。研究者们并非一定要寻求基金支持,而是可以转向争取更好的外延研究活动经费和咨询。当然应该一如既往地给予经费支持以便鼓励有才能的人才,使资深研究人员有时间和空间去思考,以及鼓励年青人进入这一研究领域。

● 新的基金方式 一种新的可能的基金应该能够使统计学家去参加交叉学科活动来丰富基本统计研究,同时不会使他们脱离核心研究。

7.3 加强合作活动

统计知识结构的显著特征体现在对于发展统计方法和参加多学科活动两方面所赋予的重要价值。例如,统计在生物学、医学、社会科学、天文学、工程学、政府政策和国家安全等方面有广泛的应用,反过来,这些应用成为统计新方法发展的源泉。虽然不同的人在方法研究和学科知识应用两方面有不同的侧重点,以及同样一个人在他们事业生涯的不同时期有不同的侧重点,本质上,统计学家在这两方面都有参与。

通过这些交流活动,统计学研发了一些能在其他科学技术中有所发现的关键工具。统计学家有助于挖掘出不同学科中似乎无关问题之间的公共特性,因此有助于或创造出在不同科学领域之间的协作和相互交流。

但是,正如Odom报告指出的,我们的研究还不够广泛和不够深刻:

在应用和多学科项目中,存在着误用统计模型以及科学家、工程师、社会科学家和其他统计方法的使用者的统计教育质量方面存在严重问题。由于观测产生了许多数据,要处理好这个问题,最关键的是要组织一支包括统计学家在内的研究梯队。

问题之一是一些试图广泛参加这类活动的统计学家面临数个严重的挑战,包括需要在所有有关领域保持统计活力和需要提供相关软件来完成统计分析。此外评估这些活动被证明是困难的和有争议的。

由第六章“科学和工业中的统计”,我们可以得出如下重要结论:

● 分析现代生物学实验产生的大量数据和人类对医学干预反应的多样性,导致需要更多的统计学家,他们能与生物学家交流和设计新方法来指导试验设计和生物统计分析。

● 存在一种有关软件的挑战,它涉及大量领域。一方面这对应于需要很广泛的统计方法,软件应把这些统计方法融合为一个开放的源头产品,另一方面挑战对应于缺少对这种框架相应的支撑。

● 需要对交叉项目提供同等的长期资助,以便统计学家可以提出对真正的合作而言非常重要的科学见解。

7.4 教育

我们已经从科学到工业的广大领域中认识到需要增加统计学知识和统计学家。如同Odom报告所说“对统计界的年轻人来说同时在科学以及工业和政府机构两方面有巨大的专业市场”。同时,国内后备人员不能满足这个职业的需求。再次引用Odom报告:“很高比例的研究生是国外出生的以及许多人毕业后仍然留在美国”。

在研究领域对统计专业需求增加的同时,对较低层次统计教育的需求有令人吃惊的增长:

● 统计专业已经感到了在K-12教学中,由于引入统计AP课程引起的统计训练增强而带来的影响。这意味着许多学生带着前所未有的统计知识走进大学。

● 修统计课程的本科生在19902000猛增45% 

这些境况意味着统计专业应该全盘考虑如何应对这种增长,以及如何建立一种统计教育架构使之能满足变化和增长的需求。下面是一些主要问题和对统计专业的需求:

●需要统计AP课程的教师以及在K-12的其他学科中有统计修养的教师。

●需要整合K-16课程,使之能考虑到较好的高中统计培训。

●需要在本科和研究生两个阶段中扩大统计辅修和主修的选择权。

●鼓励和使学生更深更广地学到一个或数个应用领域的知识。

●在研究生水平,一个很大的挑战是建立一个教学计划使之能提供有充分深度的,涵盖当前统计学家正在使用的工具。

●希望有更多的博士后训练机会来帮助近期毕业的研究生发展他们的专业技能。

统计的第二类挑战来自于它应该满足未来的需求。受过统计教育的人员增长不足以满足对统计专门技术需求的指数增长。这种趋势必须要引人注目地改变以便适应当前科学技术中大的、复杂的交叉学科研究问题对统计专门技术的高速需求。

 毫无疑问,AP课程有助于在最低水平上补充统计后备人员。与此同时,针对数学学科整体的加强后备人员的计划,如VIGRE,是非常鼓舞人心的,但是对统计的特殊需求多次缺少敏感性。

7.5建议

当前统计职业面对很多挑战。本研讨会的科学规划对确定这个专业的广泛需要是非常有帮助的。在这份报告中,我们已经尽可能地总结这个研讨会讨论和陈述的重要部分。最后,可能会问我们是否会对统计学会和它的机构提出建议以便在正确的方向上引起他们的注意。把数学看作一个整体,Odom报告对NSF提出了下面非常有用的建议总述:

因此, NSF在数学上的主要目标应该是建立和保持美国数学科学在全球数学界的领袖地位,坚定地鼓励数学成为与其他学科和工业的一个活跃的和有效的合作者。NSF也应该确信能得到保质保量的数学学生,以便能满足国家在教学、在数学和其他学科中的科研、工业、商业和政府的需要。

我们诚心地赞成这个建议。在这里我们想要特别关注对统计学有需求和机遇的那些领域。这个专题研讨会的感觉以及该领域学术带头人的感觉都是统计学面临巨大的机遇。然而这潜在的机遇并不会很容易到来。资源太有限了,学生的来源太窄了,以及支撑这个领域的基础结构受到太多的制约。为了解决这些和其他的挑战,特提出如下的建议:

● 提升对统计科学的了解。统计是很难被归类的。在NSF,统计学是数学科学的一个分支,然而大多数统计学家认为统计不是数学的一个分支。现在统计学也和计算机科学(特别与机器学习)有紧密地联系,然而大多数统计学家也不认为统计学是计算机科学的一个分支。统计学本身是独立的一门科学,企图把统计学归入这个或那个学科只会加大对这个学科的误解。统计学家有责任更有效更明白地说明这门学科独特的能力。只要NSF相信,无论统计在哪里生根,统计就会繁荣,这是对统计最大的支持。

●  增加对NSF统计项目的支持和增加自主性的支持 为了避免遏制现在已很明显的统计快速增长的势头(在本文已有部分陈述),以及从大量呈现的机会中获益,有充分的理由NSF对统计的资源支持上应该有一个实质性的增加(某些特殊要求见下文)。另外,我们建议在DMS统计计划现有的组织结构基础上NSF给予其更大的自主权,着将是朝向统计建立其早就应该有的完整的学科地位的重要一步。

● 发展更有弹性的基金型式  新的统计和应用数学研究所(SAMSI)的创立是创建新的统计领域所要求的基金的优秀例子。然而,需求并不仅仅是团体上的。目前越来越多的个人研究者被包含在复杂的交叉学科项目中,或者包含在类似于运行一个实验室的项目中而不是做个人研究。这种变化的一个含意是需要学习先进技术和发展完善的方便使用者的软件。我们建议NSF做出新的鼓励那些新的创新者的基金安排,这种安排必须小心谨慎,不应该简单地从个人研究基金池中抽出这笔钱。

● 加强统计核心的研究  当统计领域多样化以及扩展后,统计核心分裂的危险大大地质性地增加了。我们必须把更多的精力放在知识的综合和有广阔应用的新理论和新方法的发展上。我们迫切希望NSF负责制定加强统计核心所必须的支持水平。

● 改进对多学科研究活动的支持 今天大多数科学上的重大事件来源于包含多个学科的研究。而统计由此而自然进入,但它经常由于人们事后想到统计才把它包含进去,或者在一个项目中仅把统计当成一个次要角色。我们鼓励NSF试验用新的方式资助这类研究以及 

―― 如果合适的话 ――确保统计在其中的地位。例如,在许多场合统计学家应该是有复杂设计和数据分析这类项目的合作伙伴。如果希望合作成功,统计学家也要化时间来支持对该学科的了解。

● 发展新的统计教育模式 在高中AP统计课程的增长,本科统计课程的注册人数的增加,以及对数据分析中计算技术的主要改进都强调了需要改革统计教育的K-16方式。研究生教育也需要再评估:保持科学核心部分的教学、培养能进行交叉学科研究的学生以及把计算机科学有关部分纳入课程这两者之间的平衡是各系今日面临的最难以平衡的主要活动。博士后培养计划和更广泛的继续教育也是这次报告版本论述的一部分。为了帮助统计学会发展新的合适的教育模式,以及能整体和系统地做好它,我们建议NSF赞助或资助一系列专题性的和共同协调的统计教育研讨会,以帮助制定在不同领域中进行改革的具体计划。这很自然地完成这个任务需要与关心和对统计教育负有责任的科学和教育组织进行合作。

● 加速下一代统计人才的补充 研讨会参加者反复指出目前缺少学生来源,以及不能满足主要工业、政府实验室和机构的需求。该问题的长远解决办法必须依靠起始于小学,延续到高中和大学的教育系统的改进。但是,这类改变将花费很多时间和投资。同时,这个缺陷可能证明已危及国家基础,特别在与国防和安全高度相关的领域―在这些领域统计可以提供许多有益的建议。因此应该考虑新颖和特殊的计划刺激本科生和研究生的统计教育。我们鼓励NSF联合统计领域的主导力量来解决后备来源问题。

附录 A

研讨会纲要计划

本附录包含了给与会者的程序(为了适应基金会代表的日程我们的程序作了一些变动)

统计学:二十一世纪的挑战和机遇

近年来,仪器发展和计算效率的指数增长等技术进步使研究者们能收集大量数据。如物理学中从哈勃望远镜或卫星照片所收集的数据,基因和生命科学中的数据库以及工程和社会科学中有关因特网的数据等。所有这些数据的公共特征是量大,复杂和有噪声。这些巨大的数据集对统计创造了新的挑战和机遇,它的主要任务是收集数据,分析数据和从中提取信息。

同时,现在科学、工业和社会正在处理的大多数情况是天生的缺乏数据,如地下污染的控制和补救,复杂系统的可靠性,核设备和材料,防撞性交通工具的研究等。这些研究正在通过数学/计算机建模和统计分析的结合来做,因此需要最好地利用这些稀有的(因此价值无法衡量的)数据。这对统计学家提出了新的挑战和机遇,他们必须在极端复杂的情况下最优地设计试验然后从有限的数据中提取最大的信息。

因此,不管是有新的充足的数据,还是新的复杂的数据很少的情况,现在是评估当前统计领域的现状和需求来确认统计如何应对这些挑战的关键时刻了。根据这个背景,回答下面的问题是非常主要的:

●什么是统计学?

●把统计学定义为一门学科的明显特征是什么?

●在过去50年中,许多主要大学已经把统计和数学分开,统计有别于数学的特征是什么?

●假定统计是数学科学的一个专业(作为统计和概率专业),如何合理划分数学科学基金? 

●现在和将来统计中的令人兴奋的研究方向和机遇是什么?

●统计和其他学科的互相影响是什么?特别,统计对这些学科的贡献是什么?这些学科如何从统计中受益?

●来自数学的工具用于统计,反之亦然。但是是否有足够多的包含统计和数学两方面的合作研究?如果不够,如何解决?

●有哪些应该有统计学家参加但是目前还没有统计学家参加的科研领域?

●在今后的二十年中,统计学科的目标是什么?

●为达到这些目标需要什么?可以从人力资源和设备等方面阐述。

●在国际舞台上,统计的作用是什么?

●基金趋势是什么?

●其他学科是如何感知到统计和统计学家的?

●统计学家是如何认识他们自己的?

注:本研讨会的所有目的是分析各种激动人心的统计研究方向以及统计作为一个学科的学科规律。

研讨会参加人员

组委会:

*Jim Berger, Duke University(杜克大学)

*Peter Bickel, UC Berkeley (伯克利大学)

Mary Ellen Bock, Purdue University(普渡大学)

Lawrence Brown, University of Pennsylvania (宾夕法尼亚大学)

Sam Hedayat, University of Illinois at Chicago (伊利诺伊大学,芝加哥)

Bruce Lindsay, Chair, Pennsylvania State University (宾州州立大学)

David Siegmund, Stanford University (斯坦福大学)

Grace Wahba, University of Wisconsin (威斯康新大学

 * 表示也是讲演者

讲演者:

Sir David R. Cox, Oxford University, UK(英国牛津大学)

Iain JohnstoneStanford University, IMS president (斯坦福大学)

Jon Kettenring, Telcordia

Vijayan Nair, University of Michigan (密西根大学)

Eric Feigelson, The Pennsylvania State University(宾州州立大学)

Chris Heyde, Australian National University, Australian, and Columbia University (澳大利亚国立大学和哥伦比亚大学)

Joel Horowitz, Northwestern University (西北大学)

Werner Stuetzle, University of Washington (华盛顿大学)

Warren Ewens, University of Pennsylvania (宾夕法尼亚大学)

Richard Smith, University of North Carolina, Chapel Hill (北卡大学)

Philippe Tondeur, Division Director, NSF/DMS

Robert Eisenstein, Assistant Director, NSF/DMS

Adriaan De Graaf, Executive Offer, NSF/DMS

Rita Colwell, Director, NSF

Joe Bordogna, Deputy Director, NSF

其他与会者

Roger Koenker, University of Illinois Urbana-Champaign (伊利诺伊大学)

Martina Morris, University of Washington (华盛顿大学)

Alan Agrest, University of Florida (佛罗里达大学)

Wing Wong, Harvard University (王永雄,哈佛大学)

Bruce Levin, Columbia University (哥伦比亚大学)

Michael Stein, University of Chicago (芝加哥大学)

Peter Guttorp, University of Washington(华盛顿大学)

Karen Kafadar, University of Colorado-Denver (科罗拉多-丹佛大学)

Jeff Wu, University of Michigan (吴建福,密歇根大学)

Alan Karr, NISS

Regina Liu, Rutgers University (拉特格斯大学)

William Padgett, University of South Carolina (南卡大学)

Peter Hall, Australian National University, Australian (澳大利亚国立大学)

Willem van Zwet, Eurandom, The Netherlands 荷兰

Nancy Reid, University of Toronto, Canada (加拿大多伦多大学)

Keith Worsley, McGill University, Canada   (加拿大麦吉尔大学)

Robert Tibshirani, Stanford University (斯坦福大学)

Brani Vidakovic, Georgia Tech  (乔治亚理工)

Mitchell Gail, NIH (美国国立卫生研究所)

Steve Marron, University of North Carolina Chapel Hill (北卡罗来纳大学教堂山分校)

Gary McDonald, General Motors Co. (通用汽车公司)

Augustine Kong, deCODE Genetics, Iceland  冰岛

David Madigan, Rutgers University (拉特格斯大学)

Stanley Wasserman, University of Illinois Urbana-Champaign (伊利诺伊大学厄本那-香槟分校)

William B. Smith, American Statistical Association, Executive Director (美国统计学会执行理事)

Miron Straf, National Academy of Sciences, ASA President (国家科学院,美国统计学会会长)

Mark Kass, Carnegie Mellon (卡内基梅隆大学)

Diane Lambert, Bell Labs (贝尔实验室)

感谢:在本文的翻译过程中,得到了统计与金融系诸位同仁的大力帮助,特别是杨亚宁教授仔细地审阅了大部分章节,也感谢李莉,吴振翔,叶五一,谭长春,陈明星,靳韬,潘婉彬,金百锁等人的工作。