统计学:二十一世纪的挑战和机遇

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2012.02.16

统计学:二十一世纪的挑战和机遇

BruceLindsay

JonKettenring

DavidSiegmund

2003年6月编

缪柏其译

中国科学技术大学统计与金融系

2003.12

统计本身是一门科学——从数据中学习的科学,它扎根于继续增长的知识核心。这表明它的根是概率论和数学,同时也受到更现代的计算机科学的影响。统计学来自于这些根,又反馈给它们新的数学和计算问题。统计也是一个不多见的学科交叉领域。的确,应用是它的原动力。在为认可的技术提供有价值的市场时它们激发了关于新理论和新方法的研究。

对统计来说目前最迫切的是要适应于这种数据集的需求,它们是如此之大和如此复杂,以至于需要新的概念。统计学家不但要使用数据,而且要设计试验和阐述试验结果。这些问题经常是广泛的学科间合作的源泉——从天文到公共政策到动物学——这些都是今天的统计学家从事的领域。

1统计是什么?

假如面对广大的听众演讲,委员会感到有必要来阐述科学中的统计角色。许多科学家(如果不是全部)仅仅看到了我们领域的一点皮毛。为此在研讨会上的第一个演讲者,牛津大学著名的D.R.Cox教授,被要求从最基本的讲起,以及确认“统计是什么?”该问题在研讨过程中被反复提及。我们在这儿综述一些主要观点。

统计学科本质上可以用它的多学科性来识别。该领域的长远(over-arching)目标是从所有类型的数据中提取科学的和有意义的信息。统计学家用不同的方法在大量的科学过程中达到这一目标。在好的实验原理培养下,他们可以成为从初级实验设计一直到最终数据分析和得出结论这一科学过程的合作者。

统计工作的科学领域几乎与科学尝试一样广泛,在研讨会中,我们集中讨论六个主要领域:统计核心加上六个应用的主要领域:

●生物科学

●工程和工业统计

●地理和环境科学

●信息技术

●物理科学

●社会和经济科学

被选择的这些领域大体上对应于(美国)国家科学基金资助的不同的方向。

在合作领域外,统计学者的核心活动是用于信息抽取的数学和概念工具的构造。虽然大部分这类研究的数学基础是概率论,但最终目的是要提供在经验工作中有用的结果。这区分了统计学家理论研究结果和大多数数学领域的结果——在其中抽象结果纯粹追求它们内在的意义。正如NSF报告98-95“关于美国数学的国际评估的高级评估小组报告”(reportoftheSeniorAssessmentPanelfortheInttrnationdAssessmentoftheU.S.AMachematicalScience)(以后称为”OdomReport”)所述,:

统计总是与应用连在一起的,结论的重要性,既使是理论统计,也是强烈依赖于与结论有关的应用类型。在这方面它非常不同于计算数学以外的其它所有数学分支。(我们所强调的)

统计领域的显著特点,以及它发展的方法论,集中在从数据得出科学结论的小心谨慎原则的设计上。该原则性方法使统计有别于数据处理,组织和分析的场合。一个主要的要求是规定我们必须要对由数据作出的科学陈述的不确定性提供一种度量。设计的这类统计工具如置信系数,显著性水平以及信任区域等,提供了关于有效性的容易解释的度量。适当使用这些工具有助于控制来自于数据的虚假结论。

首先是本杰明狄斯瑞利(BenjaminDisraeli),后来由马克吐温引用,说道:“有三类谎言:谎言,可恶的谎言,以及统计。”事实上,统计学家被训练成能区分科学真理和科学虚构。为了指出这一点,在本报告的后面,我们将讨论有效性的一种新的度量,假发现率(falsediscoveryrate),它是由于在现代科学研究中的海量数据和假设范围很大而发展起来的。

当然,统计学拥有统计工具一点也不比数学家拥有数学工具多。确实,大多数的统计应用和统计研究是由其它学科领域的科学家得到的。统计研究的基本作用是发展新工具用于尖端科学。本报告的后一节我们将描述近年来产生的非常激动人心的统计研究的可能性。特别,数据收集和储存的可能性已打开了对数据分析问题的全新方法的需求。

统计学会

根据统计工作的性质,统计学者在很广的范围内工作。在美国,有许多统计学家在统计系工作。这种系可以在大多数研究型大学中找到。目前在统计,生物统计和生物计量领域有86个博士点。它们往往集中在研究生的研究中,包括与其它学科合作,教学,以及为本科服务的课程。本报告后面要演讲的一个主要问题是,在为主修统计的本科生拓宽进入统计领域渠道的主要努力中他们潜在的未来角色。

这些系大部分是在二十世纪后半叶从数学系分出来的。因此统计常常被认为是数学的一个分支。这种结构观点也很明显反映在NSF本身。在其中,概率和统计作为数学下的一个分支,与纯数学分支,如拓扑和代数等同放在一起。但是“未来”研讨会与会代表的一个主要结论是统计与其它数学分支越来越不同。统计学家的科学目标和现代科学的方向指向这样一个方向:计算机和信息科学工具对统计而言至少与概率论同等重要。

大量的科学统计学会的分支不在统计系。这可能就出现在有统计系的大学里,我们可以在商学院,社会科学和不同门类的理科系中发现它们。在没有统计学的学院,例如在四年制的学院,统计学家经常在数学系,因为数学系需要他们为本科生上课。最后,还有许多统计学家在生物统计系工作。

还有大量的统计学家在科学学会外,但与学会有良好联系,他们受雇于政府、企业和许多统计使用者。NSF报告,即Odom报告,叙述了关于统计的领域:

在科学学会与工业和政府中的使用者之间的交流发展得很快,因此理论思想与来于应用的挑战性的问题,以及各学科传统之间的散布都非常快。,

统计学家也工作于各政府部门,从人口普查局到国家标准化和技术研究所,到国家卫生研究所。他们也受雇于许多工业企业,经常是从事质量控制工作。特别,医药工业已成了统计学家最大的雇主。他们完成药品以及所需的试验设计和分析。

著作《二十一世纪的统计》(Raftery等著)包含了当今许多领头学者们撰写的70篇论文。可以把它介绍给统计学家作为有用的信息要目,它在很广的统计主题范围内涵盖了统计当前的地位和将来的研究方向。

2.历史回顾

统计方法在科学上的应用已经有很长的历史了,尽管将之认知为一门独立的学科要追溯到20世纪。西格尔(Stigler)(1986)将现代统计学确认为一门统一的学科,“既是逻辑又是方法”。于是在这种基础上产生了各种统计思想。其中之一就是源于天文和地理测量中的联合测量难题上的数据分析。最早的贡献就是1800年左右拉格朗日(Legendre)的最小二乘法。

第二个分支是起源于概率论早期发展的不确定理论的基础。这里,数学家贝努里(Bernoulli),德谟弗(DeMoivre),贝叶斯(Bayes),拉普拉斯(Lapalace),高斯(Gauss)奠定了概率模型结构的基础,同时也提供了从概率模型得出关于数据结论的基础。

几年之内,R·费歇(R·Fisher),也是英国人,创建了很多现代统计学的基础。费歇也是现代人类遗传学的创立者,他具有极高的天赋。他创建了复杂实验的分析方法,即现在每天被科学家们使用成千上万次的“方差分析”。他证明了一个称之为似然的函数可以用来研究几乎任一概率模型中的最优估计和检验程序。受农业田间实验的启发,他建立并发展了实验设计的主要思想。

费歇有相当强烈的统计直觉。至少二十世纪的一些重要工作都仅仅是弄清显著性和推广他田间试验的研究领域。在随后的二十世纪30年代的重要工作就是伦敦大学的J·纽曼和E·皮尔逊对假设检验的严格的理论发展了。这个理论已成为二十世纪后期这个领域中其他研究的基础。

到了二十世纪中期,美国的统计学家做出了一些开创性的工作。哥伦比亚大学的A·瓦尔特(A.Wald)是发展序贯分析的领导者,这是二战时期需要有效抽样而发展起来的一门学科。同时,他也是统计决策理论发展方向的领导者。这个时期的另一个大师级人物就是宾夕法尼亚州立大学的C.R.劳(C.R.Rao)――前不久全国科学金牌的获得者(nationalmedalofscience),――他在多元统计方面有很多的创新,解决了研究多维数据的复杂结构问题。另一个科学金牌获得者普林斯顿的J.土凯(J.Tukey)则是现代数据分析之父。

正是在这段时期,统计学在美国作为一门独立学科开始制度化和系统化,统计学不同于数学也不是数学应用的特殊领域。美国的哥伦比亚大学和北加州大学都是最早的一批加入者。后来,随着科学的发展,统计部门的数量和规模都在逐步壮大。下一章节中我们将会看到这方面的迹象。

上个世纪很多重要的发展都出自建模和估计领域,这些研究出来的方法扩大了可用模型的视野和拓宽了统计程序有效性的范围。这些研究的一个重要副产品是所谓的大样本理论的扩展—-当数据样本大小很大时统计过程的分布性质的研究。不确定性的精确度量是统计推断的关键部分。大样本理论使统计学家们能够在很广的一类问题中计算这些度量的相当好的近似值。

科学上的一个主要革命发生在二十世纪七十年代,这次革命注定要永远改变统计学的面貌。起初是笨拙地用打孔机打卡,但是计算机很快地取代了这种很慢的打孔方法,它完全改变了得出统计分析结论的意义。它也改变了科学家们收集数据和存储数据的工作。

那么随之而来的是什么呢?这个报告正是关于这些问题的。关于历史,我们注意到这样一个事实:二十世纪末最成功的方法,如自助法和比例危险率模型,如果没有计算机的帮助,这些方法可能就不能付诸实际。科学家们收集更多和更复杂数据的能力给我们指出了一个令人兴奋和极具挑战性的,并有更多基础性结果的未来。

3现状

概述

统计的理论和应用涉及很多学科。

应该注意到,统计学科不可能有一种在传统分类意义下分成不同研究领域的统一分法。

专业性质

Odom报告对于美国学者们在统计上的努力给予了充分肯定,报告指出:“美国的统计科学非常正常地涵盖了所有分支,成为全世界的主导”。

一份有关四本主流统计杂志(其中两本在英国)的非正式调查证实了这一结论。下表展示了这些杂志中美国基本作者的部门背景。

统计学49%

生物统计学23%

工业6%

数学科学5%

数学4%

其它13%

NIH40%

NSF38%

NSA(美国标准化协会)9%

ARO/ONR/EPA4%

其它9%

专业的规模

衡量统计领域规模的方法之一是把它和其他的数学学科相比较。下表中我们给出了主要的统计学和数学机构中大概的会员数:

美国统计协会(ASA)16,000

数理统计学会(IMS)3,500

生物统计学会(ENAR/WNAR)3,500

美国数学会(AMS)30,000

美国数学联合会(MAA)33,000

工业和应用数学会(SIAM)9,000

这些数目比较起来有些困难,因为会员名单中有重复。但是这些数据表明统计领域的会员数可能占数学家的1/4到1/2。

美国数学会2001年度的调查表明在统计,生物统计和生物计量学中有86个博士(program)计划,(第四组)这可以和其他数学领域的196个(program)计划相比较(第一,二,三,五组)。数字上不是很容易比较,但是确实提供了规模的一些概念。

每年统计博士的人数可能是一个更好的度量。然而,这些数据受到许多通常数据采集方法的影响:总体的定义,数据的质量以及调查无反应。下表展示了三个对统计而言完全不同的会员数和关于数学其余部分的两个估计数。

AMS调查2000(概率除外)310

美国数学会在线2000(自身报告)457

NSF2000年获得博士学位(包括统计分支)822

作为参考,排除统计的数学:

AMS调查2000809

NSF获得博士学位的调查925

AMS的调查承认了统计(program)计划中的无反应问题。NSF有关已获博士学位数目的调查是把统计的各分支学科加总来算的。在这个基础调查中,这些学科中博士被分成几乎300个细类。

如果我们考虑除掉统计后数学中的博士数目,那么在AMS和NSF的调查中就有许多的一致之处。这样再一次表明了对统计而言,在数据的收集和确认中存在许多问题。

NSF的调查提供的数据让我们了解了统计和其他数学学科之间的关系在过去的35年内发生了改变。表3.1表明了每年统计学博士的数目(由NSF定义)至少有200人,但比数学学位人数的1/3还要小,但是大体沿着线性速度增长到800,在二十世纪八十年代和数学学位的人数基本相同,然后就稍稍超过数学。

研究型博士的数目是研究活跃水平的一个大体反映。不管怎么说,在DMS中有三个项目方向是统计和概率的,而其余19个项目是数学的其余所有领域。这种平衡似乎并没有反映出统计研究成果的程度,这是由参与者衡量的,不涉及对科学的重要性,我们将在后面说明。

数据收集

我们报告的主题是统计领域在它的科学价值和科学工作量上正经历着一个引人注目的增长,这是由于科学的变化,特别是数据收集变化的结果。Odom报告指出:“随着高速计算机和传感器的出现,一些实验科学现在可以产生大量的数据――人类基因就是一个例子――然后需要编制这些数据和从中提取有用信息的新工具,这些新工具将依赖于数学科学。”

科学合作带来的机遇增长

无论是在应用还是多个学科的交叉项目中,既有误用统计模型的严重问题。又有对科学家,工程师,社会科学研究者以及其他统计方法的使用者的教育质量的严重问题。当观测产生更多的数据时,或许就要由包括统计学者的研究队伍来解决这个难题。

图3.1NSF关于学科中博士的调查

Odom的报告进一步指出将来的科学难题将会非常复杂,以及需要多方面的努力。报告指出:单个研究者掌握数学/计算机科学两个学科以及对复杂问题仅仅建立一个科学准则几乎是不可能的事。

我们完全同意这个发现并且会进一步给予详细阐述。

关于下一代:

从几个方面来看,未来的挑战对统计学与数学是有所区别的。例如,在Odom的报告中指出三个要点:

…美国数学会同其他国家一样面临着诸多重大的挑战,包括与其他科学领域和工程学的隔离的环境、进入这一领域的年青人数量的滑坡、与非科学领域,特别是私人部门联系的匮乏。(我们所强调的观点)

我们可以发现,在过去的一些年中,美国居民进入统计领域的人数确实在不断的缩减,博士学位人数的增长主要来自于国外留学者。另一方面,从科学委员会的观点看,Odom报告中提到的与其他学科、领域及非自然科学联系不够的问题,在统计领域似乎不存在。

4.统计的核心

统计学中有一个正在不断扩展的知识传统,对此,没有一个合适的词语来称呼,暂且称之为统计的核心。这个术语并没有被学术界广泛地接受,所以有必要对它的含义加以阐明。我们定义统计核心为众多统计工作的子集,这些统计工作指的是统计学内在的研究而不是它的延伸,尤其是那些触及特定学科领域的统计需求。作为“核心”的同义词,内延(“inreach”)是可以接受的。它反映了核心是外延的对立面。按照这样的说法,几乎所有的统计学家都同时涉及到了内延和外延。

从内在和外在结合的角度来看,核心可看作一个信息插座。核心可以由它和所有其它学科的有效连接和应用来定义。核心中的统计概念和方法可同时被用于非常广泛的学科,同时应用是统计发展的巨大源泉,作为结论,核心对所有科学提供了高的价值。

核心研究有别于“特殊应用统计研究”,后者完全是为解决某一特定科学领域里的问题而需要分析数据所驱动的。必然地,这种研究以核心知识作为工具以及作为对这些工具局限性的一种认识。这种研究为将来核心研究提供了原始素材。

4.1对统计核心互动性的理解

有一个指标可以反应统计核心在科学界贡献的普遍价值,那就是统计文献的被引用次数。从谨慎的角度来看,被引用次数不要解释过度,因为单篇论文的高引用可以反映质量或内在重要性以外的事情。我们在这里选择引用次数是因为它可以提供一个简单而又可行的度量,来衡量统计在其他科学领域研究里的广泛影响力。

图4.1被引用最多的数学家的引用次数

有证据表明,统计文献相对于整体数学的高引用率是与它广泛的科学影响分不开的。例如,Hall和Titterington(1987)的一篇论文,文中考虑了关于在非参数函数估计中选择光滑参数的棘手问题,大约三分之二的引用都是来自与统计核心的任一定义无关的领域,如:IEEE杂志,显微镜,生物医学工程,以及物理学杂志(JournaldePhysique)。该论文发表在核心研究杂志上并不影响它的理论传播。

图4.2统计信息向其它学科的扩散

一篇介绍自助法的论文,作为最重要的论文之一,直接从统计核心的研究进入到许多科学的主流领域。在该文最新的500次引用中,只有152次出现在统计文献中。图4.2表明,由统计核心产生的新方法得到广泛的传播。

当然,核心也产生于对科学有意义和有用的方法中,因为它延伸到某些特殊领域,发现重要的概念,以及创立扩大可应用性的必要推广。例如,在保险精算中有个特定年龄死亡率的问题,我们可以考虑这些方法的拓展。在1972年和1975年,提出的比例危险率回归和偏似然分析(partiallikelihoodanalyses),使我们可处理关于协变量信息删失的数据,这极大丰富了寿命数据分析的可用工具。从那个时候起,这些思想和这个方法被发展和传播到有删失和部分可观测数据的所有科学中。这也许包括天文学,例如,一颗用某种观测工具可以看到的可视星,可能由于不适当的信号用另一种观测工具却看不到。

4.2互动性的一个详细例子

如下最近的例子更具体地表明这样一个事实:统计的核心研究与统计外延努力相互反馈和相互作用。因为至少有一些这类工作是NSF资助的,因此它部分指出了这类相互作用。在支持核心研究时应该记住这点。

这个发现是通过使用一种叫做假发现率(周知为FDR)的新统计方法来探测振荡而得到的。在假发现率为1/4的情形下,8被标记为可能与光滑无特征的功率谱不一致。这个发现和更深入的分析使得作者得出这样的结论:振荡在统计意义上不同于通常物质密度功率谱。

这种方法是通过与两位统计学家合作完成的,并发表在《天文学杂志》(TheAstronomicalJournal)上。用这种方法,作者才能够获得他们的发现而且能够把论文发表在Science上,而与此同时,其它的竞争团队却由于数据过多而难以前进。

追踪这个成功的历史是件很有意义的事情,因为它很好地描述了统计核心如何作为“信息插座”而运作。图4.3描述了该统计思想的迁移路径。

当人们根据同一数据集检验许多假设时,必须调整检验的显著性水平以免错误地拒绝真正的原假设。这种“同时推断”问题也许在医学统计中受到高度重视,至少所引用的所有参考文献是作为动机出现在医学文献中的。确实,这儿统计的贡献不是提出用于本例中的序贯P-值程序(这种程序实际上可以追溯到80年代(也许更早)的西门斯(Simes)),而是建立起了一种令人信服的理论判断。这种理论判断,也就是FDR控制,导致了其他研究人员提出一种新的估计。

这个估计建议引起了别人的注意,因为它对统计信号过程中小波缩减方法中阈值的选取有着潜在的作用。CMU(卡内基梅隆大学)的统计工作者已经开始使用FDR方法了,不仅在核心课题中使用,而且也在他们与天体物理学家Miller和Nichol的合作中使用。最初,他们考虑巨大像素阵列的信号探测问题。后来,在他们的合作中,物理学家们发现这种方法可以应用到声音振荡信号中,正是这个发现导致了Science的一篇论文。

Miller和Nichol称,当他们把这一工作向物理学界报告的时候,人们对FDR方法表示了极大的兴趣。CMU物理学教授BobNichol写道:我个人愿意强调,在CMU的统计学家和天体物理学家已经产生了某种共生关系。现在已经很清楚存在着两个领域的研究者们都感兴趣的公共核心问题,如把FDR方法用于天体物理问题。

实际上,当统计学家乐于扮演帮助认识宇宙的角色时,天体物理学家对统计的数学美也甚是赏识(甚至想参与其中)。除了这些联合项目外,这种合作也推动着各自领域里新的研究。总之,这种多渠道合作不仅激发了新的联合研究,也激发了各自领域中新的研究。因此,这是一个完美的结合。

4.3一系列研究挑战

下面我们将给出未来在统计研究的核心领域中将要面临的一些重要挑战的建议。我们认为统计领域中的这些挑战和其他科学领域有着内在的细微区别。例如在数学领域,大多数重点都放在那些延续下来的持久性的挑战,而在统计领域,统计问题总是随着新的数据结构和新的计算方法而发展的。和实验科学不同,统计学没有在主要研究前沿上与众多实验室竞争―或共同运行―而需要大的花费问题。大多数最重要的进步是不可预测的,也许这一点统计学比其它学科更有体会。

正是因为如此,我们需要保持一种理解的哲学,即足够的灵活性以适应变化的哲学。同时,要注意到这些未来的研究不能退化为各种不同工具的组合。

我们可以确定一些导致现代核心领域研究的广泛的论题。这些挑战主要是基于概念框架的发展和用多参数,多刻度,以及有复杂相依结构的适当的渐近逼近理论来处理(可能的)海量观测值。

4.3.1数据的规模

注意到所收集数据的爆炸已成为很普遍的事。如下观点虽属老生常谈但仍然正确:数据增加呈指数型,数据分析呈二次增长,而统计学家增长是线性的。1994年Huber关于数据大小的分类方法,

在每一个规模上,我们有许多问题需要研究―在100以下的数据集范围内,我们还没有解决所有的问题。然而,对统计新的挑战是各种结果的混合,例如,可归纳性、可测量性、稳健性,以及对数据科学理解的深度,将随着规模和内容而变化。而且,显然我们的研究及研究生教育还没有完全认识到与大规模数据相联系的计算和其它结果。

4.3.2数据缩减和压缩

我们需要更多的“压缩原理”:费歇尔(R.A.Fisher)给出了许多重要的思想,例如:充分性、辅助性、条件变量,变换、枢轴法,和渐近最优性,后来又有了不变方差。然而,在诸如模型选择、预测和分类等领域显然需要新思想来指导我们。

一种新思想是用“压缩”作为数据分析中的指导性方法。对我们而言基本想法是一个好的理解数据的结构是我们不仅能够压缩储存它们而且能够解压缩和几乎恢复原始信息。例如,在信号和图像数据领域,小波在表达和压缩图像中的曲线边界时实际上不是最优的。这就要求我们需要新的表示系统以便更好地压缩。

4.3.3机器学习和神经网络

现在有很多特别的方法和计算策略来处理“工业强度”的数据。其中大多数方法不能通过泛泛的理解推出来,而且它们也没有被溶入到主流统计中来。这些方法是由机器学习协会等在分析庞大而复杂的数据中发展起来的,因此未来的工作应该包含把这些方法有条理地整合到核心统计中去。

这些研究大体上是建立模型和结构,这些模型和结构允许风险学科以及基于数据的风险评价。这将包括在定向适应的建模过程中研究一些主要的工具。

4.3.4对大p小n的多元分析

下面这个比较特殊的例子可以用来描述其它领域的新息如何能够证明本问题是有用的,因此加强了核心统计继续往外延伸的观点。随机矩阵理论描述了这样一类模型和方法,这些模型和方法始于在数学物理中对复杂原子核能级的研究,并在最近40年里发展起来的。最近几年这些思想引起了概率论和组合数学的兴趣。

4.3.5贝叶斯估计和有偏估计

九十年代带来的计算技术的发展和效率使得贝叶斯方法可以在很广泛的模型类中实现。未来几十年的挑战是充分研究和开发将贝叶斯方法和近代非参数、半参数统计方法联系在一起的纽带,包括将贝叶斯方法和频率论方法的尽可能结合的研究。

一个显然的结果是对于有许多变量的海量数据模型,无偏性和近似无偏性的概念(例如MLE)将会变得毫无用处,因为统计方法中隐含的数据综合的概念将由于无偏方法的复杂性和变化性而失去意义。因此需要更广的“有偏估计理论”和处理有很多变量的海量数据的新理论。

除了“蒙特卡罗”方法在建模实践中不断增长的作用外,显然也需要深入的,用于推断的“蒙特卡罗”方法的分析。

4.3.6在证明和计算实验之间的中间地带

未来几十年对理论工作最后的挑战是研究证明速度(太慢)和无约束的计算实验的沼泽地(太武断且没有说服力)之间的协议中间地带。

在数学证明中存在许多问题,由于证明太难以及证明不太重要这两个原因,严格的数学验证也许要落后于方法的研究。例如,尽管几十年的工作,有许多重要的统计模型类,例如混合模型,其中可识别性问题根本不考虑,因为含有很难的分析和需要研究的模型结构的不断扩展。

4.4对核心的机遇和需求

如果收集的数据和数据分析的需求呈指数增长,核心为什么要达到相应水平?这是因为统一的思想可能减弱增长,而统计的核心领域是可以产生思想和通过科学进行沟通的地方。也就是说,从在数据分析中能有效组织和传达的观点来看,发展核心领域统计实际上对科学而言是一个重要的基础目的。

在数据分析方法激增的领域之间,一个健康的统计核心理论(通过与应用有机的联系)对于有效地消化,开发和传播来说是最有希望的。由此可见,总的来说它是科学的重要基石。

4.4.1适应核心外的数据分析

4.4.2核心研究的分裂

我们的理解是统计的超越能力是很高的,且由于各种好的理由这种势头还在上升。一统的观念可能减弱这种增长,而统计的核心领域是可以产生思想和通过科学进行交流的地方。但是这种增长也会产生这样一种结果,我们认为是非故意的,即对基础研究的相对忽略,以及统计领域分裂的潜在危险。

我们再次强调核心研究的重要性:FDR例子说明对特殊方法的方法论/理论洞察力扩大了它们潜在的应用。

有人或许会提到一些数据来支持下面的说法:在前些年里,根据由StephenStigler提出的“出口得分”分析,《统计年鉴》是最有影响力的统计杂志。然而,根据最近的趋势反映,提交该杂志的论文已经下降了大约25%,也许是非偶然的,美国作者的比例也由20年前的70%降到到现在的35%。

这个人力资源问题注定会变得更坏,因为统计的博士生通过求职市场明显发现超越技术有很高的价值。

4.4.3在专业需求中的增长

统计的核心研究在工具上是多学科的:它至少借助于信息论、计算机科学、物理学以及概率论和传统数学领域。

因为统计学家变得越来越重视数据(在解决现代规模和范围的实际问题的意义上),在核心领域中需要的数学技巧已经提高。例如,统计学家也许需要懂得复分析(鞍点)、代数学(列联表)、马尔可夫链(MCMC),或者泛函分析(建立复模型)。同时需要足够多的计算机科学家去发展数据分析所需的算法和计算机软件。

需要不断增长的技术手段给予了我们第二个方面的挑战:保持核心活力作为统计思想整合的一个场所。

5.科学与工业中的统计

统计学作为一门学科,它的一个显著特征就是它与整个自然科学、社会科学和技术的相互作用。这一章主要阐述统计学在广泛的领域内对于人类提高认识所起的作用。

5.1生物统计

二十世纪上半叶农业和遗传统计学首先获得了发展,在其基础上发展起来的生物统计学、统计流行病学、随机化临床试验学已经成为攻克人类疾病的一个里程碑。这在过去的半个世纪里显著提高了人类的期望寿命。

最近在分子生物和遗传领域取得重要进展,使得人类在可以预见的将来在分子层面上对基础生命过程的理解将有飞速的进展。该项研究的长期目标是把分子过程的知识应用到整个有机体和种群上。这些目标包括对个人医疗方案的改善(即设计出个性化基因疗法),通过改良重要的农作物品种和家畜来缓解营养不良和饥饿问题,改进公共卫生,以及更好地防范生物恐怖袭击(bioterrorism)。

除了对即将在下文讨论的‘新’生物学所产生的问题的新解决方法外,统计研究的成功也依赖于对在过去半个世纪中发展起来的临床诊断、实验室试验和野外试验,以及观测研究等统计方法更好的理解和这些方法的进一步的发展。

统计和计算方法已经扮演和会继续扮演重要角色的大体上包括如下四个领域:(A)计算基因组学,特别包括生物分子序列分析和功能基因组学;(B)遗传流行病学和基因定位(genemapping);(C)进化和种群遗传学以及生态学;(D)计算神经学。

(A)生物分子序列分析和功能基因组学是一种生物研究方法,它是基于DNA序列(基因构成片段)分析、氨基酸序列(蛋白质的构成片段)分析,以及在各种细胞状态下的RNA和蛋白质的全剖面(grobalprofile)分析,来发现基因和蛋白质的结构和演化过程,以及它们在正常和不正常过程中的功能,例子包括

1数据库搜索:基于蛋白质序列对齐,比较新发现蛋白质与已研究过的有关蛋白质来推断新蛋白质的机能。

2识别基因组中的控制区域:这个基因组区域控制蛋白质的数量以及产生蛋白质的条件。

3不同生物或动物种群的同源遗传区域的序列对比:这是推断它们种群史的第一步。

4在正常和疾病细胞中基因表达水平的比较分析:它不仅可以为那些表现出相似临床症状的疾病提供客观和不同的诊断,而且在了解疾病病理学中基因的过表达和欠表达规律的基础上,为该类疾病大体上提供成功治疗的途径。

在这个领域很有希望的方向包括在分子医药学、细胞和发展生物学这些领域使用计算的和功能遗传学的方法。

分子医药学包括以下几个方面的研究:用遗传数据来识别对药品毒性有风险的人群;基于基因型、RNA和蛋白质外形(profile)研究疾病子类型的更细的分类;根据用分子水平分析得到的预测模型来发展个性化的治疗方法。在这个方向上研究的理由最终将依赖于传统的针对临床的生物统计学领域,如临床试验和队列研究。对生物统计学科来说,这是一个充满无限机遇的领域。

(B)遗传流行病学的目标是理解环境和遗传在人类疾病中的相对重要性。基因定位包括使用分子标记图,来确定与感兴趣的表现型有关的基因的位子。这经常是它迈向更好理解并治疗动植物中遗传疾病的第一步。人们也希望对导致那些在重要农作物和家畜中具有所需特性的基因定位,或对生物体模型中表现型的基因定位,如对实验鼠,这可以对类似的人类表现型的遗传提供线索。

在实验生物体中遗传定位包括生殖试验设计以获得最多的信息。关于不能进行生殖实验的人类基因定位则更复杂,一些方法解释了家族成员间的关联,而另外一些方法包含了对一人群内个体之间更难于推断和更复杂的关联。

(D)运用现代神经成像学(PET,fMRI),计算神经学试图在少量的交互神经水平下和整个大脑水平下来理解神经系统功能:在什么条件下,哪部分大脑被激活?正常人和精神病人的大脑在结构和/或功能方面有什么区别?以及如何利用这些知识来诊断和治疗?

计算神经学涵盖了基本的分子生物学,从离子通道行为的研究、简单神经网络中的神经元脉冲建模、嗅觉视觉感受器的反应,到用于活大脑成像和冷冻切片技术的宏观测量方法,再到计算视觉中的抽象方法。统计在分析的每个水平上发挥了至关重要的作用。

统计方法和计算方法

对于这些大量的科学问题,统计、概率和计算的方法已被证明是非常有用的。一些方法适用于许多领域,而另外一些方法适用于某些特殊的领域。

随机过程,从有限马尔可夫链到点过程和高斯随机场,在所有问题中都很有用。分类、聚类和主成分分析等统计方法广泛地应用于(A)和(D),随机过程中的似然分析和/或贝叶斯分析在(A)、(B)和(C)中是非常重要的。由于大量产生的数据,如个体样本中上万个基因的微阵表达水平,或来自于分布于上千个个体基因的上千个标记的数据(将来可能达到十万个),对产生于(A)、(B)和(D)中的多重比较问题提出了挑战。

在计算和最大化(A)、(B)和(C)中的似然函数时,隐马尔科夫模型和MCMC(马尔科夫-蒙特卡洛)提供了重要的计算算法。一部分统计方法虽然需要作适当的修改(主成分曲线,随机过程的似然分析)来处理由现代生物实验所产生的大量数据,但是这些方法仍然是经典的(例如,主成分、似然分析);其他统计方法(隐马尔科夫模型、MCMC)是近期与实现它们所需的现代计算技术同步发展起来的。

另外还有一些统计方法,它们对单个领域的发展是至关重要的。一个例子是运用树(系统发育树和粘联树)来描述群体内部个体之间以及不同群体之间的进化关系。(树在聚类分析中也起到一个方法的作用)。试验设计和方差分量为基因定位提供了重要工具。

在数个不同领域找到应用的那些方法的共同方法论特征激励人们去获得更好的理论理解,到那时那种理解也不局限于一个特定的应用。值得注意的是由于知识大爆炸,许多知识都超越了它们传统的界限,正在培养的下一代科学家将需要某种舆论,这包括什么概念将是重要的以及一般方法论与专业物质学科知识之间的平衡。

以上所讲到的共同特征就是数据的量化、复杂性和可变性。计算(通常包括图形)是实现每种想法的一个重要方面。由于从事生物研究的科学家有不同的数学和计算背景,因此把算法尽可能看作“用户友好”这一点很重要。这可能需要专家的支持来提供“前台界面”(“frontend”)和必要的文档支持,以便实验科学家能够轻松自如和正确地运用统计学家开发的工具。

例子

例1:,在解决生物学重要的具体问题时需要广博的数学知识是非常重要的。这可以从如何计算DNA序列对齐的统计显著性这个例子中看出(参见上述(A)1下面)。

这门学科的现代历史大约开始于1990年,当时一组从事分析单个DNA或蛋白质序列用途的研究人员证实了与Iglehart在1970年发现的研究结果(排队论的一个研究成果)有关。与此同时,其他研究人员推测对成对序列对齐也有一个相似结果,另一组研究队伍在1994年证明了一个更困难的结果,但是它仅适用于没有缺口(gap)数据的人为简化的问题。

根据Karlin和Altschul猜想、Waterman和Vingron猜想(1994),即相同参数形式的近似也许对更重要的有缺口的实际情况是有效的,蒙特卡洛(MC)方法被发展来估计上述参数。这些MC估计被编成了广泛使用的BLAST软件,但是由于计算速度太慢,它们的应用仅局限于上述的一小部分研究案例中。

受应用于质量控制方法的启发,人们得到了对有缺口数据对齐的一种近似方法,它虽然不精确,但是非常容易估计。当前的研究继续致力于寻找一个能成功地把适用性、估计的速度和精度结合在一起的一种近似。

例2:促进新的计算和统计工具快速发展的领域是cDNA微阵分析,它用于在各类生物研究中测量基因表达。一个典型的问题是评估对照和处理组之间的不同表达,它们来自于相对小的个体样本的大量(几千)基因。描述性统计学(经常以聚类算法形式出现)以及推断统计学(用于处理由同时比较上千个基因而产生的特殊问题)都起着重要的作用。例如统计学家与肿瘤与生物化学研究者合作开发出了“微阵显著性分析”软件(SAM)(斯坦福大学)。这个软件是在测量人类细胞对电离辐射遗传反应实验的推动下开发出来的。方法非常简单,在Excel表中就可以操作。这个软件包在2001年4月发表之后,已经被下载3400多次了。

例3:由K.Worsely所提供的这个例子用来说明更高级的数学和计算方法提升了对复杂数据的视觉理解。K.Worsely在他最近的十年里主要致力于脑成像数据的研究,这些数据来自于正电子发射断层成像术(positronemissiontomogtaphy)(PET)或来自于功能磁性共振成像(functionalmagneticresonanceimaging)(fMRI)(以及类似的天体物理的数据)(参见WorsleyEvans,MarrettandNeelin(1992))或Worsley,etal.(2002)。Worsley运用微分和积分几何的数学思想来评价在受到外部刺激条件下神经活动区域的统计意义。其中微分和积分几何是首先由C.F.高斯在1800年代发展起来的。图5.1就是从Worsley的软件中导出的一个例子。

总之,由现代生物实验产生的大量数据及人类对医疗干预反应的不确定性,使得能够同生物学家进行交流并能设计新的试验方法和数据分析。

5.2工程和工业

历史观点和最近进展

统计概念和方法在上个世纪工业的发展中发挥了重要作用。反过来,工程与工业应用已成为统计理论和方法学研究的主要催化剂。这些丰富多彩的问题已经极大地影响了统计这门学科的发展。

工业统计的起源可以追溯到沃尔特舒赫特(WalterShewhart)于1920年代在统计过程控制(SPC)上的开创性工作。今天,SPC原理和方法已经成为制造业中质量改进的关键技术,并正被越来越多的用于商业,服务业和卫生行业。

农业生产的需求激发了费歇尔(R.A.Fisher),叶茨(F.Yates)和他们的合作者在Rothamsted实验站早期的试验设计(DOE)工作。化学和纺织工业的产品测试,分析和优化导致因子设计的进一步发展以及产生了新方法,如响应表面法和由伯克斯(G.Box)等人引入的调优运算(evolutionaryoperation)。

强调质量改进和G.Taguchi关于降低波动的稳健设计理念导致试验设计在产品和过程设计、质量与过程改进以及软件测试中的广泛研究和应用。国防,电子工业,航空和航天工业的需求也促进了新的领域的发展,如序列分析,可靠性,谱估计和快速傅立叶变换算法。

大量的早期统计方法是由农业,制造业和国防工业的需求驱动的。近年来,范围已经广泛地扩展到商业与金融业、软件工程、服务业和卫生行业。这些领域的应用包括信用评分、客户分类、智能公路与交通工具的设计、电子商务、欺诈甄别、网络监控、软件质量和可靠性。

虽然收益难于量化,但是应该清楚,即使从简单的历史综述中也可看出统计和统计思想已经在美国的工程与工业中发挥了深刻的正面影响。

高影响研究领域

全球竞争和不断增长的客户期望正改变着公司运作的环境。这些变化对统计研究方向有重要的暗示。下面是四个一般性例子的概要描述。

例如,监测、诊断和高级制造过程的改进对数据压缩和特征提取、智能诊断的开发以及实时过程控制需要新的方法。这些问题也涉及到一般性质的问题,如偏差选择、计算、算法可量测性和可视化。在这个新的环境中,统计学家在设计有效的数据仓库解决方案,保障数据质量,发展信息数据搜集和数据压缩方案中发挥了重要的作用。直到最近,这方面的许多成果才被计算机科学家和工程师掌握。

然而,为了更有效果,这些方法必须依据专业应用背景来研究,以及经验信息必须和工程和用于决策的学科内容相结合。例如,一个关于半导体制造业提高产出的研究项目导致了分析和可视化空间数据的新方法,包括监测空间过程、刻画空间模式和错误诊断研究的方法。关于冲压过程的工程研究导致了一批新方法,这些方法针对数据压缩和特征提取,用于监测把小波技术与工程知识结合在一起的功能数据。

其他应用领域例如信用评分,通信领域的欺诈检测和担保分析也产生了许多可研究的问题。现在每年汽车工业中的保单消费达到了几十亿美元(没有计算安全和生命损失)。因此产生了从巨大和几乎全是噪声的数据中快速检测保单问题(小信号)的需求。

多数过去的工作也是针对个人的活动而没有采用整体方式来建模和优化。主要的挑战之一是企业水平的建模需求和把来自大量的分散资源信息马上转换成有用的知识和有效的决策。

B.大规模计算模型——试验,分析与确认:计算模型与模拟正越来越频繁地被用于许多应用领域。在制造业,竞争的市场力量和随之而来的缩短产品发展周期的压力已经导致物质测试的减少和更多地使用计算机辅助设计与工程(CAD/CAE)。有限元分析和其他技术被广泛应用于汽车工业的产品设计与优化。

使用大规模计算模型的试验、分析、可视化和确认给统计带来了多种挑战,包括:a)在极高维情况中近似和探索响应曲面的试验设计研究,b)把试验参数和材料特性中的随机性和不确定性混合成计算模型,c)建模,筛选,预测和优化。

在文献中,已经有一些关于计算试验分析和设计的研究,包括新的设计类的研究以及用高斯随机场和空间内插技术进行推断(国家研究委员会1996)。但是,这个领域的研究没有与工业的发展同步。大规模计算模型的确认没有在统计文献中反映出来。序贯方法,DOE(试验设计)和贝叶斯分析等已经在这里起了重要的作用。在数值分析和优化领域也存在统计学家与其他研究人员合作的机会。

幸运的是,传感技术的进步使我们能收集到更广泛的与系统和元件有关的量测数据和缺失(degradation)数据。而这些数据是可靠性信息的丰富源泉,对有效的可靠性估计,预测和维护方面,现只有少量的模型和方法可以分析缺失数据以及把它们与物理失效机理相结合。缺失数据分析和设备失效预测是昂贵的和高可靠性系统的预测维护的必备部分。

现代正在被研发的新材料,如各种复合或者纳米结构的材料需要用适当的模型和方法来预测失效和其他性质。现代航空器和其他结构将对关键部位(即如果发生故障将是灾难性的这些部位)增加这些材料的应用,使用户更安全。为了在这个竞技舞台上成功,统计学家将需要同材料科学家和工程师更密切的合作。

此外,还有大量来自产品担保和维护的性能特性数据库。从这些数据中挖掘出信号并把它们用到过程改进应该是一个主要的关键领域。同样也有把系统运行的所在环境并入到可靠性模型然后分析性能特性数据的需求。这些环境通常是动态的和/或不同类的,在这样的条件下,将需要对可靠性评价与预测的现实模型。

D.软件工程:同工程学的传统分支相比较,这仍然是一个相对新的领域。它对国家的重要性可以从对美国经济日益增涨的信任、高质量的国防和关键的任务软件中看出(国家研究委员会(1996))。

统计学家在软件工程中具有重要的作用,因为数据是管理软件开发过程的中心,统计方法已被证明在处理它的好几个方面是有价值的。举几个例子,统计考虑在有效的软件标准的建设和使用中是非常关键的;试验设计理念是降低需要测试软件有效性的试验次数的技术支柱(但不是穷举的)。此外,统计质量控制为软件流程各个部分的数量分析和连续流程的改进提供了理论基础。

5.3地理和环境科学

背景

术语‘地理和环境科学’涵盖了很多研究的专业领域,尤其是如果环境科学被认同包括生态现象和过程的研究。统计活动的广阔领域既没有一个容易综述的历史,也不能用一个简单的发展模式来概括。的确,在地理和环境科学的统计工作的历史是与不同的领域交织在一起的,如农业、基础生物学、城市工程学、大气化学和生态学等等。

这儿的陈述集中于阐述统计和其他科学学科之间相互影响的几个方面,而不是对统计已具有影响,并将继续具有影响的这些领域给出一个广泛的,必然是不完全的回顾。尤其,被选择的例子描述了使用决定性过程模型,随机模型,环境过程变化检测模型,和科学概念化中统计思想的作用。

确定性过程模型和随机模型

现在,大多数重点被放在了确定性模型和随机模型的前后使用上。过程模型典型地采纳了许多基本的科学概念,如在化学要素中作为基础的质量守恒,通过代表物理和化学反应方程的包装(通常以微分方程组的形式出现),建立了更加优雅的数学结构。另一方面,作为模型研究的基本动机,统计模型典型地依赖于观测数据类型的描述。人们越来越认识到对于地理和环境过程的理解可以通过结合来自两个建模方法的观念来提高。

图表5.2

观测到的北半球(NH)和南半球(SH)的气候异常,拟合直线(虚线)和考虑大气温室效应和ENSO后的

估计趋势(实曲线),来自Smith等(2001)

5.3统计建模和科学的概念化

在统计框架下环境数据记录的变化被概念化为信号加噪声是常见的。事实上,这是我们上面讨论过的许多模型中的一个,其中对模型中的信号(或系统)和噪声(或误差)成分赋予各种形式以便更好地表达研究中的过程。在水化学变量的分析中信号加噪音结构的考虑导致许多湖泊学家得出这样的结论:观察到的数据记录里大部分是噪声,只有少量的信号。

然而,要接受1980年中期到1981早期的数据仅仅是噪音分量的一个实现这一事实是困难的。在这个例子里,感兴趣的环境过程也许最好被概念化为有许多层过程组成,每个过程都包含了它自己的噪音分量。

图5.3华盛顿湖的Secci深度值。左边的图被嵌入为右边图的实线部分

这种情况下的模型已被表达为贝叶斯动态模型的一种扩展。这个模型由三个概念上的过程组成:一个观察过程,一个当前的条件过程和一个湖功能过程,这是在监测水的质量时最感兴趣的过程。这个模型显示可以清楚地识别华盛顿湖从1960到1990的三个时段中湖功能过程的变化;这些时段对应于三个已知事件,它们影响了华盛顿湖的基本特性。

这里,统计方法有助于环境状况的概念化,对环境状况而言过程模型的研究是极其复杂的。也就是,在动态模型中所用的三个过程没有对应于物理或者化学机理,而是环境过程的科学概念化,类似于湖营养状况的基本湖泊学概念。

另外一个统计有助于科学思想发展的例子是加拿大山猫和雪靴兔种群的周期分析,对此已有大量的研究论文发表在ProceedingoftheNationalAcademyofScience(国家科学院院报)和Science上。这里统计学家和生态学家的合作导致了科学理论的加强。通过这项研究,发展了许多概念,包括统计模型自回归的阶和物种之间(如山猫和兔)反馈系统的复杂性的关系,以及种群周期可能展现出空间同步性这一想法。

根据我们的看法,种群动态学的数学模型赋予了所用统计模型的意义,或者说统计模型有助于引导种群理论描述的研究。这个工作可以作为在种群周期中密度相依和(空间)相位相依的相互关系的一个例证。

其它方向和将来的可能性

大量数据的收集和处理是地球物理学和环境科学中许多主要分支的特性,例如气象学、海洋学、地震学、气候变化的特性和检测、污染物在大气层中的散布。

近来多数统计工作致力于发展适合大规模时空数据分析的模型和方法;在前面描述的海洋风速数据模型仅仅是回应这些问题的新的统计方法的一个例子。正在研发的适合这种情况的建模方法包括分级地理统计模型和基于格点结构的一般混合模型。

另一个重要研究领域是关于非平稳的空间模型的研究,包括用能导致平稳性的变形空间表示一个非平稳过程的方法,由一个底随机场的光滑核定义的模型,由多分辨率基(multi-resolution)定义的模型。

监测网络的设计是另一个有大量文献的领域。设计问题也与数据同化的背景有关,例如有可能从一个大而复杂的系统中仅进行少量的测量,此时的关键是要考虑被抽取样本的位置。

我们期望在数字环境模型的数据分析中能看到巨大的增长以及在这种模型的研发中应用数学家和物质领域科学家的直接交流。以上我们正在考虑的模型出现在气候学和数字天气预报,空气污染建模和多孔渗水介质建模中。这个课题是2003年统计与应用数学科学研究院(SAMSI)即将执行的计划的一个主题,似乎也是将来研究的一个大课题。

尽管在生态学分析中的基本统计问题明显少于时空环境过程建模,统计学家也一直活跃在生态学关心的问题上。因此统计的贡献倾向于更分散,并且很少有统计学家和生态学家长期合作的队伍。

历史上,统计学家对生态学领域研究的抽样问题做了许多工作,如群体估计的评估和群体成分的分析。但是生态学研究的基金分配上,生态学中统计研发可用的基金也一直少于大气过程和污染领域的分析中统计研发可用的基金。

随着对生物多样性具有科学和社会内涵认识的日益增加,在该领域中要应用统计和需要开展统计研究两方面都已成熟。地貌生态学的出现拓宽了生态问题所考虑的空间范围,同样在该领域对统计的介入有很大的需求和机会。

5.4信息技术

从数据中建立和获得统计模型的新的挑战非常多。统计学家和受过统计训练的科学家的努力已经对科学技术的所有领域产生了重要影响,从天文学、生物学、气象学、通信学、工程学到智能学,这还仅仅是列举了一部分。与其他科学领域人们的接触总是增加机会来发展新方法以便表达,建模和帮助解释他们的实验/观察/模拟数据,以及在试验设计和数据收集中发展的新方法。

这一节的剩余部分有选择地强调了一些高影响领域。

通讯

网络工程师对这些通讯记录感兴趣,他们必须设计网络、开发新设备;引起社会学家的兴趣,他们关心人们如何交流、如何组成社团;也引起服务供应商的兴趣,他们需要尽快搜索出欺诈行为;还引起执法机构和安全部门的兴趣,他们寻找犯罪和恐怖行为。

机器学习和数据挖掘

综合这些优势后,在分类方面这样的一个新进展是支持向量机(SupportVectorMachine)。这一方法在计算机科学机器学习协会中高度普及,而且由于统计学家的介入已经大受裨益,统计学家的贡献在于以重要方式来理解该方法的性质。尽管如此,关于该方法的理论基础的研究以及开发有效的应用方法上仍有许多重要的机会。

目前支持向量机的应用包括:微阵基因芯片的疾病分类,根据天气和当前云层的类型对卫星雷达剖面图的分类。

非参数风险因子建模的一个例子是诸多风险因子的联合复杂的相互作用对于医学表型产生的作用。在一个更为探索的水平上,通过混合建模的mRNA信号聚类有助于研究者理解这些数据中子总体的数量和性质。

随着高速计算的出现,对极大数据集以及有许多潜在预测变量和特征变量的数据,统计学家能更好地建立和试验更复杂更精细的模型(即可以用更现实和更容易理解的方式来处理的模型)。重要的是把这些模型建立在坚实的理论和计算基础上以便来指导应用。

网络

对因特网流量的研究大体分为流量测量和建模,网络拓扑和网络断层扫描(networktomography)。所有这些领域都表现出大量的统计挑战。

测量和建模的进一步研究源自提高服务质量和效率的需求。当前提高服务质量的方法是对资源的大量和过量供应,这既是浪费的,也不完全有效,因为邮件爆炸的部分原因是不适当的协议和邮件路由。为解决这些问题已经提出了许多想法,因此关键是比较这些方法,现在主要是由模拟来实现的。这需要建模和认真寻找拟合优度的统计问题。

网络拓扑展现出不同类型的统计问题。这里的目标是了解因特网的连通结构。该领域中的重大进展需要图论概念,随机过程和抽样理论。

网络断层扫描是仅仅根据通过它发送的信号工作情况来推断因特网的结构。正确了解、分析包含在这一过程中复杂的不确定性以及对它建模对于该领域的发展是重要的。

数据流

对大规模数据集的统计分析经常以批量模式执行。这种数据集可能需要数年的收集和准备,相应的统计分析可以在类似的时段中进行。尽管如此,

就象在处理实时计算和控制的计算机编程中存在一个重要的合适环境一样,对统计学家处理实时数据挖掘也存在一个快速增长的合适环境问题。例如,轨道卫星和地面站之间的有限带宽遥感信号妨碍了所有原始数据的传输,这种情况会出现。第二个例子是像航空机票预定服务系统这样的商业网站,确认或放弃的详细击键数据系列未被存储,也会出现这种情况。

这些数据流的离线统计分析是不可能的,因为这些原始数据完全得不到。尽管如此,可以把一个统计装置直接放进数据流来实时检测和量化当前数据挖掘的典型结果。挑战性在于需要研发几乎快速运行的统计分析工具,以便能同步地对数据流进行分析。

对诸如样本矩这样的简单的统计量,计算并不困难。但是这些工具必须适应实时计算。另外,数据挖掘事实上使用了每一个现代统计工具(如,聚类算法,树,Logistic回归)。把现有的统计工具箱改变和重造成一个新的和非常重要的工具箱将需要想象力和聪明智慧,以及与数学科学其他领域算法专家的合作。

更多

统计学家在IT的其他领域,如医学成象、计算机可视、计算机图形、声音和文字识别、客户和交易分析、文件管理和恢复等,已经和将继续扮演重要角色。

5.5物理科学

历史上,天文学是最早受到统计思想的启发,并应用统计的领域之一。早在十八世纪,天文学家对物体进行测量时,用同一条件下的多次测量结果的平均值作为结果。这导致了在十九世纪初最小二乘法的出现。

近年来,为了从不同性质的星云团或是宇宙微波背景辐射的波动谱中估计宇宙大爆炸(BigBang)的宇宙参数,天文学的数据在数量和复杂性两方面大大增加。大量基本的统计问题来自Virtual天文台中的多太拉(1000千兆)多波长天文调查数据库。

尽管统计学和天文学有共同的渊源,两者都强调对数据的分析,但一直到最近,才出现统计学家和天文学家之间较重要的合作(这方面的例子可见本文核心章节)。

长期存在的统计和天文领域中的鸿沟正是物理学与统计学关系的一个代表性例证。统计学研究从带噪声的个体信息源中有效地增加证据。从历史的角度讲,大部分统计方法论可以被描述为“噪声第一”:生命统计学,经济学,农业,教育,心理学,医学,基因学和生物学。这些被称为“硬科学”的科学家们相信他们可以在经典的实验中得到几乎完美的信噪比。正由于此,不难理解它们一直抵制统计方法。

然而,最近的趋势正在软化这些硬学科,所以出现了对统计学原理和方法的不断增长的需求。

现在的技术能够进行更大和更雄心勃勃的数据收集项目,如萨德伯里(Sudbury)微中子天文台和Wilkinson微波宇宙探测器的项目。这些项目必须要从噪声数据山中提取至关紧要的但是非常少的信息(在Sudbury信噪比小于百万分之一)。

技术的发展使得很多诸如象萨德伯里(Sudbury)微中子天文台和Wilkinson微波宇宙探测器这样数据庞大的项目处理成为可能。这样项目要求从庞大的噪音数据中筛选出重要的信息。毫无疑问,统计方法在这些项目中起着一个非常重要的,有时候是关键的作用。

为了说明未来统计学在物理科学中的重要作用,我们将从粒子物理、化学光谱学和天文学中给出三个简短但是统计味十足的例子。

粒子探测中的置信区间

即使在最简单的形式下(实际情况中涉及很多对复杂背景的精细修正),这个难题引起物理学界的广泛兴趣。引用最多的文献是Feldman和Cousins的1998年PhysicalReviewD的论文(p.3873-3889)。LouisLyons,牛津大学物理教授,2003年9月在Stanford线性加速器中心组织了一个致力于研究粒子物理、天体物理学和宇宙学中统计问题的会议。(www-conf.slac.stanford.edu/phystat2002/)

化学光谱学中的比较实验

RichardZare(斯坦福大学化学教授)开发了一种高级的物质分光计,可以同时记录大量重粒子的移动路程。这就允许在不同条件下对所得粒子收集物之间进行比较,例如:不同化学环境下生长的复杂分子的比较。

生存分析与天文学

与此同时,天文学和生物统计创立了很相近的理论用于对缺失数据的处理。在统计文献中该领域称为“生存分析”。导致数据缺失的原因不同:天文学中,由于地球转动而无法观察到太暗的或者太遥远的事件,从而导致了数据“截断”。而在医学试验中当不能记录到观测对象的关键事件时会发生数据“删失”,如在试验结束前旧病复发或死亡。Lynden-Bell方法和Kaplan-Meier估计,这分别是天文学和统计学对缺失数据的处理方法,在本质上是一致的。

但是这种共同之处在八十年代以前并未被注意。在PennState召开,由Babu和Feigelson组织的一系列重要的天文-统计联合会议导致了对天文数据作统计分析的合作与进步。例如银河系外伽马射线爆发的起因在使用特殊物理器具识别之前就由生存分析方法预测了其存在性。

6统计教育

显然,解决统计学者的短缺问题必须改进教育系统,使它能够吸引、培养、维持并奖励那些有天分的下一代学生。这种改进需要从小学到就业人员再教育这样大的范围内进行。必须增加能胜任统计教学的K-16教师队伍。

7综述主要议题

对于我们来说所有的证据都表明现在对统计学是独一无二的机会。例如自然科学基金中的数学科学前沿领域的三个支柱是处理大量数据,复杂系统建模和处理不确定性。所有这三个方向都是统计学的核心。

现今,许多科学领域都收集了大量的数据。然而没有合理的收集方法,就必然会收集很多无用数据。如果没有科学合理的处理方法和有效的工具来收集,探索和分析数据,尽管数量庞大,我们也不能更深入理解这些复杂和贫乏的数据,或只能从这些数据中得到片面的认识。

为了抓住这个巨大的机遇,这个专业必须面对数个重要的挑战。一些是知识的挑战,这些在前面几章已经提到了。另一个是从专业外部压力的挑战。本章我们将概括一下外部的挑战。

7.1发展专业的特性

本报告的前面一些地方已花精力讨论了什么是统计学以及回顾了这个专业的历史。原因是简单的。

统计学是研究波动性,不确定性和在不确定情况下决策的一门学科。由于这些在科学和工程中至关重要,统计学本质上是一门交叉学科科学。虽然统计学没有它自己的固有科学领域(如岩石,云,星星,或DNA),它是共同知识和共同知识继承的结合。

统计学即使曾经是数学的一个分支(如同拓扑学),现在已经不再是数学的一个分支了。不过它仍然大量地使用数学和计算工具。在过去二十年里这个专业的发展是巨大的。例如,统计学博士学位授予的数量已经稳步增长到与“其余”数学科学博士学位数量相当的地步。

如果我们希望分开的要求被满足,则我们需要让其他科学领域了解统计的重要作用,并建立其应有的地位。我们希望这个报告有助于这个目标。

7.2建立和保持核心的活动

当今科学中多方面机遇的探索导致了需要增加更多的专业知识以及更强的应用能力。

如果收集的数据和数据分析的需求呈指数增长,为什么这与核心的研究有关呢?这是因为统一的统计思想能够适应这种增长,而统计的核心领域是可以产生思想并与其他学科进行沟通的地方。也就是说,从统计核心能在数据分析进展中有效地进行组织和传播这一观点看,提升它的地位实际上对科学来说是一个重要的基础目标。

一个健全的统计核心(通过与应用活跃的联系)最有可能做到在已有的大量数据分析方法之间进行有效的消化、发展和研究交换整合。

在第四章,对核心而言我们确定了如下的这些机遇和需要:

●核心研究的分裂统计应用的范围正在不断增加。我们认为这种增长会产生这样一种无意识的结果——相对而言忽略了基础研究以及与之伴随的统计分裂的危险。

●人力资源问题在美国从事核心研究领域工作的研究人员一直在减少。人力资源问题注定要越来越坏,部分是由于进入统计专业人员的一般短缺,部分是由于统计外延领域使统计学家脱离了核心研究。

●新的基金方式一种新的可能的基金应该能够使统计学家去参加交叉学科活动来丰富基本统计研究,同时不会使他们脱离核心研究。

7.3加强合作活动

统计知识结构的显著特征体现在对于发展统计方法和参加多学科活动两方面所赋予的重要价值。例如,统计在生物学、医学、社会科学、天文学、工程学、政府政策和国家安全等方面有广泛的应用,反过来,这些应用成为统计新方法发展的源泉。虽然不同的人在方法研究和学科知识应用两方面有不同的侧重点,以及同样一个人在他们事业生涯的不同时期有不同的侧重点,本质上,统计学家在这两方面都有参与。

通过这些交流活动,统计学研发了一些能在其他科学技术中有所发现的关键工具。统计学家有助于挖掘出不同学科中似乎无关问题之间的公共特性,因此有助于或创造出在不同科学领域之间的协作和相互交流。

但是,正如Odom报告指出的,我们的研究还不够广泛和不够深刻:

在应用和多学科项目中,存在着误用统计模型以及科学家、工程师、社会科学家和其他统计方法的使用者的统计教育质量方面存在严重问题。由于观测产生了许多数据,要处理好这个问题,最关键的是要组织一支包括统计学家在内的研究梯队。

由第六章“科学和工业中的统计”,我们可以得出如下重要结论:

●分析现代生物学实验产生的大量数据和人类对医学干预反应的多样性,导致需要更多的统计学家,他们能与生物学家交流和设计新方法来指导试验设计和生物统计分析。

●存在一种有关软件的挑战,它涉及大量领域。一方面这对应于需要很广泛的统计方法,软件应把这些统计方法融合为一个开放的源头产品,另一方面挑战对应于缺少对这种框架相应的支撑。

●需要对交叉项目提供同等的长期资助,以便统计学家可以提出对真正的合作而言非常重要的科学见解。

7.4教育

我们已经从科学到工业的广大领域中认识到需要增加统计学知识和统计学家。如同Odom报告所说“对统计界的年轻人来说同时在科学以及工业和政府机构两方面有巨大的专业市场”。同时,国内后备人员不能满足这个职业的需求。再次引用Odom报告:“很高比例的研究生是国外出生的以及许多人毕业后仍然留在美国”。

在研究领域对统计专业需求增加的同时,对较低层次统计教育的需求有令人吃惊的增长:

●统计专业已经感到了在K-12教学中,由于引入统计AP课程引起的统计训练增强而带来的影响。这意味着许多学生带着前所未有的统计知识走进大学。

●修统计课程的本科生在1990-2000猛增45%。

这些境况意味着统计专业应该全盘考虑如何应对这种增长,以及如何建立一种统计教育架构使之能满足变化和增长的需求。下面是一些主要问题和对统计专业的需求:

●需要统计AP课程的教师以及在K-12的其他学科中有统计修养的教师。

●需要整合K-16课程,使之能考虑到较好的高中统计培训。

●需要在本科和研究生两个阶段中扩大统计辅修和主修的选择权。

●鼓励和使学生更深更广地学到一个或数个应用领域的知识。

●在研究生水平,一个很大的挑战是建立一个教学计划使之能提供有充分深度的,涵盖当前统计学家正在使用的工具。

●希望有更多的博士后训练机会来帮助近期毕业的研究生发展他们的专业技能。

统计的第二类挑战来自于它应该满足未来的需求。受过统计教育的人员增长不足以满足对统计专门技术需求的指数增长。这种趋势必须要引人注目地改变以便适应当前科学技术中大的、复杂的交叉学科研究问题对统计专门技术的高速需求。

毫无疑问,AP课程有助于在最低水平上补充统计后备人员。与此同时,针对数学学科整体的加强后备人员的计划,如VIGRE,是非常鼓舞人心的,但是对统计的特殊需求多次缺少敏感性。

7.5建议

当前统计职业面对很多挑战。本研讨会的科学规划对确定这个专业的广泛需要是非常有帮助的。在这份报告中,我们已经尽可能地总结这个研讨会讨论和陈述的重要部分。最后,可能会问我们是否会对统计学会和它的机构提出建议以便在正确的方向上引起他们的注意。把数学看作一个整体,Odom报告对NSF提出了下面非常有用的建议总述:

因此,NSF在数学上的主要目标应该是建立和保持美国数学科学在全球数学界的领袖地位,坚定地鼓励数学成为与其他学科和工业的一个活跃的和有效的合作者。NSF也应该确信能得到保质保量的数学学生,以便能满足国家在教学、在数学和其他学科中的科研、工业、商业和政府的需要。

●提升对统计科学的了解。统计是很难被归类的。在NSF,统计学是数学科学的一个分支,然而大多数统计学家认为统计不是数学的一个分支。现在统计学也和计算机科学(特别与机器学习)有紧密地联系,然而大多数统计学家也不认为统计学是计算机科学的一个分支。统计学本身是独立的一门科学,企图把统计学归入这个或那个学科只会加大对这个学科的误解。统计学家有责任更有效更明白地说明这门学科独特的能力。只要NSF相信,无论统计在哪里生根,统计就会繁荣,这是对统计最大的支持。

●增加对NSF统计项目的支持和增加自主性的支持为了避免遏制现在已很明显的统计快速增长的势头(在本文已有部分陈述),以及从大量呈现的机会中获益,有充分的理由NSF对统计的资源支持上应该有一个实质性的增加(某些特殊要求见下文)。另外,我们建议在DMS统计计划现有的组织结构基础上NSF给予其更大的自主权,着将是朝向统计建立其早就应该有的完整的学科地位的重要一步。

●发展更有弹性的基金型式新的统计和应用数学研究所(SAMSI)的创立是创建新的统计领域所要求的基金的优秀例子。然而,需求并不仅仅是团体上的。目前越来越多的个人研究者被包含在复杂的交叉学科项目中,或者包含在类似于运行一个实验室的项目中而不是做个人研究。这种变化的一个含意是需要学习先进技术和发展完善的方便使用者的软件。我们建议NSF做出新的鼓励那些新的创新者的基金安排,这种安排必须小心谨慎,不应该简单地从个人研究基金池中抽出这笔钱。

●加强统计核心的研究当统计领域多样化以及扩展后,统计核心分裂的危险大大地质性地增加了。我们必须把更多的精力放在知识的综合和有广阔应用的新理论和新方法的发展上。我们迫切希望NSF负责制定加强统计核心所必须的支持水平。

●发展新的统计教育模式在高中AP统计课程的增长,本科统计课程的注册人数的增加,以及对数据分析中计算技术的主要改进都强调了需要改革统计教育的K-16方式。研究生教育也需要再评估:保持科学核心部分的教学、培养能进行交叉学科研究的学生以及把计算机科学有关部分纳入课程这两者之间的平衡是各系今日面临的最难以平衡的主要活动。博士后培养计划和更广泛的继续教育也是这次报告版本论述的一部分。为了帮助统计学会发展新的合适的教育模式,以及能整体和系统地做好它,我们建议NSF赞助或资助一系列专题性的和共同协调的统计教育研讨会,以帮助制定在不同领域中进行改革的具体计划。这很自然地完成这个任务需要与关心和对统计教育负有责任的科学和教育组织进行合作。

附录A

研讨会纲要,计划

本附录包含了给与会者的程序(为了适应基金会代表的日程我们的程序作了一些变动)

近年来,仪器发展和计算效率的指数增长等技术进步使研究者们能收集大量数据。如物理学中从哈勃望远镜或卫星照片所收集的数据,基因和生命科学中的数据库以及工程和社会科学中有关因特网的数据等。所有这些数据的公共特征是量大,复杂和有噪声。这些巨大的数据集对统计创造了新的挑战和机遇,它的主要任务是收集数据,分析数据和从中提取信息。

同时,现在科学、工业和社会正在处理的大多数情况是天生的缺乏数据,如地下污染的控制和补救,复杂系统的可靠性,核设备和材料,防撞性交通工具的研究等。这些研究正在通过数学/计算机建模和统计分析的结合来做,因此需要最好地利用这些稀有的(因此价值无法衡量的)数据。这对统计学家提出了新的挑战和机遇,他们必须在极端复杂的情况下最优地设计试验然后从有限的数据中提取最大的信息。

因此,不管是有新的充足的数据,还是新的复杂的数据很少的情况,现在是评估当前统计领域的现状和需求来确认统计如何应对这些挑战的关键时刻了。根据这个背景,回答下面的问题是非常主要的:

●什么是统计学?

●把统计学定义为一门学科的明显特征是什么?

●在过去50年中,许多主要大学已经把统计和数学分开,统计有别于数学的特征是什么?

●假定统计是数学科学的一个专业(作为统计和概率专业),如何合理划分数学科学基金?

●现在和将来统计中的令人兴奋的研究方向和机遇是什么?

●统计和其他学科的互相影响是什么?特别,统计对这些学科的贡献是什么?这些学科如何从统计中受益?

●来自数学的工具用于统计,反之亦然。但是是否有足够多的包含统计和数学两方面的合作研究?如果不够,如何解决?

●有哪些应该有统计学家参加但是目前还没有统计学家参加的科研领域?

●在今后的二十年中,统计学科的目标是什么?

●为达到这些目标需要什么?可以从人力资源和设备等方面阐述。

●在国际舞台上,统计的作用是什么?

●基金趋势是什么?

●其他学科是如何感知到统计和统计学家的?

●统计学家是如何认识他们自己的?

注:本研讨会的所有目的是分析各种激动人心的统计研究方向以及统计作为一个学科的学科规律。

研讨会参加人员

组委会:

*JimBerger,DukeUniversity(杜克大学)

*PeterBickel,UCBerkeley(伯克利大学)

MaryEllenBock,PurdueUniversity(普渡大学)

LawrenceBrown,UniversityofPennsylvania(宾夕法尼亚大学)

SamHedayat,UniversityofIllinoisatChicago(伊利诺伊大学,芝加哥)

BruceLindsay,Chair,PennsylvaniaStateUniversity(宾州州立大学)

DavidSiegmund,StanfordUniversity(斯坦福大学)

GraceWahba,UniversityofWisconsin(威斯康新大学)

*表示也是讲演者

讲演者:

SirDavidR.Cox,OxfordUniversity,UK(英国牛津大学)

IainJohnstone,StanfordUniversity,IMSpresident(斯坦福大学)

JonKettenring,Telcordia

VijayanNair,UniversityofMichigan(密西根大学)

EricFeigelson,ThePennsylvaniaStateUniversity(宾州州立大学)

ChrisHeyde,AustralianNationalUniversity,Australian,andColumbiaUniversity(澳大利亚国立大学和哥伦比亚大学)

JoelHorowitz,NorthwesternUniversity(西北大学)

WernerStuetzle,UniversityofWashington(华盛顿大学)

WarrenEwens,UniversityofPennsylvania(宾夕法尼亚大学)

RichardSmith,UniversityofNorthCarolina,ChapelHill(北卡大学)

PhilippeTondeur,DivisionDirector,NSF/DMS

RobertEisenstein,AssistantDirector,NSF/DMS

AdriaanDeGraaf,ExecutiveOffer,NSF/DMS

RitaColwell,Director,NSF

JoeBordogna,DeputyDirector,NSF

其他与会者

RogerKoenker,UniversityofIllinoisUrbana-Champaign(伊利诺伊大学)

MartinaMorris,UniversityofWashington(华盛顿大学)

AlanAgrest,UniversityofFlorida(佛罗里达大学)

WingWong,HarvardUniversity(王永雄,哈佛大学)

BruceLevin,ColumbiaUniversity(哥伦比亚大学)

MichaelStein,UniversityofChicago(芝加哥大学)

PeterGuttorp,UniversityofWashington(华盛顿大学)

KarenKafadar,UniversityofColorado-Denver(科罗拉多-丹佛大学)

JeffWu,UniversityofMichigan(吴建福,密歇根大学)

AlanKarr,NISS

ReginaLiu,RutgersUniversity(拉特格斯大学)

WilliamPadgett,UniversityofSouthCarolina(南卡大学)

PeterHall,AustralianNationalUniversity,Australian(澳大利亚国立大学)

WillemvanZwet,Eurandom,TheNetherlands荷兰

NancyReid,UniversityofToronto,Canada(加拿大多伦多大学)

KeithWorsley,McGillUniversity,Canada(加拿大麦吉尔大学)

RobertTibshirani,StanfordUniversity(斯坦福大学)

BraniVidakovic,GeorgiaTech(乔治亚理工)

MitchellGail,NIH(美国国立卫生研究所)

SteveMarron,UniversityofNorthCarolinaChapelHill(北卡罗来纳大学教堂山分校)

GaryMcDonald,GeneralMotorsCo.(通用汽车公司)

AugustineKong,deCODEGenetics,Iceland冰岛

DavidMadigan,RutgersUniversity(拉特格斯大学)

StanleyWasserman,UniversityofIllinoisUrbana-Champaign(伊利诺伊大学厄本那-香槟分校)

WilliamB.Smith,AmericanStatisticalAssociation,ExecutiveDirector(美国统计学会执行理事)

MironStraf,NationalAcademyofSciences,ASAPresident(国家科学院,美国统计学会会长)

MarkKass,CarnegieMellon(卡内基梅隆大学)

DianeLambert,BellLabs(贝尔实验室)

感谢:在本文的翻译过程中,得到了统计与金融系诸位同仁的大力帮助,特别是杨亚宁教授仔细地审阅了大部分章节,也感谢李莉,吴振翔,叶五一,谭长春,陈明星,靳韬,潘婉彬,金百锁等人的工作。

THE END
1.数据挖掘算法(AnalysisServices–数据挖掘)MicrosoftLearn数据挖掘算法的类型 应用算法 算法详细信息 请参阅 “数据挖掘算法”是创建数据挖掘模型的机制。为了创建模型,算法将首先分析一组数据并查找特定模式和趋势。算法使用此分析的结果来定义挖掘模型的参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。 https://technet.microsoft.com/zh-cn/library/ms175595(v=sql.100).aspx
2.数据挖掘的基本步骤和流程解析请阐述数据挖掘的基本过程和步骤5. 结果验证与优化:对挖掘结果进行验证,优化模型参数,提高挖掘效果。 6. 知识应用与反馈:将挖掘结果应用于实际业务,收集反馈,为后续挖掘提供依据。 总之,数据挖掘的基本步骤和流程是相互关联、循环往复的。 在实际操作过程中,需根据业务需求和数据特点灵活调整,以达到最佳的挖掘效果。 https://blog.csdn.net/m0_67484548/article/details/142665300
3.数据挖掘的挖掘模型有哪些帆软数字化转型知识库数据挖掘的挖掘模型有分类模型、回归模型、聚类模型、关联规则模型、序列模式模型、神经网络模型。分类模型用于将数据分成不同的类别,回归模型用于预测连续的数值型数据,聚类模型用于将数据分成不同的组,关联规则模型用于发现数据之间的关联,序列模式模型用于挖掘数据的时间序列模式,神经网络模型用于处理复杂的数据模式。分类https://www.fanruan.com/blog/article/593352/
4.数据仓库与数据挖掘技术—数据挖掘分类及过程模型数据挖掘:首先根据对问题的定义明确挖掘的任务或目的,如分类、聚类、关联规则发现或序列模式发现等。然后选择算法 结果解释与评估:对发现的模式进行可视化,或者把结果转换为用户容易理解的其他表示形式 Fayyad过程模型从某种意义上来说是面向理论,偏向技术的模型,而不是面向工程、面向应用的模型。虽然有模型的评估,但侧重https://www.jianshu.com/p/da25173289b9
5.数据挖掘的步骤包括什么在数据预处理后,可以通过可视化、统计等方法对数据进行探索性分析,以初步了解数据的分布和特征。这有助于确定后续分析的方向和重点。 4、特征工程 根据数据探索的结果,选择与待挖掘主题密切相关的特征,并构造新的特征以更有效地表示数据。特征工程是数据挖掘过程中非常关键的一步,直接影响模型的性能和效果。 https://www.pxwy.cn/news-id-81213.html
6.数据挖掘的过程包括:问题定义数据采集数据探索[填空1数据挖掘的过程包括:问题定义、数据采集、数据探索、[填空1]、数据挖掘和模型评价与部署。参考答案:1、数据预处理 点击查看答案&解析进入小程序搜题你可能喜欢关于带薪年假制度,下列说法正确的是 A. 用人单位安排职工休年休假,但是职工口头提出不休年休假的,用人单位可以只支付其正常工作期间的工资收入 B. 对职工https://m.ppkao.com/wangke/daan/9fae4403b31242df8b9065eeeaf10ed4
7.数据挖掘的步骤特征工程mob64ca12e83232的技术博客在数据挖掘的过程中,特征工程是一项不可忽视的工作。通过正确的特征选择、转换和创造,可以提升模型的表现,使得数据更好地服务于实际问题。回顾整个数据挖掘的过程,我们可以看到,特征工程不仅是技术的实现,更是业务理解的深度反映。 在未来的数据科学项目中,希望每一个数据挖掘的参与者都能更加强调特征工程的重要性,为https://blog.51cto.com/u_16213397/12325092
8.python数据挖掘算法的过程详解python这篇文章主要介绍了python 数据挖掘算法,首先给大家介绍了数据挖掘的过程,基于sklearn主要的算法模型讲解,给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下+ 目录 1、首先简述数据挖掘的过程 第一步:数据选择 可以通过业务原始数据、公开的数据集、也可通过爬虫的方式获取。 第二https://www.jb51.net/article/238548.htm
9.数据挖掘的流程包含哪些步骤?数据挖掘是从大量数据中挖掘出有用的信息和模式的过程。它涉及多个步骤,从数据收集到模型评估。以下是数据挖掘的常见流程步骤: 理解业务目标:在进行数据挖掘之前,需要明确业务目标和问题。确定要解决的问题以及所需的结果有助于指导整个流程。 数据收集:在这一阶段,需要收集与业务目标相关的数据。数据可以来自各种来源,https://www.cda.cn/view/202981.html
10.什么是数据挖掘?——数据挖掘的过程,方法和实例1. 数据挖掘的过程 数据挖掘的过程通常包括以下步骤:问题定义、数据采集、数据处理与清洗、特征选择与转换、模型构建与评估、模型应用与验证。首先,我们需要明确问题定义,确定我们想要从数据中获取什么样的信息。然后,进行数据采集工作,收集相关的数据。接下来,对数据进行处理和清洗,清除异常值和缺失数据。然后,进行特征https://www.jiandaoyun.com/fe/sjwjsjwjdg/
11.数据挖掘论文范文8篇(全文)而且对于问题数据还可以进行精准的识别与处理分析, 所以应用的频次更多。人工神经网络依赖于多种多样的建模模型来进行工作, 由此来满足不同的数据需求。综合来看, 人工神经网络的建模, 它的精准度比较高, 综合表述能力优秀, 而且在应用的过程中, 不需要依赖专家的辅助力量, 虽然仍有缺陷, 比如在训练数据的时候耗时较https://www.99xueshu.com/w/filedo12vrm4.html
12.大数据挖掘技术和流程数据理解指的是对用于挖掘数据的预处理和统计分析过程,有时也称为ETL过程。主要包括数据的抽取、清洗、转换和加载,是整个数据挖掘过程最耗时的过程,也是最为关键的一环。数据处理方法是否得当,对数据中所体现出来的业务特点理解是否到位,将直接影响到后面模型的选择及模型的效果,甚至决定整个数据挖掘工作能否完成预定目标https://gxq.guiyang.gov.cn/zjgxq/zjgxqxyzs/zjgxqxyzsdsjqy/201412/t20141225_17120452.html
13.大数据在高等教育领域中的应用及面临的挑战国家政策法规在大数据分类和预测分析中,采用的算法或方法有很多。例如,Sivasakthi应用学生人口统计数据以及编程导论课程的成绩,采用multilayer perception, Na?ve Bayes, SMO, J48和REPTree等分类算法对学生进行分类,并利用基于上述分类算法的预测数据挖掘模型,对修读编程导论课程的一年级本科生的成绩进行了预测。https://manager.hkxy.edu.cn/s.php/pgztw/item-view-id-54267.html
14.商业环境中的数据科学:课程开发的技能分析虽然最广泛使用的分析方法是CRISP-DM,即数据挖掘的跨行业标准流程,但数据科学还没有一个既定的流程模型。由于数据挖掘过程将从数据中发现模式的总体任务分解为一组定义良好的子任务,因此它也有助于构建关于数据科学的讨论。图2显示了基于与SFIA相关技能相关的活动和任务的适用于数据科学的过程模型。模型的核心是数据管https://maimai.cn/article/detail?fid=1765949956&efid=xiMUYryvYPolD-afmus_4g