全球统计研究的多元化应用与实践性发展
——国际统计学会第58届大会纪要
吴翌琳李伟
国际统计学会(InternationalStatisticalInstitute,ISI)第58届大会于2011年8月21-26日在爱尔兰首府都柏林召开。ISI成立于1885年,每两年召开一届的世界统计大会是国际统计学界最高水平的统计学术会议。来自120多个国家和地区的2300多名代表参加这次世界统计盛会,其中,来自中国大陆的作者共69人。
一、统计学的历史与发展
以”对统计学的过去、现在和未来的思考”为题的分会场,邀请了三位世界著名统计学家从各自角度对统计学的演变与发展作了广泛而深入的讨论。
Cox比例风险模型、Box-Cox变换等统计方法的提出者DavidCox爵士(英国,UniversityofOxford)报告题目是”目前统计理论的挑战”。他指出,过去的100年统计方法和理论有了重大发展。这些发展是由于不断扩大的应用领域的挑战,测量、数据采集和分析以及它们之间平衡的技术快速演变引起的。从粒子和天体物理学到遗传学和公共事务的许多方面产生的非常大量的数据,使新的统计方法成为当前统计科学面临的重大挑战。
著名的稳健统计学家PeterJ.Huber(瑞士)的报告为”数据分析的理论与实践绪论”。作者从过去50年从事数据分析和统计中看到,一个实际数据分析家必须结合以下四个领域:战略思维、处理大量而不同类的数据集、为统计计算提供适当的语言支持、处理复杂的近似模型(approximatemodels)。因果模型、缺失数据分析系统理论和方法、EM算法等的提出者DonaldB.Rubin(美国,HarvardUniversity)的报告题目为”统计领域的演变”,作者回顾了统计学从其早年时到现在的演变,并着重讨论了贝叶斯(Bayesian)、因果关系(causality)、设计(design)和模拟(simulation)。
二、基础统计的前沿进展
(一)数理统计的新挑战
模型选择与变量筛选方面,RuiWang,StephenW.Lagakos(美国,HarvardSchoolofPublicHealth)的报告,提出了一种基于限制置换方法(RestrictedPermutationMethods)的变量筛选方法,并提供了相应的理论论证和应用指导。HannesLeeb(奥地利,UniversityofVienna)、AdityanandGuntuboyina(美国,YaleUniversity)报告了”单变量正态均值压缩估计”。在线性回归的框架下,研究给定相应新解释变量和训练集的条件下新反应变量均值的估计。YuhongYang(美国,UniversityofMinnesota)的”基于模型选择的高维回归自适应估计”构建了当q在[0,1]整个范围时能同时达到最小最大(minimax)收敛速度的基于模型选择的估计量,并讨论了如何基于参数化指数(parametricnessindex)区分q=0(严格稀疏)的情况。
在贝叶斯方向,SuryaT.Tokdar(美国,DukeUniversity)的”高斯过程先验密度回归”探讨了高斯过程在条件密度的贝叶斯分析中用作先验分布的理论性质,将重标度的高斯过程模型(rescaledGaussianprocessmodels)嵌入半参数密度回归模型(semi-parametricdensityregressionmodels)以实现局部调节(localcoordinate)。SubhashisGhosal(美国,NorthCarolinaStateUniversity)以”无限维后验分布的收敛性”为题,概述了十年来无限维后验分布收敛性的最显著发展,特别强调了后验分布不费力地选择正确模型和适应未知光滑度(levelofsmoothness)的能力。
在因果推断领域,JudeaPearl,EliasBareinboim(美国,UniversityofCaliforniaLosAngeles)的报告以”外部有效性和可传送性”为题,定义了”可传送性”(transportability)或”外部有效性”(externalvalidity)。基于在感兴趣的总体间表达异同的”选择图”(selectiondiagrams),作者提出了决定目标总体的因果关系能否从不同总体的实验发现进行推断的程序。如果可以,该程序将给出需做的实验和观测研究。MiguelHernan(美国,HarvardSchoolofPublicHealth)的报告”因果推断的G-公式”讨论了处理复杂纵向数据因果推断的参数G-公式(parametricg-formula)的最新改进、软件发展和实际应用。
(二)纵向数据的复杂分析
三、应用统计的多元实践
作为应用学科,统计学研究的发展从来不是”单打独斗”,统计与其他实用学科结合而形成交叉或边缘学科,如生物统计、医药统计、工业统计、金融统计等,都是当前发展很快的热点,统计在经济社会领域方方面面的应用,正体现了统计学强大的分析力。本次大会80%以上的专题涉及到现代统计学在各种研究中的应用。
(一)SNA的新变化
目前SNA2008已经发布,本次大会有一些学者便基于SNA2008中账户的变化尤其是金融账户界定范围的变化进行了专项研究。葡萄牙中央银行的Lima,Filipa和FonteSanta,Sílvia着重分析了SNA2008中金融部门界定范围的两个变化:控股公司的纳入和新的子部门划分结构。此外对于其他的部门,两位学者也探讨了如何利用额外的数据源,如证券综合统计系统和中央信贷资料库来帮助界定住户部门以及为住户服务的非盈利部门。奥地利国家银行的MichaelAndreasch也对比了SNA93/ESA95与SNA2008/ESA2010中金融部门的界定范围,认为两者之间主要的区别在于将”除了保险公司和养老基金之外的金融机构”分解为三个子部门,基于新的子部门划分结构,需要正确的界定控股公司、总部和金融租赁公司,并进一步分析了奥地利目前存在的数据源以及为了适应SNA2008的变化所需要做的修改。
(二)金融风险的统计度量
关于金融财务风险的度量,学者RodrigoCifuentes,CarlosMadeira,FelipeMartínez,RubénPoblete采用修正的偿债比率(MDSR),以及包含MDSR、失业率、性别、年龄、婚姻状况等因素的Probit模型来测度一个家庭的财务状况。他们将该指标及模型应用于一份实际调查数据,结果表明家庭中主要成员的性别、年龄、婚姻状况会降低该家庭的财务风险,而MDSR、失业率与该家庭的财务风险成正比。
关于金融环境与投资者行为之间的关系,学者NombuleloGumata和NonhlanhlaNhlapo对南非的非银行金融机构的投资行为做了分析,他们认为南非金融部门的成长主要是靠非银行金融机构的拉动,尤其是保险、养老金和公积金。鉴于目前南非的投资法规、资产负债管理政策等,各机构的资产配置主要是股票和定息债券,在授信或贷款中的作用尽管已经有所增长,但还是微乎其微的。学者Nunes,Lígia则是对葡萄牙在2008年全球金融危机以来的金融情况与投资者行为做了分析,从2007年年初金融市场出现衰退后,葡萄牙的投资者逐渐转向增加存款,股票和共同基金对投资者的吸引力降低;随着PSI-20指数的变化,股票和共同基金的投资在2009年有所回升,但是2010年下半年又有所回落。
(三)CPI编制方法的改进
CPI的度量方法在国际统计学界受到广泛的重视,本次会议专门设立一个讨论CPI度量与调整方法的专题,与会专家对CPI中的金融中介服务,CPI中的季节调整问题,自有房屋在CPI计算中的处理进行了介绍。
爱尔兰国家统计局的PaulJ.Crowley介绍了价格指数编制中的一个难点,住房消费价格指数的编制方法和改进。作者指出所有者自住房屋消费物价指数的编制相对复杂,并简要地介绍了目前各种理论方法。欧盟正在制定统一的自住房屋的价格指数编制,旨在在欧盟层面建立一个共同的房屋价格指数的方法框架,并获得了一系列的自住房屋指数。这些新的指数既符合国家数据需要,又保持与欧盟的HPI和自住房屋指数发展的一致性。
(四)市场调查模型探讨
四、官方统计的变革和发展
对于官方统计的研究和探讨一直是国际统计大会最重要和活跃的内容之一。本届大会关于官方统计的主要论题可概括为如下四个方面:变化环境中官方统计面临的挑战和变化;官方统计数据的质量评价和控制;官方统计的生产架构和新技术的应用;行政记录在官方统计中的应用。
(一)变化环境中官方统计面临的挑战及应对
(二)官方统计数据的质量评价和控制
(三)官方统计的生产架构和新技术的应用
(四)行政记录在官方统计中的应用
五、统计软件的广泛应用
(一)R软件在多个统计领域的应用
“入门级的R软件”专题,由R核心小组(RCoreTeam)成员PeterDalgaard(丹麦,CopenhagenBusinessSchool)组织,分别介绍R的图形用户界面、在应用计量经济学中与统计教育中的应用。
统计方法方面,DanielSimpson,FinnLindgren,HvardRue(挪威,NorwegianUniversityofS&T)报告了”快速近似推断与INLA:过去、现在与未来”,介绍了INLA近似和他们开发的R包r-inla。目前潜高斯模型(LatentGaussianmodels)非常流行且灵活,但这些模型的贝叶斯推断却棘手且费时。最近集成嵌套Laplace逼近(IntegratedNestedLaplaceApproximation,INLA)被提出用作确定性快速近似推断(deterministicfastapproximateinference)。ManuelWiesenfarth,TatyanaKrivobokova(德国,UniversityofGoettingen)、StefanSperlich(瑞士,UniversityofGeneva)的报告”基于Volume-of-Tube的惩罚样条估计量的检验”介绍了R包AdaptFitOS,其利用空间自适应惩罚样条(spatiallyadaptivepenalizedsplines)拟合半参数回归模型和计算同时置信带(simultaneousconfidencebands)。SvenKnoth(德国,HelmutSchmidtUniversity)的报告”计算ARL和其他控制图性能的测度:数值计算和软件”介绍了一个统计过程控制(StatisticalProcessControl)的R包spc。
生物统计方面,MichaelG.Schimek(奥地利,MedicalUniversityofGraz)的”Top-kRankedLists的探索性非参数和图形程序”报告了用于基于秩的基因组数据集成(Rank-basedGenomicDataIntegration)的R包TopKLists。MiguelA.Fernández,SandraBarragán,CristinaRueda(西班牙,UniversidaddeValladolid)、ShyamalD.Peddada(美国,NationalInstituteofEnvironmentalHealthSciences)的”利用次序限制的统计程序从细胞周期记录分析循环数据”介绍了用于循环数据等渗推断(IsotonicInferenceinCirculardata)的R包isocir。
社会经济统计方面,MatthiasTempl,AndreasAlfons,PeterFilzmoser(奥地利,ViennaUniversityofTechnology)的报告”社会凝聚力和贫困指标的稳健半参数估计”则介绍了用于社会排斥和贫困指标的估计的R包laeken。
(二)统计数据的可视化
统计数据若不加以描绘整理,只会枯燥无味,让读者索然无趣,因此,统计数据的图像化和可视化,成为统计研究的一个重要的专题,本次大会专门设立探讨应用软件实现数据可视化的专题。
在可视化方面,DeborahNolan(美国,UniversityofCalifornia,Berkeley)、JamisPerrett(美国,TexasA&M)、DuncanTempleLang(美国,UniversityofCalifornia,Davis)报告了”统计课程中的可视化”。WayneOldford,AdrianWaddell(加拿大,UniversityofWaterloo)分别合作报告了”利过探索低维空间的高维数据可视化聚类”和”RnavGraph:一个探索高维数据空间的可视化工具”,他们开发的R包RnavGraph基于一种新的图形理论结构,将低维空间表示成图的节点,将空间转换表示成图的边,沿着这些图行走将揭示有意义的结构。如果节点是一维的,行走对应平行坐标图(parallelcoordinateplot);如果节点是二维的且边仅在共有一个变量的2维空间之间存在,行走能动态地表示成散点图序列(seriesofscatterplots),通过3d刚性转换(3drigidtransformation)表示转变。利用可视化工具R包RnavGraph,可以展示这些图如何用来动态探索高维数据以可视化地揭示聚类结构。尽管这些图的规模以维数的平方增长,但也存在许多方法仅构建每张图的更有趣的区域。
六、统计教育的模式探索
(一)教育统计研究
(二)统计教学方法
统计学在很多专业中都占据着举足轻重的地位,无论感兴趣与否,大多数学生都必须接受统计学的训练,如何使学生喜欢上这门”枯燥”甚至有些”令人头疼”的学科,对统计学的推广起着重要的推动作用。本届大会专门设立多个分会场对此进行了深入的探讨。
“一个以研究为基础的大学统计课程”(JiyoonPark,美国明尼苏达大学统计教育系)重点介绍了作者及其团队开发的CATALST实验课程,该课程利用随机及重抽样方法的思想向学生讲授统计推断,使学生参与模型启发活动(MEA),通过描述、解释、建模、检验、修正解决现实问题,开发其统计思维。
“用畅销书替代教科书:将畅销书融入大学统计课程之中”(PatrickE.Murphy,爱尔兰都柏林大学数学科学学院)、”畅销书及视频剪辑:两种吸引学生学习统计的方式”(DamienG.Raftery,爱尔兰卡洛技术研究院商业与人文系)及”商业统计教室中的畅销书”(MichelleSisto,摩纳哥国际大学)等均将寓教于乐的思想引入统计教学中,大大激发了原本由于专业需求而被动学习统计的学生的学习热情。
七、水资源发展的统计方法应用
(一)水资源环境核算
澳大利亚统计局的PeterHarper介绍了水资源综合环境经济核算(SEEAW)的目的和意义,讨论了SEEAW的开发情况,并在环境经济核算框架内介绍了SEEAW的结构和内容。讨论了如何将SEEAW应用于制定政策,以及如何处理各国在SEEAW实施过程中遇到的问题。
加拿大统计局环境核算与统计司FranoisSoulard的论文介绍了加拿大的新水供应和需求统计与核算,加拿大统计局环境核算与统计司在水统计领域的研究为加拿大整套水账户的编制起到了促进作用。但是加拿大水账户的编制仍然面临许多问题,例如环境调查通常以实物单位来测度各项指标,这并不适合于水质核算。
中国水利水电科学研究院水资源所的甘泓介绍了中国水资源核算的情况,中国水利部在国家统计局和联合国统计司的协助下于2006年11月启动了中国水资源核算项目,目的是基于国际经验和标准(尤其是SEEAW)并结合中国的实际情况来建立水资源核算框架,为水资源管理提供支持。
(二)水资源保护和管理
中国人民大学环境学院的马中和昌敦虎从公共财政的视角对中国城市居民用水的定价问题进行了研究和探讨,认为中国城市居民用水目前实行的是非全成本定价,公共财政应该承担一部分城市居民用水成本,其原因有三:(1)要满足公众用水的基本需求;(2)城市用水仍然是自然垄断的;(3)当公众纳税时,他们有权获悉家庭用水情况。作者为了实现节水和控制污染的目标,应该根据当地的实际情况制定水价,而不是统一定价。
(三)水资源可持续发展与创新
水资源的保护和可持续发展,不是一个行业能够完成的,需要整个经济体的支持,而技术创新的发展,能够为水资源的保护和科学应用提供技术和管理支持,保障各种资源的可持续发展,因此,来自中国人民大学的研究团队组织了”中国的水资源供求发展:建立一个创新型国家”专题,将水资源的合理利用与保护与技术创新结合起来,分别从国家层面、产业层面和区域层面对这个问题进行多角度探讨。
中国人民大学的吴翌琳和魏瑶根据压力-状态-响应模式构建了水资源发展指数,将社会因素和经济指标与自然资源指标结合起来研究人类活动是如何影响水资源的。笔者基于15年的国际比较数据,采用结构方程模型,探索了水资源发展与国家创新能力的关系。
中国人民大学的赵彦云和陈琳根据投入产出模型分析了中国水资源和经济因素之间的关系,通过研究发现了各经济部门对水资源消费的差异,包括直接消费和间接消费。根据可比价投入产出表,利用结构分解技术发现每年国内需求、出口和技术进步对水的生产与供应部门的影响是不同的。
八、人口老龄化和官方统计
国际官方统计大会作为作为本届大会的卫星会议同期举行。大会主题是”人口老龄化和官方统计”,与会学者围绕发达国家的人口老龄化、发展中国家的人口老龄化、人口老龄化对官方统计的调整、人口老龄化的经济和社会政策影响等专题展开讨论。
(一)发达国家的人口老龄化
2008年,世界上老龄人口(65岁以上)比重最高的前25个国家均为发达国家。美国普查局WanHe博士指出了人口老龄化的5个发展趋势:(1)到2020年65岁以上人口数将超过5岁以下人口数。(2)发展中国家老龄化速度将超过大多数发达国家。(3)老龄人口的平均年龄也在增加。(4)人口老龄化伴随着人口总数下降。(5)在欧洲国家越来越多的老年人(尤其是妇女)将独自生活。牛津大学人口研究中心的DavidColeman教授认为人口转型带来的较低的生育率和死亡率是人口老龄化的主要原因,世界人口将在几代之内达到新的稳定的年龄结构。
(二)发展中国家的人口老龄化
牛津大学的GeorgeW.Leeson博士以拉美和加勒比海国家为例分析了发展中国家的人口老龄化问题。他指出,随着生育率下降,预期寿命增加,老人们度过了更长更健康的晚年。技术改变了就业模式,社会道德观念影响着家庭形式、亲属关系和代际关系,医疗水平的提高演延长了健康寿命,老龄的含义正在发生改变。他提出应对老龄化社会的几个策略:1)使金融体系适应预期寿命增加的变化;2)从急救治疗逐渐转向公共健康和长期保健;3)提供一生的学习机会;4)维持家庭和社区关系;5)使医疗保健、养老金等的转移更加便利;6)处理与环境的相互影响。
(三)人口老龄化对官方统计的挑战
(四)人口老龄化的经济和社会政策影响
九、体会与展望
整个大会在热烈讨论与积极交流的氛围中进行,充分而友好的交流,充分体现了全球统计人坦诚、合作、进取的学术态度。对中国统计事业整体的发展,也有以下几个重要启示:
1.现代技术在统计工作中的应用加速。
随着信息技术的迅猛发展和实用化、产业化进程的不断加快,人们需要更加精准地获取信息,更加精细地观测数据变化,更加高效地存贮、分析、处理和表达海量的统计数据。以计算机辅助调查技术、数据挖掘技术、数据库技术、空间信息技术(遥感(RS)、地理信息系统(GIS)和全球定位系统(GPS))为代表的现代技术在统计中的应用不断扩大,有助于变革统计调查模式,再造统计调查流程,完善统计管理机制,有效提高统计能力、数据质量和政府统计公信力。
2.统计的多元化应用值得推广。
随着社会和科学技术的蓬勃发展,统计学与其他学科的相互渗透与影响更加广泛深入,并应用于各个领域,从本届大会的议程设计可以看到,统计的多元化应用让这一科学呈现出”百花齐放,百家争鸣”的局面。而我国统计应用的程度相对集中于学术界在经济领域方面的研究,而其他行业对这一技术的应用,较多的只停留在描述层面,还未能对本行业的统计数据的搜集整理和进一步的应用分析进行深入的探讨。统计应用的多元化与平民化成为中国统计发展的新目标。
3.统计教育普及势在必行。
本届大会还专门组织了一个青年统计学家互相见面和讨论的机会,旨在促进各国年轻统计学者的交流。而中国高校统计教育的普及程度与外国高校相比还远远不足,统计课程的开设,不应该只局限于财经类院校,而应该全面普及。而且,应该向外国的学校学习更为生动有趣吸引学生的统计教学模式,让大家感受到这是一门生动而具有实践意义和挑战性的学科,而非枯燥的数据堆积。
总体而言,国际统计学会第58届大会充分展现了全球统计研究的多元化应用与实践性发展,为统计学者提供了良好的交流平台,更为中国统计事业的发展提供了宝贵的经验。