ACMSIGKDD数据挖掘及知识发现会议1清华大学计算机系王建勇1、KDD概况ACMSIGKDD国际会议(简称KDD)是由ACM的数据挖掘及知识发现专委会[1]主办的数据挖掘研究领域的顶级年会。
它为来自学术界、企业界和政府部门的研究人员和数据挖掘从业者进行学术交流和展示研究成果提供了一个理想场所,并涵盖了特邀主题演讲(keynotepresentations)、论文口头报告(oralpaperpresentations)、论文展板展示(postersessions)、研讨会(workshops)、短期课程(tutorials)、专题讨论会(panels)、展览(exhibits)、系统演示(demonstrations)、KDDCUP赛事以及多个奖项的颁发等众多内容。
由于KDD的交叉学科性和广泛应用性,其影响力越来越大,吸引了来自统计、机器学习、数据库、万维网、生物信息学、多媒体、自然语言处理、人机交互、社会网络计算、高性能计算及大数据挖掘等众多领域的专家、学者。
KDD可以追溯到从1989年开始组织的一系列关于知识发现及数据挖掘(KDD)的研讨会。
自1995年以来,KDD已经以大会的形式连续举办了17届,论文的投稿量和参会人数呈现出逐年增加的趋势。
2011年的KDD会议(即第17届KDD年会)共收到提交的研究论文(Researchpaper)714篇和应用论文(IndustrialandGovernmentpaper)73篇,参会人数也达到1070人。
下面我们将就会议的内容、历年论文投稿及接收情况以及设置的奖项情况进行综合介绍。
此外,由于第18届KDD年会将于2012年8月12日至16日在北京举办,我们还将简单介绍一下KDD’12[4]的有关情况。
2、会议内容自1995年召开第1届KDD年会以来,KDD的会议内容日趋丰富且变的相对稳定。
其核心内容是以论文报告和展版(poster)的形式进行数据挖掘同行之间的学术交流和成果展示。
KDD录用的论文以研究论文为主、辅以一定数量的应用论文,以及少量的系统演示论文。
依附于KDD年会的KDDCUP竞赛也是会议的一项重要内容。
此外,会议还包括特邀主旨报告(keynotepresentations)、辅导报告(tutorials)、专题讨论(panels)、研讨会(workshops)以及工业实践及展览(Industrialpracticeexpotrack)等内容。
1.研究主题(ResearchTrack)每年的KDD年会结束后不久,来年的会议组织者会发布论文征文通知。
征文通知中会列出论文的各种投稿要求,包括会议感兴趣的主题、评价标准以及格式等。
从KDD’12官方网站的征文通知[5]可以了解到,KDD’12感兴趣的研究类主题主要包括关联分析(associationanalysis)、分类与回归分析算法(classificationandregressionmethods)、半监督式学习(semi-supervisedlearning)、聚类(clustering)、因式分解(factorization)、迁移学习和多任务学习(transferandmulti-tasklearning)、特征选择(featureselection)、社会网络(socialnetworks)、图数据挖掘(miningofgraphdata)、时空数据分析(temporalandspatialdataanalysis)、可扩展性(scalability)、隐私保护(privacy)、安全性(security)、可视化(visualization)、文本分析(textanalysis)、万维网挖掘(Webmining)、移动数据挖掘(miningmobiledata)、推荐系统(recommendersystems)、生物信息学(bioinformatics)、电子商务1注:本文的一个缩短版本(参见以下链接:/wangjy/CCCF_KDD.pdf)发表于《中国计算机学会通讯》2011年的第12期。
论文的评价标准主要包括新颖性(novelty)、技术质量(technicalquality)、影响力(potentialimpact)、论文表达的清晰度(clarityofwriting)等指标。
会议期间,KDD研究论文报告按照主题会被分成了若干个分会(session),被录用论文的作者在相应的分会做报告。
以KDD2011[6]为例,该年会的分会主题包括分类(Classification)、矩阵分解(Matrixfactorization)、图分析(Graphanalysis)、Web用户建模(Webusermodeling)、用户建模(Usermodeling)、在线数据和数据流(Onlinedataandstreams)、文本挖掘(Textmining)、隐私保护(Privacy)、社会网络(Socialnetworks)、理论(Theory)、频繁集(Frequentsets)、非监督式学习(Unsupervisedlearning)、图挖掘(Graphmining)、可扩展性(Scalability)和可预测建模(Predictivemodeling)。
2.应用主题(IndustrialandGovernmentTrack)应用主题类论文的发表和作者的与会报告是KDD年会的重要组成部分,也是KDD相对于很多其他会议的特色之一。
由于数据挖掘的广泛应用性,应用主题类论文受到数据挖掘研究人员和开发者的重视。
相对于很多其他会议,KDD应用主题类论文的征文启事和录取更为规范。
从KDD’12官方网站的征文通知[5]可以看出,该年会的企业及政府应用主题征求描述针对企业和政府部门数据挖掘解决方案的论文投稿,并特别欢迎某些在数据挖掘技术应用过程中能够促进某些实际问题的理解或提出新的挑战性研究问题的论文。
KDD应用主题类论文涉及的应用领域主要包括电子商务、医疗、国防、公共政策、财务、工程、环境、制造业、电信、政务等。
被KDD录用的应用主题类论文又被分为以下3大类:●对企业、政府或其他机构带来实际价值的数据挖掘系统●对企业、政府或其他用户(例如科学研究或医疗行业)带来显著价值的知识发现●有潜力带来价值的前沿应用和技术3.KDDCUP竞赛KDDCUP是ACMSIGKDD[1]组织的有关数据挖掘和知识发现领域的年度赛事。
作为KDD年会的重要组成部分,自1997年以来已经连续举办了15届,目前是数据挖掘领域最有影响力的赛事。
通常每年在KDD会议网站上会公布当年的KDDCUP主题及各个子任务、数据集、考核指标等。
优胜者名单会在KDDCUP网站公布,并在会议期间颁奖。
纵观历年的KDDCUP赛事,我们不难发现其主题的多样性。
往届的KDDCUP任务涉及到面向利润(升力曲线)优化的直接营销、计算机网络入侵检测、在线零售网站点击流分析、分子生物活性和现场蛋白质预测、生物医学文档和基因角色分类、网络挖掘与用户日志分析、粒子物理学和同调蛋白质预测、互联网用户搜索查询分类、基于图像数据的肺栓塞检测、客户推荐、乳腺癌、客户关系预测、学生成绩评估、以及基于雅虎音乐数据集的音乐推荐等众多领域。
在往届的KDDCUP竞赛中,某些华人组成的参赛队伍也曾取得了不俗的成绩。
例如,KDDCUP史上首次包揽了全部子项目冠军的团队就来自香港科大,其队员包括DouShen(沈抖)、RongPan、JiantaoSun、JunfengPan、KanghengWu、JieYin、QiangYang(杨强)。
4.系统演示(ExhibitandDemoTrack)KDD会议设有一个系统演示分会场,用于让数据挖掘研究人员或从业者以交互的方式向与会者展示他们所开发的数据挖掘软件系统(或组件)的设计理念、实现技巧以及功能等。
5.工业实践展(IndustryPracticeExpoTrack)工业实践展是KDD从2011年开始新增加的一部分会议内容,主要由特邀报告和专题讨论组成。
其主要目的是召集一流的业界或政府部门的数据挖掘实践者和与会者共享他们的一些有关数据挖掘应用的体会和经验。
KDD’11[6]共设了16个主题研讨会。
KDD’11[6]的专题讨论主题为“来自数据挖掘竞赛的经验教训”(LessonsLearnedfromContestsinDataMining)。
9.特邀主题报告(keynotepresentations)每年的KDD年会都会邀请在某些数据挖掘领域做出卓越成绩的专家学者做主题报告。
以KDD’11[6]为例,会议共邀请了4位特邀主题发言人,他们分别是:美国斯坦福大学电子工程系教授StephenBoyd、Google公司研究主管PeterNorvig、美国加州大学圣克鲁兹分校分子生物工程系教授DavidHaussler以及加州大学洛杉矶分校计算机系教授JudeaPearl。
表1、2003-2011年期间KDD研究论文投稿及录取情况(注:自2007年以来论文不再区分长、短文,表中2007年以后的长、短文对应的分别是长报告和短报告)3、历年论文投稿及接收情况我们对2003年以来KDD的研究类论文和应用类论文的投稿、录取率等进行了统计(注:数据来自历年KDD会议的论文集)。
发现研究类论文的投稿量呈现逐年增加的趋势,而论文总的录取率(即包括长、短文所有被录取论文的录取率)相对稳定,基本在17%至19%左右徘徊。
具体的分析结果见表1。
相对于研究类论文,应用类论文的投稿量少且相对稳定,其录取率相对更高,基本在30%左右。
具体统计结果见表2。
此外,图1和图2分别对比了KDD研究类论文和应用类论文的总录取率和投稿量。
表2、2003-2011年期间KDD应用(IndustrialandGovernment)论文投稿及录取情况0.00%20.00%40.00%60.00%80.00%200320042005200620072008200920102011年份总录取率图1、2003年-2011年期间KDD的研究论文、应用论文各自的总录取比率200400600800200320042005200620072008200920102011年份投稿量图2、2003年-2011年期间KDD的研究论文、应用论文投稿情况4、设置的奖项情况在每年的KDD年会上颁发的主要奖项包括SIGKDD创新奖(SIGKDDInnovationAward)、SIGKDD服务奖(SIGKDDServiceAward)、SIGKDD最佳研究论文奖(SIGKDDBestResearchPaperAward)、SIGKDD最佳应用论文奖(SIGKDDBestApplicationPaperAward)、SIGKDD博士论文奖(SIGKDDDoctoralDissertationAward)以及SIGKDD学生差旅奖(SIGKDDStudentTravelAward)[3]。
1、SIGKDD创新奖(SIGKDDInnovationAward)该奖主要用于奖励对数据挖掘及知识发现领域作出重大技术贡献的研究人员,获奖人员的研究工作通常在数据挖掘理论或商业数据挖掘系统开发上产生了持久的影响。
自2000年以来已有11位数据挖掘研究人员获此殊荣,其中来自UIUC的韩家炜教授位列其中。
2、SIGKDD服务奖(SIGKDDServiceAward)该奖主要奖励对数据挖掘及知识发现领域作出重大服务贡献的个人或团队,考察的因素主要包括主持学术团体、主办会议等服务性工作、数据挖掘教学、财务赞助等。
自2000年以来已产生了10位获奖者,其中包括来自美国佛蒙特大学的吴信东教授。
3、SIGKDD最佳研究论文奖(SIGKDDBestResearchPaperAward)该奖主要用于奖励从每年的KDD年会所录用的研究论文中挑选出来的、对数据挖掘和知识发现领域有基础性的推动作用的论文。
KDD的研究论文奖包括最佳研究论文奖(BestResearchPaperAward)和最佳学生论文奖(BestStudentPaperAward)两类。
4、SIGKDD最佳应用论文奖(SIGKDDBestApplicationPaperAward)。
该奖主要用于奖励从每年的KDD年会所录用的应用论文中挑选出来的、能较好体现在数据挖掘应用中反映出挑战性的研究问题和经验教训的论文。
5、SIGKDD博士论文奖(SIGKDDDoctoralDissertationAward)该奖项是从2008年开始设立,用于奖励在数据挖掘与知识发现领域作出出色研究工作的博士生。
本科毕业于清华大学、来自美国UIUC的XiaoxinYin博士(导师为韩家炜教授)曾获得首届SIGKDD博士论文奖。
6、SIGKDD学生差旅奖(SIGKDDStudentTravelAward)该奖项主要用于资助部分参会学生的差旅开销。
5、关于KDD2012KDD2012年会将于2012年8月12日至16日在北京举办,这也是KDD首次在亚太地区举办。
中国近年来的快速发展举世瞩目。
数据挖掘作为一个各个行业发展不可缺少的技术支持,在中国得到了长足发展。
KDD2012对KDD以及中国的数据挖掘都是具有重大意义的里程碑。
海内外数据挖掘领域的华人学者在KDD’12的组织工作中扮演了重要角色。
例如,大会主席是香港科技大学的杨强教授,大会荣誉主席为中科院的陆汝钤院士和清华大学的张钹院士,大会指导委员会主席为中国电子工程系统研究所的李德毅院士,大会副主席为CityGridMedia的沈抖博士,加拿大西蒙弗雷泽大学(SFU)的裴健教授、美国罗格斯大学(RutgersUniversity)的熊辉教授和微软的YingLi博士分别担任大会程序委员会联合主席、企业及政府应用分会程序委员会联合主席和工业实践展程序委员会联合主席。
专题研讨会联合主席包括南京大学的周志华教授,会议会务主席(localarrangementchair)由清华大学的唐杰博士担任。
相对于往届的KDD会议,KDD’12的一个特色是新增加了“亚太主题分会”(AsiaPacificTrack)。
亚太主题分会的主席为香港大学的张伟牢教授和美国北卡大学(UNC)的王蔚教授。
该分会将邀请亚太地区在数据挖掘领域的某些知名专家做特邀报告。
与工业实践及展览分会类似,亚太主题分会不准备以论文的形式进行。
此外,KDD2012还将举办KDD暑期学习班,邀请数据挖掘的知名学者就某些专题进行详细的讲解。
全球的华人学者在这一研究领域扮演着举足轻重的角色。
国内也孕育出了一支庞大的数据挖掘研究及开发队伍,并且在最近几年的KDD年会上有出色的表现。
北京KDD2012将为全球的科研工作者提供一个了解和学习中国数据挖掘进展的机会,也为国内的学者提供一个学习和展现的机会。
这必将成为数据挖掘研究与应用发展的一个新的里程碑。
最后,预祝2012年ACMSIGKDD国际数据挖掘年会取得圆满成功。
7、致谢十分感谢香港科技大学的杨强教授和CityGridMedia的沈抖博士在本文撰写过程中所给予的悉心指导和宝贵建议。
8、参考文献1./2./kddcup/index.php3./awards.php4./kdd2012/5./kdd2012/cfp.shtml6./kdd2011/。