【新智元导读】今天,KDD2024大奖结果新鲜出炉!华人学者收获颇丰,浙大校友JundongLi获新星奖,博士论文奖的冠亚军均有华人学者上榜。
KDD2024大奖揭晓!
ACMSIGKDD会议始于1989年,作为AI领域的顶会,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是首个引入大数据、数据科学、预测分析等概念的会议。
35年以来,KDD设立奖项表彰那些在数据科学、大数据分析、机器学习以及计算机科学领域做出杰出贡献的研究人员。
此外,来自弗吉尼亚大学的华人学者孟瑜和北大校友ZiniuHu分别获得博士论文奖的冠亚军,浙大校友JundongLi获颁「新星奖」。
一起来详细了解一下每项大奖的获得者吧~
研究创新奖
KDD研究创新奖是知识发现和数据挖掘领域技术卓越的最高荣誉,此次奖项授予给LiseGetoor。
LiseGetoor教授在斯坦福大学获得本科学士学位,在加州大学伯克利分校获得硕士学位,在加州大学圣巴巴拉分校获得博士学位。
Getoor拥有多项最佳论文奖、一项NSF职业奖,并且是人工智能促进协会(AAAI)院士。作为加州大学圣巴巴拉分校计算机科学系杰出校友,她被选为2018至2019年加州大学圣克鲁斯分校教师研究讲座教授,这是给予加州大学教师的最高认可之一。
为了表彰Getoor教授在不确定性机器学习和推理领域的贡献,她于2021年被任命为IEEE院士。2022年10月,Getoor当选美国科学促进会(AAAS)院士。2024年,她被任命为美国艺术与科学学院(AAA&S)院士。LiseGetoor还担任过《机器学习杂志》的行动编辑、JAIR副主编TKDD副主编。
LiseGetoor是加州大学圣克鲁兹分校计算机科学系特聘教授、数据科学研究中心主任,学术成就斐然,在学术期刊和会议论文集上发表了许多高引用的论文,在谷歌学术上显示论文引用量达30971次。
新星奖
新星奖从2020年起设立,该奖项的设立是为了表彰KDD社区中在博士毕业5年内取得卓越成就的学者,今年新星奖授予JundongLi。
JundongLi现任弗吉尼亚大学ECE系、CS系和数据科学学院助理教授。
Li本科毕业于浙江大学软件工程系,硕士毕业于加拿大阿尔伯塔大学,2019年从亚利桑那州立大学博士毕业,师从HuanLi。
他的研究兴趣主要包括图机器学习、可信和安全机器学习、LLM的模型编辑、知识增强和上下文学习,以及AI/ML+X等领域。
研究类
论文提出的DeepWalk是一种学习网络节点潜在表示的新方法,这些潜在表示在连续向量空间中对社会关系进行编码,从而方便在统计模型中使用,为推进GNN研究奠定了基础。
DeepWalk:onlinelearningofsocialrepresentations
作者:BrianPerozzi,RamiAl-Rfou,StevenSkiena
机构:纽约石溪大学
DeepWalk涵盖了语言建模和无监督特征学习(或深度学习)领域从词序列到图的最新进展。在随机游走(randomwalk)过程中,将每一次行走轨迹视为句子的等价来学习潜在表示,将其截断后获得局部信息。
DeepWalk在BlogCatalog、Flickr和YouTube等平台的多标签网络分类任务中学习潜在表示,之后的实验结果表明,在信息丢失的情况下,其性能依旧保持远超基准线的水平。
在一些实验中,DeepWalk优于所有基线方法,同时使用的训练数据少60%。
由于DeepWalk是一种可扩展的在线学习算法,因此适合广泛的现实应用,例如网络分类和异常检测等等。
应用数据科学
U-Air:whenurbanairqualityinferencemeetsbigdata
作者:YuZheng,FuruiLiu,Hsun-PingHsieh
机构:微软亚洲研究院
论文一作郑宇是IEEEFellow、ACM杰出科学家,现任京东副总裁和京东科技首席数据科学家。
论文提出用大数据模型监测城市空气质量,根据现有监测站报告的(历史和实时)空气质量数据以及城市中的各种数据源,例如气象、交通流量、人员流动性、道路网络结构和POI推断出整个城市实时的空气质量信息,克服了以往的空气质量监测站无法显示实时数据并且受到气象和交通状况限制的问题。
论文获取了北京和上海的五个真实数据源并进行了广泛的实验,实验结果显示出相对于四类基线的优势:包括线性/高斯插值、经典分散模型、决策树和CRF以及ANN。
学位论文奖
EfficientandEffectiveLearningofTextRepresentations
作者:YuMeng
机构:伊利诺伊大学厄巴纳-香槟分校
-基于球面文本表示空间发掘话题结构;
-利用LLM为自然语言理解任务生成数据,减少对人工标注数据的需求
本文作者YuMeng的本科、硕士和博士均毕业于UIUC,曾在普林斯顿NLP小组担任访问研究员,与陈丹琦合作,在谷歌、微软、Meta等公司均有实习经历,今年加入弗吉尼亚大学CS系担任助理教授。
亚军
MakeKnowledgeComputable:TowardsDifferentiableNeural-SymbolicAI
作者:ZiniuHu
机构:加州大学洛杉矶分校
深度学习方法可以记忆大量世界知识,但对其进行符号推理时仍然存在局限性;而符号人工智能擅长解决推理任务,但适应新知识的效率较低。之前连接这两个领域的工作主要集中在构建基于解析的系统(parsing-basedsystems),这需要大量带注释的中间步骤标签并且难以扩展。
论文讨论了神经(neural)人工智能系统和符号(symbolic)人工智能系统的交叉点。这项研究的最终目标是使神经模型能够以可微分的方式与符号推理模块交互,并在没有中间标签的情况下端到端地训练神经符号模型(Neural-Symbolicmodel),研究的具体工作包括:
-设计新颖的推理模块:可微分的、能进行符号推理的神经模块,包括知识图谱推理和复杂的逻辑推理
-通过自我监督学习:通过结构和符号知识库的自我监督来训练神经模型,无需额外标注
-跨领域泛化:神经符号系统的模块化设计本质上有助于更好地泛化到分布外、词库外、跨语言和跨类型的样本
将这些部分放在一起,最终目标是构建具有推理能力的端到端神经符号系统,将AI推进到真正的人类智能。
ZiniuHu本科毕业于北京大学计算机科学系,博士毕业于加州大学洛杉矶分校,并在加州理工学院完成了博士后工作。他曾在DeepMind担任访问研究员,并获得过亚马逊博士奖学金、商汤科技奖学金和百度奖学金。
ArtificialIntelligenceforData-centricSurveillanceandForecastingofEpidemics
作者:AlexanderRodriguez
机构:佐治亚理工学院
流行病的监测和预测是政府官员、企业和公众决策和规划的重要工具,但在许多方面,我们对流行病如何传播的理解仍处于起步阶段,其挑战性源于各种复杂的动态,例如流动模式、政策合规性,甚至数据收集程序的变化。
本文提出了几个框架来应对这些挑战,并转向更加以数据为中心的方法。具体来说,我们利用多个例子来展示,将AI领域中数据驱动的可表达性引入流行病学,可以使流行病的监测和预测更加灵敏和精确。
最佳论文奖
CAT:InterpretableConcept-basedTaylorAdditiveModels
作者:VietDuong,QiongWu,ZhengyiZhou,HongjueZhao,ChenxiangLuo,EricZavesky,HuaxiuYao,HuajieShao
机构:威廉玛丽学院、AT&T、UIUC、北卡罗来纳大学教堂山分校
广义相加模型(GAM)采用神经网络单独学习每个特征的非线性函数,然后通过线性模型组合进行最终预测。尽管GAM可以在特征层面解释深度神经网络(DNN),但需要大量模型参数,并且容易过度拟合,因此难以训练和扩展。
此外,在具有许多特征的现实数据集中,基于特征方法的可解释性会降低。为了解决这些问题,最近的研究已转向基于概念的可解释方法,试图将概念学习集成为预测前的中间步骤,并用人类可理解的概念来解释预测。然而,这种方法需要领域专家进行大量的概念标注工作。
为了解决以上问题,论文提出了一种可解释的基于概念的泰勒相加模型CAT(Concept-bAsedTayloradditivemodels),不需要领域专家标注概念或价值观,只需要用户将输入特征进行大致分组,就可以通过查看元数据进行解释。
具体来说,CAT首先将每组输入特征编码为一维的高层次概念表示,然后将其输入到新提出的「白盒」泰勒神经网络(TaylorNet)中。TaylorNet旨在使用多项式学习输入和输出之间的非线性关系。多个基准的评估结果表明,CAT的性能可与基线相当甚至优于基线,同时减少对大量模型参数的需求。重要的是,它可以通过人类能理解的高级概念来解释模型预测。
LiGNN:GraphNeuralNetworksatLinkedIn
作者:FedorBorisyuk,ShihaiHe,YunboOuyang,MortezaRamezani,PengDu,XiaochenHou,ChengmingJiang,NitinPasumarthy,PriyaBannur,BirjodhTiwana,PingLiu,SiddharthDangi,DaqiSun,ZhoutaoPei,XiaoShi,SirouZhu,KayShen,Kuang-HsuanLee,DavidStein,BaoleiLi,HaichaoWei,AmolGhoting,SouvikGhosh
机构:LinkedIn
论文提出了LiGNN,一种大规模图神经网络(GNN)框架,并且提出了一系列针对GNN表示学习质量的算法改进,包括具有长期损失的时态图架构,以及通过图的致密化(graphdensification)、ID嵌入和多跳邻居采样(multi-hopneighborsampling)的有效冷启动解决方案。
论文解释了如何通过邻居的自适应采样、训练数据批的分组和切片、专门的共享内存队列和局部梯度优化,在LinkedIn图上进行了7x加速的大规模训练。
应用数据科学类(亚军)
NestedFusion:AMethodforLearningHighResolutionLatentStructureofMulti-ScaleMeasurementDataonMars
作者:AustinWright,DuenChau,ScottDavidoff
机构:佐治亚理工学院、加州理工学院
毅力号火星探测器代表了火星测量规模的代际变化,但分辨率的提高给探索性数据分析技术(EDA)带来了新的挑战。
火星车上的多个不同仪器分别测量某种特定属性,因此需要分析底层的现象如何影响多个仪器的测量,这对理解全貌非常重要。此外,每种仪器都有独特的分辨率,将不同分辨率的数据放在一起进行映射、分析也是复杂的工作。
论文引入了NestedFusion方法,将不同分辨率的任意层级的数据集组合在一起,并以尽可能高的分辨率产生潜在分布,对不同测量和尺度之间的复杂相互关系进行编码。
这种方法对于大型数据集非常高效,甚至可以对未见数据进行推理,并且优于现有的对真实火星漫游器数据进行降维和潜在分析的方法。
NestedFusion已在NASA喷气推进实验室(JPL)的火星科学团队中部署使用,并通过多轮研究和设计,极大地增强了科学家的探索性分析工作流程。
最佳学生论文
DatasetRegenerationforSequentialRecommendation
作者:MingjiaYin,HaoWang,WeiGuo,YongLiu,SuojuanZhang,SiruiZhao,DefuLian,EnhongChen
机构:中国科技大学、认知智能全国重点实验室、华为新加坡研究中心
顺序推荐器(sequentialrecommender,SR)是现代推荐系统的重要组成部分,旨在捕获用户偏好的演变过程。
之前的研究为增强SR系统的能力做出了许多努力,这些方法通常遵循以模型为中心的范式,基于固定数据集开发模型。然而,这种方法常常忽视数据中潜在的质量问题和固有缺陷。
本文提出了一种新颖的以数据为中心的范式,使用一种「模型无关」(model-agnostic)的数据集再生框架来开发理想的训练数据集。该框架被称为DR4SR,重新生成的数据集对不同架构的模型具有卓越的泛化性能。
服务奖
KDD服务奖是该领域对学者们进行专业服务的最高认可,比如专业协会和会议的运营、学生和专业人士的教育、研发活动的资助等。本届服务奖授予给FaisalFarooq。
FaisalFarooq是现任Pinterest高级工程总监和ACMKDD的主席,在构建机器学习(包括深度学习)产品方面拥有10年以上的领导经验。
他拥有20多项专利,发表了40多篇论文,在NIPS、ICML、KDD、ICPR组织了多次会议,担任过2018年KDD会议主席。