学者对话丨实验室机器学习中心成员张文涛访谈

张文涛,北京大学国际机器学习研究中心助理教授、研究员、博士生导师,大数据分析与应用技术国家工程实验室机器学习中心成员。曾任职于腾讯机器学习平台部、AppleAIML以及Mila人工智能实验室。研究兴趣为以数据为中心的机器学习、图机器学习、机器学习系统和交叉学科应用(如Diffusion、多模态和AI4Science)。他近5年在机器学习(ICML/NeurIPS/ICLR)、数据挖掘(KDD/WWW)和数据管理(SIGMOD/VLDB/ICDE)等领域发表CCF-A类论文40余篇,并获得多个最佳论文奖(如第一作者获WWW’22BestStudentPaperAward和通讯作者获APWeb-WAIM’23BestPaperRunnerUpAward),其论文“大规模图神经网络关键技术研究”荣获2023年中国人工智能学会优秀博士学位论文奖(指导教师:崔斌教授)。他领导或参与开源了多个机器学习系统,如大规模图学习系统SGL、分布式机器学习系统Angel、和黑盒优化系统OpenBox。他曾获AppleScholar(2021年度亚太地区唯一)、世界人工智能大会云帆奖、北京大学/北京市/中国人工智能学会优秀博士学位论文奖、中国电子学会科技进步一等奖等多项荣誉。

Q:请简要介绍一下您当前的研究方向和研究工作。

A:我的研究方向主要是Data-centricML(DCML,以数据为中心的机器学习),具体来说分成以下几个方面:

Q:您在求学工作期间有什么或印象深刻或有趣的经历吗?这些经历对您从事机器学习研究及后期的选择产生了哪些影响?

A:读博期间,我先后在腾讯机器学习平台部以及AppleAIML实习了4年。通过与工业界合作,我们可以借助他们的数据和计算资源。更重要的是,我们可以发现很多有影响力和现实意义但未被探索的新问题。这些问题很有可能是实际的业务问题,但稍微提炼和抽象出来就是一个新的Research问题。与其在一个老问题和方向上去卷方法,我更喜欢深入研究发现问题本质,探索完全不同的解题思路。另外,挖坑发现好的研究问题也是一个避免内卷的好方法,而且这类工作往往更有延续性和成体系。最后,研究工作如果能实际部署到工业界环境并产生显著经济效益,也能进一步提升工作影响力。

Q:对您而言,机器学习最独特的魅力是什么?

A:机器学习能够极大地解放生产力,赋能千行百业。自动驾驶、语音识别、智能家居等常见的应用场景都有机器学习模型在背后支持。特别的,以ChatGPT为首的大模型涌现出的令人惊讶的智能,能够帮助甚至取代很多脑力型劳动(如法律、金融和医疗等),给大家带来了一个充满着无限可能和未来的世界。我个人是非常喜欢尝试各类科技产品,目前最能给我科技感的两项技术就是VR(虚拟现实)和LLM(大语言模型),它们背后都有很多机器学习技术在支撑。未来,VR和LLM的结合也是一个很有意思的研究方向,或许能够对未来很多领域(比如教育)带来一些颠覆性的变革。

Q:您对未来在中心的研究和教学工作有哪些规划或期待?

Q:对青年学生做好机器学习科研您有哪些建议?

A:做科研经常会遇到很多挫折,以我自己为例,前两年没有任何论文产出,也经常会陷入焦虑。我个人的经验是:1)每个人因为自身背景的不同,以及研究兴趣不一样,都有最适合自己的研究方向。选择一个适合自己并且感兴趣的方向,比盲目努力重要得多;2)很多时候你的努力都用在了错误的地方,需要经常总结和反思,经常备份和复盘自己的Idea(我的个人习惯是用OneNote随时备份自己的想法);3)当你焦虑和想不到方案的时候,不妨找个同学或者朋友倾诉一下,由于你需要总结和提炼自己的想法,往往在这个过程中就有很多灵光一闪的新思路。

Q:生活中的你有什么兴趣爱好吗?通常通过什么方式来为自己减压?

THE END
1.机器学习入门知识八、学习机器学习的资源 前言 随着人工智能的发展,作为人工智能中的一个基础且重要的分支——机器学习也是愈发吸引大家来了解以及学习,那么在学习机器学习前,我们需要先来了解一下什么是机器学习,以及机器学习中涉及了哪些内容。 一、机器学习是什么? 机器学习(Machine Learning,ML)是人工智能(AI)领域的一个分支,致力https://blog.csdn.net/CYTLOVELY/article/details/143833863
2.什么是机器学习?数据科学NVIDIA术语表什么是机器学习?其工作原理是什么? 简而言之,机器学习就是训练机器去学习,而不需要明确编程。机器学习作为 AI 的一个子集,以其最基本的形式使用算法来解析数据、学习数据,然后对现实世界中的某些内容做出预测或判断。 换句话说,机器学习使用算法从输入到机器学习平台的数据中自动创建模型。典型的程序化或基于规则的系https://www.nvidia.cn/glossary/data-science/machine-learning/
3.机器学习:从基础到实践那么,什么是机器学习?简单来说,机器学习是人工智能的一个分支,它使用算法让计算机系统从数据中学习并做出预测或决策。一、机器学习基础机器学习的基础包括监督学习、无监督学习和强化学习。 监督学习:在这种方法中,我们有一个带有标签的训练数据集,算法通过学习输入和输出之间的关系来预测新的未知数据。例如,在图像识别https://developer.baidu.com/article/detail.html?id=2865599
4.机器学习中的特征空间腾讯云开发者社区声明:这篇博文主要是对参考文献中的那个PPT的学习之后记下的一些笔记,整理出来与大家一起分享,若笔记中有任何错误还请不吝指出,文中可能会使用到原作者的一些图,若侵犯到作者的权益,还请告知,我会删除,谢谢。 一、机器学习的流程 应用机器学习算法的流程大致可以分为: https://cloud.tencent.com/developer/article/1066396
5.机器学习课件机器学习课件-1.机器学习中的数学.pdf 90页VIP内容提供方:1243595614 大小:5.47 MB 字数:约2.99万字 发布时间:2017-11-05发布于浙江 浏览人气:491 下载次数:仅上传者可见 收藏次数:1 需要金币:*** 金币 (10金币=人民币1元)机器学习课件-1.机器学习中的数学.pdfhttps://max.book118.com/html/2017/1102/138623170.shtm
6.机器学习中常见分类方法【嵌牛导读】机器学习的分类方法,你知道几种? 【嵌牛鼻子】决策树,基于规则分类,最近邻分类,朴素贝叶斯,人工神经网络,支持向量机 【嵌牛提问】这几种分类方式各自适用于什么样的数据? 【嵌牛正文】 Content 1. 决策树分类(链接:http://blog.csdn.net/github_36299736/article/details/52749999) https://www.jianshu.com/p/45fdbdeb186b
7.Pandas在数据分析和机器学习中的应用及优势pythonPandas在数据分析和机器学习中的应用及优势 Pandas是Python中用于数据处理和数据分析的库,它提供了灵活的数据结构和数据操作工具,包括Series和DataFrame等。Pandas还支持大量数据操作和数据分析功能,包括数据清洗、转换、筛选、聚合、透视表、时间序列分析等 + 目录https://www.jb51.net/article/282879.htm
8.机器学习中的数据清洗与特征处理综述如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标注数据生成=>模型学习=>模型应用”中的前两个步骤。 灰色框中蓝色箭头对应的是离线处理部分。主要工作是: 1.从原始数据,如文本、图像或者应用数据中清洗出特征数据和标注数据。 https://weibo.com/p/1001603859029393857056
9.机器学习中低精度计算产生高准确度结果的解决方案有人认为,用低精度训练机器学习模型会限制训练的精度,事实真的如此吗?本文中,斯坦福大学的DAWN人工智能研究院介绍了一种名为bit recentering的技术,它可以用低精度的计算实现高准确度的解决方案。以下是论智对原文的编译,文末附原论文地址。 低精度计算在机器学习中已经吸引了大量关注。一些公司甚至已经开始研发能够原https://www.elecfans.com/d/654475.html
10.教程:在PowerBI中生成机器学习模型在包含训练数据和标签信息的表的“操作”列表中,选择“应用 ML 模型”图标,然后选择“添加机器学习模型”。 创建机器学习模型的第 1 个步骤是确认历史数据,包括想要预测的结果字段。 通过学习此数据创建模型。 在这种情况下,你想要预测访问者是否会进行购买。 要预测的结果位于“收入”字段中。 选择“收入”作为“https://docs.microsoft.com/zh-cn/power-bi/service-tutorial-build-machine-learning-model
11.「机器学习」准确率精确率召回率F1分数ROCAUC在机器学习中衡量一个模型是否准确我们有很多指标: 准确率 - accuracy 精确率 - precision 召回率 - recall F1分数-F1 score ROC曲线下面积 - ROC-AUC (area under curve) 那么,这些指标到底都是什么呢?各自有什么优缺点呢?笔者在了解这些指标的时候是在网上各大网站(CSDN、博客园、知乎)上找文章学习的。但是https://www.flyai.com/article/683
12.谭庆收(博士)1.国家自然科学基金面上项目,噪声环境中机器学习辅助的量子计量学 研究,批准号:12275077,2023年1月至2026年12月。 2.国家自然科学基金青年项目,超冷原子腔光机械系统中的量子效应及 应用,批准号:11805047,2019年1月至2021年12月。 3.国家自然科学基金地区项目,玻色-爱因斯坦凝聚体中偶极-偶极与三 https://wdxy.hnist.cn/info/1102/4517.htm
13.机器学习中用来防止过拟合的方法有哪些?为什么在机器学习中比较常见?这是因为机器学习算法为了满足尽可能复杂的任务,其模型的拟合能力一般远远https://www.zhihu.com/question/59201590