邓小铁,北京大学前沿计算研究中心讲席教授,人工智能研究院多智能体中心主任,欧洲科学院外籍院士,ACM/IEEEFellow。主要科研方向为算法及博弈论、互联网经济、在线算法,及并行计算。作为项目负责人,他曾承担十几项加拿大、香港、英国,及国家基金委科研项目,并担任多种国际期刊编委。发表论文200余篇,被引用数上万次;多次做国际学术会议特邀报告;曾获得IEEE理论计算机学术会议FOCS的最佳论文奖;其成果“关于图与组合优化的若经典问题的研究”获2015年度等学校科学研究优秀成果奖(然科学)二等奖(排名第)。应用方面获得多项美国专利及国家专利。
李阿明,北京大学工学院助理教授,博士生导师。于2011年获浙江工业大学数学学士学位,2017年获北京大学理学博士学位,博士期间在美国东北大学和麻省理工学院联合培养。博士毕业后在瑞士苏黎世联邦理工学院和英国牛津大学从事博士后研究。主要研究兴趣为群体智能,演化博弈论,网络化系统控制与设计。研究论文发表在Science,NatureCommunications等期刊。2018年获国际人类前沿科学计划组织交叉学科三年独立研究经费(InternationalHFSPCross-DisciplinaryFellowshipAward)。
卢宗青,现任北京大学计算机系数字媒体研究所研究员(“博雅青年学者”)、博士生导师,“决策智能”课题组负责人。他于2014年在新加坡南洋理工大学获得计算机博士学位,2014至2017年在美国宾州州立大学从事博士后研究,并于2017年9月加入北京大学。他在东南大学获得学士和硕士学位。主要研究方向为(多智能体)强化学习、移动/边缘智能系统。担任NeurIPS、ICLR、IJCAI、AAMAS、INFOCOM等会议TPC,NatureMachineIntelligence等审稿人。
彭一杰,北京大学光华管理学院助理教授,博士生导师。本科毕业于武汉大学数学与统计学院,从复旦大学管理学院获博士学位。在美国马里兰大学和乔治梅森大学分别从事过博士后与助理教授工作。主要研究方向包括仿真建模与优化、金融工程与风险管理、人工智能、健康医疗等。主持多项科研基金项目,包括国家优秀青年科学基金项目,国家青年科学基金项目,北京市青年骨干个人项目等。在《OperationsResearch》,《INFORMSJournalonComputing》和《IEEETransactionsonAutomaticControl》等高质量期刊上发表学术论文20余篇。曾获得2019年INFORMSOutstandingSimulationPublicationAward,2020年WinterSimulationConferenceBestTheoryPaperFinalists,2017年IEEERoboticsandAutomaticSocietyBestPaperAwardFinalists。目前担任Asia-PacificJournalofOperationalResearch期刊与IEEEControlSystemsSociety会议编委,中国运筹学会金融工程与金融风险管理分会常务理事,中国仿真协会人工社会专委会委员。
王龙,北京大学系统与控制研究中心主任,北京人工智能学会副理事长,北京大学工学院智能控制实验室主任,中国系统仿真学会智能物联系统委员会主任。1992年于北京大学获得博士学位。1993年在加拿大多伦多大学作博士后,1995-1997年获德国洪堡基金资助在德国宇航中心进行合作研究。现为北京大学教授、博士生导师、长江学者。获得国家教委霍英东奖(研究类一等奖)、国家自然科学奖(1999,2017)、国家教委科技进步奖(一等奖)、教育部自然科学奖(一等奖)、第一届HoOutstandingPaperAward、第一届关肇直控制理论奖等多项奖励。
谢广明,现任北京大学工学院教授,博士生导师,毕业于清华大学。主持包括重点项目在内的多项国家自然科学基金项目。获得国家自然科学奖二等奖、教育部自然科学奖一等奖等多项奖励。担任中国仿真学会机器人系统专业委员会主任,是国际水中机器人大赛的创立者,是期刊《MathematicalProblemsInEngineering》主编,包括《ScientificReports》等多个期刊编委。
研究课题
复杂网络上的群体博弈
指导老师:李阿明
时序网络能控性
AI算法优化高维经济学模型
职位描述:
·探索如何使用人工智能(AI)分析复杂的高维动态经济模型
·设计如何在决策函数依赖于数百个状态变量的异质性主体模型中进行模型简化
·利用基准模型来设计和评估各种经济政策,例如财政和货币政策
·将建立的AI解决方案框架进行自动化,使其可以广泛应用于各种经济模型
要求:
·熟悉动态规划
·熟悉深度学习和强化学习算法
·熟练使用Python/Matlab/Fortran其中之一
·对经济学话题感兴趣,如资产配置、住房市场、财·政和货币政策等等
指导老师:李博
AI-based的经济学模型
·建立AI-based的经济学模型
·设计求解高维度系统的算法
·利用模型进行政策分析,并撰写学术论文或政策研究报告
·熟悉Agent-based经济学模型
·对经济学和计算经济学有一定了解
·熟悉并掌握动态规划和并行计算
·熟练使用Python/Matlab/C++其中之一
加分项:
·熟悉高级宏观经济学知识或熟练使用Fortran语言
多智能体游戏天梯评测算法理论与应用
背景:双人游戏天梯评测算法已有比较成熟的结果,多智能体游戏天梯基本是将游戏转化为双人游戏进行评测。
目标:在不将游戏转化为双人游戏的前提下,探究多智能体游戏天梯评测算法理论及应用性能,与常见赛制进行比较。
子目标:
(1)多智能体游戏中的合作与对抗能力评测
(2)对多人扑克游戏/麻将用于评测的初始手牌进行筛选
说明:天梯并不要求排名精确性,只是显示实力排名的大致范围。
指导老师:李文新
游戏AI共性及个性探究
题注:可以限定为扑克游戏,也可以不限定
背景:游戏规则可以因为很小的变动就使得游戏性质发生巨大变化。为了适应并解决这个游戏问题,游戏AI需要有什么样的变化,与之前的AI有什么样的共性,因为游戏变化又产生了什么个性。
思路1:对于坦克大战系列,筛选同一个用户在这几个游戏中的AI,默认用户只对AI进行了很小的改动,通过模仿探究AI共性及个性。
思路2:开发不同规则的扑克游戏(如斗地主,可以继续开发换三张、跑得快等玩法),自行编写对应AI,通过模仿探究AI共性及个性,缺点是内容较多,且没有最大利用平台已有资源。
平台游戏AI代码重复探究
题注:相似概念的是代码克隆,一般用于一个项目里重复的代码段,这里用于描述不同AI具有相似代码结构
背景:平台研究者在调研平台AI算法时,往往需要阅读AI代码并筛选出典型的几种使用不同算法的AI,而不是仅仅换了个变量名、函数名,调整了几个参数而算法框架没有改动。通过检测平台已有的AI代码重复情况,能够:
(1)管理员侧:查重
(2)管理员侧:筛选统计AI算法
(3)使用者侧:推荐对战
(4)使用者侧:筛选用于评测新增AI的Baseline算法
多智能体模拟平台建设(项目导向)
描述:基于物理模型,构建类似MuJoCo的多智能体模拟环境,作为强化学习的Benchmark
要求:擅长Python,C++编程
多任务多智能体强化学习
内容:针对多个任务场景,采用多智能体强化学习训练智能体,实现自动分组协作完成任务
指导老师:卢宗青
基础科研课题(论文导向):基于风险度量的强化学习算法理论与应用
内容:经典的强化学习问题的目标是在动态环境下给出最优策略极大化累加期望回报。期望反映的是随机变量的平均值,它无法刻画随机变量的尾部分布,从而忽视了策略在极端环境下的表现。导致2008年全球金融危机的重要原因之一是对极端市场环境下的风险管理能力不足。本课题尝试将人的行为特征融入智能系统的训练中,提出以扭曲风险度量为目标函数的强化学习训练方法。扭曲风险度量可以放大极端事件的客观概率,从而使得最优策略在极端环境下表现的稳健性得到大幅提升。
指导老师:彭一杰
应用科研课题(项目导向):重大项目“智能博弈环境数智孪生关键技术”中子课题“博弈对抗条件下复杂影响因素探索性训练学习技术”
本课题开展大规模博弈智能体的动态融入研究,实现大规模博弈智能体的融入和适配,开展博弈动态环境演化加速、探索性模型学习方法和大规模分布式并行模型训练方法研究,并在此基础上研究人机混合博弈模式和博弈效能的验证评估。
社会网络上的信息传播和演化动力学
指导老师:王龙
多智能体仿真平台库开发
题目介绍:仿真平台是机器人集群系统研究的有效工具,通过融合gym,MuJoCo,ROS,Vrep等仿真平台,开发机器人仿真平台库,便于多智能体仿真平台研究。
拟招人数:1~2人
要求:熟悉Python,C#,C++编程。
指导老师:谢广明
多智能体编队研究
题目介绍:编队任务是多智能体系统中具有挑战的协同任务,在已有的二维环形编队的研究工作的基础上,通过强化学习实现三维环形编队以及跟随编队任务。
拟招人数:1人
要求:1.熟悉Python编程;2.熟悉PyTorch或TensorFlow;3.熟悉强化学习方法
多智能体强化学习协同方法研究
题目介绍:在已有的多智能体强化学习协同算法的基础上,进一步展开算法研究,并在星际任务中达到SOTA性能。
基于通信的多智能体强化学习方法研究
题目介绍:结合通信原理构造多智能体强化学习方法,并在方法的基础上,解决序列社会困境难题。
要求:1.熟悉Python编程;2.熟悉PyTorch或TensorFlow;3.熟悉强化学习方法;4.有博弈论知识基础