本期CCF学科前沿讲习班ADL125《AI+DB》,将对AI与DB相结合的基础、前沿进展和典型应用进行系统性介绍。帮助学员在了解DB基本概念的基础上,从入门到前沿快速深入地掌握如何利用AI技术提升DB性能,以及业界如何应用AI解决DB问题。同时,帮助学员了解如何利用DB技术赋能AI,提升训练推理效率与模型性能。相信学员经过本次讲习班,能够深入了解AI+DB的基本原理、主要挑战和应用场景,开阔科研视野,增强实践能力。
学术主任:李国良清华大学、柴成亮清华大学
特邀讲者:
李国良清华大学
讲者简介:李国良,清华大学计算机系教授,系副主任。主要研究数据库、大数据挖掘与分析。在数据库顶级会议和期刊上发表论文150余篇,他引12000余次。主持国家杰青、优青、青年973、重点等项目。获得了VLDB杰出青年贡献奖、IEEE数据工程领域杰出新人奖、计算机学会青年科学家奖等奖项。SIGMOD2021大会主席、VLDB2021Demo主席、ICDE2022Industry主席。获得过BestofVLDB2020/ICDE2018/KDD2018,CIKM2017BestPaper。获得过国家科技进步二等奖、江苏省科技进步一等奖、国家电网科技进步一等奖等奖项。
报告题目:机器学习赋能的数据库系统
报告摘要:本报告主要讲述如何使用机器学习技术来优化数据库,包括(1)基于机器学习的优化器(学习型基数和代价估计、学习型查询重写、学习型物理优化);(2)基于机器学习的数据库配置优化(基于机器学习的分布键推荐、索引推荐、视图推荐、参数推荐);(3)学习型数据结构(学习型索引);(4)基于机器学习的查询与数据生成(SQL生成、数据生成、SQL预测);(5)基于机器学习的系统诊断(慢SQL诊断、系统诊断)等。本报告还将数据库优化问题分成NP优化问题、回归问题、预测问题,并讲述如何利用机器学习算法(深度学习、强化学习、元学习、图学习等)来解决这些问题。最后本报告还介绍研究趋势和未来挑战。CeZhangETHZurich
讲者简介:CeisanAssistantProfessorinComputerScienceatETHZurich.Themissionofhisresearchistomakemachinelearningtechniqueswidelyaccessible---whilebeingcost-efficientandtrustworthy---toeveryonewhowantstousethemtomakeourworldabetterplace.Hebelievesinasystemapproachtoenablingthisgoal,andhiscurrentresearchfocusesonbuildingnext-generationmachinelearningplatformsandsystemsthataredata-centric,human-centric,anddeclarativelyscalable.BeforejoiningETH,CefinishedhisPhDattheUniversityofWisconsin-MadisonandspentanotheryearasapostdoctoralresearcheratStanford,bothadvisedbyChristopherRé.HisworkhasreceivedrecognitionssuchastheSIGMODBestPaperAward,SIGMODResearchHighlightAward,GoogleFocusedResearchAward,anERCStartingGrant,andhasbeenfeaturedandreportedbyScience,Nature,theCommunicationsoftheACM,andavariousmediaoutletssuchasAtlantic,WIRED,QuantaMagazine,etc.
报告题目:EfficientIn-DatabaseMachineLearningwithDeepPhysicalIntegration
报告摘要:Today,trainingmachinelearninginsidedatabasesusinglibrariessuchasMADlibcouldbeordersofmagnitudeslowerthanitsnon-DBcounterpart(e.g.,PyTorchoverfiles).IsthisslowdownaninevitablepricethatwehavetopayinordertoenjoyalltheothergreatbenefitsthatadatabaseprovidesWehopetheanswerisno---inthistalk,IwillpresentoureffortsinoptimizingMLtraininginsidedatabasesystems.WeintegratedMLtrainingasacollectionofphysicaloperators,averydifferentdesigndecisioncomparedwithotherin-DBMLsolutions.Thisdeepintegration,alongwithseveralnovelalgorithms,allowsustoclosethisDB/non-DBgapforarangeofMLmodels.
丁博麟阿里巴巴
讲者简介:丁博麟,阿里巴巴-智能计算实验室资深技术专家。于中国人民大学完成数学与应用数学本科学习,后前往香港中文大学和美国伊利诺伊大学香槟分校,分别获得系统工程硕士和计算机科学博士。研究方向包括:数据隐私保护,智能系统(AI4AI,AI4DB,AI4Econ),机器学习算法理论及应用。2018年4月加入阿里巴巴。之前就职于美国微软研究院任研究员。项目成果被授予十余项美国技术专利,多项成果直接应用于业界重要软件和服务。研究成果发表于SIGMOD,VLDB,ICDE,KDD,NIPS,ICML,ICLR,CHI等多个领域的顶尖国际会议。
报告题目:智能数据库技术:理论到实践、机遇和挑战
报告摘要:为了提高大数据系统的竞争力,优化数据库运行效率和降低资源消耗是两个关键技术发力点,也是数据管理系统研究方向一直以来的研究热点。在最近五年,研究人员开始探索如何利用机器学习技术优化数据库系统(AI4DB),其中不少成果在实验室环境中的标准benchmark上有非常优异的表现,但是一直未能有成熟的技术大规模落地应用于实际场景中的大数据系统并创造商业和生产价值。我们希望继续在该方向进行科研探索,并探究现在这个方向上前沿技术和研究成果与实际系统应用的差距。这次报告会介绍我们在AI4DB几个方向上研究的进展和思考,包括基于机器学习的参数估计、数据索引、查询优化,从理论和实践的角度分别探讨为什么基于机器学习的数据库技术具备潜力和可行性,以及需要什么样的系统支持。
孙佶华为
讲者简介:孙佶,任职于华为高斯实验室,数据库助理首席专家。于北京邮电大学计算机学院获得工学学士学位,后于清华大学计算机系获得工学博士学位。研究方向包括:AI与数据库交叉技术(AI4DB,DB4AI)、数据库近似检索技术以及机器学习算法理论及应用。研究成果发表于SIGMOD,VLDB,ICDE等数据库顶尖国际会议。曾获得CCF优秀博士论文奖,北京市优秀毕业生,SigmodProgrammingContest优胜奖等荣誉。
报告题目:openGauss:构建内外兼修的数据库智能自治能力
报告摘要:随着生产环境中的负载和数据的复杂性以及运行环境的异构性,依赖于简单规则和专家经验的传统数据库系统,在执行效率、可维护性以及可用性上面临巨大的挑战。比如负载和数据的复杂性很容易导致数据库配置参数失效以及代价估计系统奔溃;而运行环境的异构性则导致了数据库性能问题诊断和治愈难度陡增。针对这些数据库痛点,学术界在近几年尝试使用机器学习的方法进行解决,取得了令人瞩目的实验效果;工业界也进行了AI和数据库交叉技术的实践,并且诞生了一些利用AI算法进行数据库辅助调优的产品,取得了很好的商业效果。openGauss作为一款针对智能自治能力构建设计的数据库,具备强大的性能自监控以及原生AI计算能力,我们研发出的数据库运行管理和内核优化组件服务于云平台以及客户生产环境中。本次报告介绍openGauss中的AI原生架构、自监控自诊断能力以及智能优化器(ABO)的研发进展,并且介绍我们对AI原生数据库的挑战以及未来发展方向的思考。
TimKraskaMIT
报告题目:Towardsinstance-optimizeddatasystems
报告摘要:Recently,therehasbeenalotofexcitementaroundML-enhanced(orlearned)algorithmsanddatastructures.Forexample,therehasbeenworkonapplyingmachinelearningtoimprovequeryoptimization,indexing,storagelayouts,scheduling,log-structuredmergetrees,sorting,compression,sketches,amongmanyotherdatamanagementtasks.Arguably,theideasbehindthesetechniquesaresimilar:machinelearningisusedtomodelthedataand/orworkloadinordertoderiveamoreefficientalgorithmordatastructure.Ultimately,whatthesetechniqueswillallowustobuildare“instance-optimized”systems;systemsthatself-adjusttoagivenworkloadanddatadistributiontoprovideunprecedentedperformanceandavoidtheneedfortuningbyanadministrator.Inthistalk,IwillfirstprovideanoverviewoftheopportunitiesandlimitationsofcurrentML-enhancedalgorithmsanddatastructures,presentinitialresultsofSageDB,afirstinstance-optimizedsystemwearebuildingaspartofDSAIL@CSAILatMIT,andfinallyoutlineremainingchallengesandfuturedirections.
伍赛浙江大学
报告题目:ZenDB:ADeclarativeAI-enhancedDatabaseSystem
ArunKumarUCSD
讲者简介:ArunKumarisanAssociateProfessorintheDepartmentofComputerScienceandEngineeringandtheHaliciogluDataScienceInstituteandanHDSIFacultyFellowattheUniversityofCalifornia,SanDiego.Hisprimaryresearchinterestsareindatamanagementandsystemsformachinelearning/artificialintelligence-baseddataanalytics.SystemsandideasfromhisworkhavebeenreleasedaspartoftheApacheMADlibopen-sourcelibraryandshippedaspartofproductsfromorusedinternallybymanydatabase,Web,andcloudcompanies.HeisarecipientofthreeSIGMODresearchpaperawards,fourdistinguishedreviewer/metareviewerawardsfromSIGMOD/VLDB,theIEEETCDERisingStarAward,anNSFCAREERAward,andresearchawardgiftsfromAmazon,Google,Oracle,andVMware.
报告题目:TheNewDBficationofML/AI
报告题目:面向人工智能的数据准备技术:机遇与挑战
姚权铭清华大学
讲者简介:姚权铭是清华大学电子工程系助理教授。他于香港科技大学计算机系取得博士学位,之后加入第四范式担任高级科学家,创建和领导公司的机器学习研究组。该团队为国内最早一批从事自动化机器学习的研究团队。他已发表CCF-A类论文50余篇,谷歌学术引用3800余次。其中,抗噪标签算法Co-teaching(NeurIPS2018)为当年10大高引论文之一,小样本领域概述论文(CSUR2020)为ESI热点论文(前0.1%被引),图数据自动化学习方法PAS(CIKM2021)和AutoSF(TPAMI2022)为OGB榜单问鼎算法。最后,他也是机器学习主要会议ICML/NeurIPS/ICLR的领域主席、NeuralNetwork期刊的编委、NeurIPS首届AutoML比赛的举办者之一。
报告题目:自动化机器学习原理方法与应用
学术主任
李国良,清华大学计算机系教授,系副主任。主要研究数据库、大数据挖掘与分析。在数据库顶级会议和期刊上发表论文150余篇,他引12000余次。主持国家杰青、优青、青年973、重点等项目。获得了VLDB杰出青年贡献奖、IEEE数据工程领域杰出新人奖、计算机学会青年科学家奖等奖项。SIGMOD2021大会主席、VLDB2021Demo主席、ICDE2022Industry主席。获得过BestofVLDB2020/ICDE2018/KDD2018,CIKM2017BestPaper。获得过国家科技进步二等奖、江苏省科技进步一等奖、国家电网科技进步一等奖等奖项。
柴成亮,清华大学博士后。研究领域:数据库、数据挖掘、数据准备等。在CCFA类会议和期刊发表论文30余篇,包括SIGMOD、VLDB、ICDE等。担任多个国际会议与期刊如VLDB、ICDE、KDD、AAAI的审稿人。获得过CCF优博、ACM中国优博等奖项。主持博新计划、国自然青年基金和博士后面上基金等。
线下地址(疫情允许的情况下):北京中国科学院计算技术研究所一层报告厅(北京市海淀区中关村科学院南路6号)
线上地址:报名交费成功后通过邮件发送。
报名须知:
1、报名费:CCF会员2800元,非会员3600元。食宿交通费用自理。根据交费先后顺序,会员优先的原则录取,额满为止。疫情期间,根据政府疫情防控政策随时调整举办形式(线上、线下)。