ADL125期《AI+DB》开始报名ADL动态

本期CCF学科前沿讲习班ADL125《AI+DB》,将对AI与DB相结合的基础、前沿进展和典型应用进行系统性介绍。帮助学员在了解DB基本概念的基础上,从入门到前沿快速深入地掌握如何利用AI技术提升DB性能,以及业界如何应用AI解决DB问题。同时,帮助学员了解如何利用DB技术赋能AI,提升训练推理效率与模型性能。相信学员经过本次讲习班,能够深入了解AI+DB的基本原理、主要挑战和应用场景,开阔科研视野,增强实践能力。

学术主任:李国良清华大学、柴成亮清华大学

特邀讲者:

李国良清华大学

讲者简介:李国良,清华大学计算机系教授,系副主任。主要研究数据库、大数据挖掘与分析。在数据库顶级会议和期刊上发表论文150余篇,他引12000余次。主持国家杰青、优青、青年973、重点等项目。获得了VLDB杰出青年贡献奖、IEEE数据工程领域杰出新人奖、计算机学会青年科学家奖等奖项。SIGMOD2021大会主席、VLDB2021Demo主席、ICDE2022Industry主席。获得过BestofVLDB2020/ICDE2018/KDD2018,CIKM2017BestPaper。获得过国家科技进步二等奖、江苏省科技进步一等奖、国家电网科技进步一等奖等奖项。

报告题目:机器学习赋能的数据库系统

报告摘要:本报告主要讲述如何使用机器学习技术来优化数据库,包括(1)基于机器学习的优化器(学习型基数和代价估计、学习型查询重写、学习型物理优化);(2)基于机器学习的数据库配置优化(基于机器学习的分布键推荐、索引推荐、视图推荐、参数推荐);(3)学习型数据结构(学习型索引);(4)基于机器学习的查询与数据生成(SQL生成、数据生成、SQL预测);(5)基于机器学习的系统诊断(慢SQL诊断、系统诊断)等。本报告还将数据库优化问题分成NP优化问题、回归问题、预测问题,并讲述如何利用机器学习算法(深度学习、强化学习、元学习、图学习等)来解决这些问题。最后本报告还介绍研究趋势和未来挑战。CeZhangETHZurich

讲者简介:CeisanAssistantProfessorinComputerScienceatETHZurich.Themissionofhisresearchistomakemachinelearningtechniqueswidelyaccessible---whilebeingcost-efficientandtrustworthy---toeveryonewhowantstousethemtomakeourworldabetterplace.Hebelievesinasystemapproachtoenablingthisgoal,andhiscurrentresearchfocusesonbuildingnext-generationmachinelearningplatformsandsystemsthataredata-centric,human-centric,anddeclarativelyscalable.BeforejoiningETH,CefinishedhisPhDattheUniversityofWisconsin-MadisonandspentanotheryearasapostdoctoralresearcheratStanford,bothadvisedbyChristopherRé.HisworkhasreceivedrecognitionssuchastheSIGMODBestPaperAward,SIGMODResearchHighlightAward,GoogleFocusedResearchAward,anERCStartingGrant,andhasbeenfeaturedandreportedbyScience,Nature,theCommunicationsoftheACM,andavariousmediaoutletssuchasAtlantic,WIRED,QuantaMagazine,etc.

报告题目:EfficientIn-DatabaseMachineLearningwithDeepPhysicalIntegration

报告摘要:Today,trainingmachinelearninginsidedatabasesusinglibrariessuchasMADlibcouldbeordersofmagnitudeslowerthanitsnon-DBcounterpart(e.g.,PyTorchoverfiles).IsthisslowdownaninevitablepricethatwehavetopayinordertoenjoyalltheothergreatbenefitsthatadatabaseprovidesWehopetheanswerisno---inthistalk,IwillpresentoureffortsinoptimizingMLtraininginsidedatabasesystems.WeintegratedMLtrainingasacollectionofphysicaloperators,averydifferentdesigndecisioncomparedwithotherin-DBMLsolutions.Thisdeepintegration,alongwithseveralnovelalgorithms,allowsustoclosethisDB/non-DBgapforarangeofMLmodels.

丁博麟阿里巴巴

讲者简介:丁博麟,阿里巴巴-智能计算实验室资深技术专家。于中国人民大学完成数学与应用数学本科学习,后前往香港中文大学和美国伊利诺伊大学香槟分校,分别获得系统工程硕士和计算机科学博士。研究方向包括:数据隐私保护,智能系统(AI4AI,AI4DB,AI4Econ),机器学习算法理论及应用。2018年4月加入阿里巴巴。之前就职于美国微软研究院任研究员。项目成果被授予十余项美国技术专利,多项成果直接应用于业界重要软件和服务。研究成果发表于SIGMOD,VLDB,ICDE,KDD,NIPS,ICML,ICLR,CHI等多个领域的顶尖国际会议。

报告题目:智能数据库技术:理论到实践、机遇和挑战

报告摘要:为了提高大数据系统的竞争力,优化数据库运行效率和降低资源消耗是两个关键技术发力点,也是数据管理系统研究方向一直以来的研究热点。在最近五年,研究人员开始探索如何利用机器学习技术优化数据库系统(AI4DB),其中不少成果在实验室环境中的标准benchmark上有非常优异的表现,但是一直未能有成熟的技术大规模落地应用于实际场景中的大数据系统并创造商业和生产价值。我们希望继续在该方向进行科研探索,并探究现在这个方向上前沿技术和研究成果与实际系统应用的差距。这次报告会介绍我们在AI4DB几个方向上研究的进展和思考,包括基于机器学习的参数估计、数据索引、查询优化,从理论和实践的角度分别探讨为什么基于机器学习的数据库技术具备潜力和可行性,以及需要什么样的系统支持。

孙佶华为

讲者简介:孙佶,任职于华为高斯实验室,数据库助理首席专家。于北京邮电大学计算机学院获得工学学士学位,后于清华大学计算机系获得工学博士学位。研究方向包括:AI与数据库交叉技术(AI4DB,DB4AI)、数据库近似检索技术以及机器学习算法理论及应用。研究成果发表于SIGMOD,VLDB,ICDE等数据库顶尖国际会议。曾获得CCF优秀博士论文奖,北京市优秀毕业生,SigmodProgrammingContest优胜奖等荣誉。

报告题目:openGauss:构建内外兼修的数据库智能自治能力

报告摘要:随着生产环境中的负载和数据的复杂性以及运行环境的异构性,依赖于简单规则和专家经验的传统数据库系统,在执行效率、可维护性以及可用性上面临巨大的挑战。比如负载和数据的复杂性很容易导致数据库配置参数失效以及代价估计系统奔溃;而运行环境的异构性则导致了数据库性能问题诊断和治愈难度陡增。针对这些数据库痛点,学术界在近几年尝试使用机器学习的方法进行解决,取得了令人瞩目的实验效果;工业界也进行了AI和数据库交叉技术的实践,并且诞生了一些利用AI算法进行数据库辅助调优的产品,取得了很好的商业效果。openGauss作为一款针对智能自治能力构建设计的数据库,具备强大的性能自监控以及原生AI计算能力,我们研发出的数据库运行管理和内核优化组件服务于云平台以及客户生产环境中。本次报告介绍openGauss中的AI原生架构、自监控自诊断能力以及智能优化器(ABO)的研发进展,并且介绍我们对AI原生数据库的挑战以及未来发展方向的思考。

TimKraskaMIT

报告题目:Towardsinstance-optimizeddatasystems

报告摘要:Recently,therehasbeenalotofexcitementaroundML-enhanced(orlearned)algorithmsanddatastructures.Forexample,therehasbeenworkonapplyingmachinelearningtoimprovequeryoptimization,indexing,storagelayouts,scheduling,log-structuredmergetrees,sorting,compression,sketches,amongmanyotherdatamanagementtasks.Arguably,theideasbehindthesetechniquesaresimilar:machinelearningisusedtomodelthedataand/orworkloadinordertoderiveamoreefficientalgorithmordatastructure.Ultimately,whatthesetechniqueswillallowustobuildare“instance-optimized”systems;systemsthatself-adjusttoagivenworkloadanddatadistributiontoprovideunprecedentedperformanceandavoidtheneedfortuningbyanadministrator.Inthistalk,IwillfirstprovideanoverviewoftheopportunitiesandlimitationsofcurrentML-enhancedalgorithmsanddatastructures,presentinitialresultsofSageDB,afirstinstance-optimizedsystemwearebuildingaspartofDSAIL@CSAILatMIT,andfinallyoutlineremainingchallengesandfuturedirections.

伍赛浙江大学

报告题目:ZenDB:ADeclarativeAI-enhancedDatabaseSystem

ArunKumarUCSD

讲者简介:ArunKumarisanAssociateProfessorintheDepartmentofComputerScienceandEngineeringandtheHaliciogluDataScienceInstituteandanHDSIFacultyFellowattheUniversityofCalifornia,SanDiego.Hisprimaryresearchinterestsareindatamanagementandsystemsformachinelearning/artificialintelligence-baseddataanalytics.SystemsandideasfromhisworkhavebeenreleasedaspartoftheApacheMADlibopen-sourcelibraryandshippedaspartofproductsfromorusedinternallybymanydatabase,Web,andcloudcompanies.HeisarecipientofthreeSIGMODresearchpaperawards,fourdistinguishedreviewer/metareviewerawardsfromSIGMOD/VLDB,theIEEETCDERisingStarAward,anNSFCAREERAward,andresearchawardgiftsfromAmazon,Google,Oracle,andVMware.

报告题目:TheNewDBficationofML/AI

报告题目:面向人工智能的数据准备技术:机遇与挑战

姚权铭清华大学

讲者简介:姚权铭是清华大学电子工程系助理教授。他于香港科技大学计算机系取得博士学位,之后加入第四范式担任高级科学家,创建和领导公司的机器学习研究组。该团队为国内最早一批从事自动化机器学习的研究团队。他已发表CCF-A类论文50余篇,谷歌学术引用3800余次。其中,抗噪标签算法Co-teaching(NeurIPS2018)为当年10大高引论文之一,小样本领域概述论文(CSUR2020)为ESI热点论文(前0.1%被引),图数据自动化学习方法PAS(CIKM2021)和AutoSF(TPAMI2022)为OGB榜单问鼎算法。最后,他也是机器学习主要会议ICML/NeurIPS/ICLR的领域主席、NeuralNetwork期刊的编委、NeurIPS首届AutoML比赛的举办者之一。

报告题目:自动化机器学习原理方法与应用

学术主任

李国良,清华大学计算机系教授,系副主任。主要研究数据库、大数据挖掘与分析。在数据库顶级会议和期刊上发表论文150余篇,他引12000余次。主持国家杰青、优青、青年973、重点等项目。获得了VLDB杰出青年贡献奖、IEEE数据工程领域杰出新人奖、计算机学会青年科学家奖等奖项。SIGMOD2021大会主席、VLDB2021Demo主席、ICDE2022Industry主席。获得过BestofVLDB2020/ICDE2018/KDD2018,CIKM2017BestPaper。获得过国家科技进步二等奖、江苏省科技进步一等奖、国家电网科技进步一等奖等奖项。

柴成亮,清华大学博士后。研究领域:数据库、数据挖掘、数据准备等。在CCFA类会议和期刊发表论文30余篇,包括SIGMOD、VLDB、ICDE等。担任多个国际会议与期刊如VLDB、ICDE、KDD、AAAI的审稿人。获得过CCF优博、ACM中国优博等奖项。主持博新计划、国自然青年基金和博士后面上基金等。

线下地址(疫情允许的情况下):北京中国科学院计算技术研究所一层报告厅(北京市海淀区中关村科学院南路6号)

线上地址:报名交费成功后通过邮件发送。

报名须知:

1、报名费:CCF会员2800元,非会员3600元。食宿交通费用自理。根据交费先后顺序,会员优先的原则录取,额满为止。疫情期间,根据政府疫情防控政策随时调整举办形式(线上、线下)。

THE END
1.几个学算法的小窍门,太实用了!但算法的学习并不容易,很多小伙伴私信我,表示被算法折磨得非常头疼。常见的问题 我选了几个比较有代表性的问题,给大家分享:1)初学算法,没有系统的学习路线和刷题顺序,担心自学效率太低:2)缺乏学习算法的动力,难以坚持:3)刷算法题目时总遇到问题,看题解也看不懂,需要人答疑:4)刷过的算法题不会https://baijiahao.baidu.com/s?id=1779379672229512409&wfr=spider&for=pc
2.算法常用解题思路和技巧算法题解题常规思路算法-常用解题思路和技巧 常用解题思路和技巧 看到有序数组,可以考虑使用二分法。 如果暴力解法中出现查找效率低的时候,可以考虑使用哈希表来提高查找效率, 找一个满足某个条件的值,都可以考虑使用哈希表。 一个常用的逆向思维,判断两个元素的和等于某个值,通常转换为该值和一个元素的差是否等于另一个元素。https://blog.csdn.net/xu_benjamin/article/details/132504447
3.算法学习攻略总结:入门至进阶,通关之路指南51CTO博客学算法、刷 LeetCode 绝非一蹴而就,它需要一个循序渐进的过程。 导读 1. 初学者的常见误区 2. 新手小白如何有效刷算法题 2.1. 没有接受自己是算法小白的事实 2.2. 没有合理的刷题方法 3. 正确的算法学习路径 3.1. 基础数据结构与算法知识 3.2. 常见算法思想 https://blog.51cto.com/u_16542656/12047317
4.腾讯Offer已拿,这99道算法高频面试题别漏了,80%都败在算法上我自从2015年担任算法组leader,作为面试官面试了不少同学。前前后后面试了超过200名同学,其中有不少入职的同学后来发展都不错,也坚定了自己对于选人标准的自信心。 今年2020年找工作尤其艰难,我把这些年作为面试官一些重要的面试题整理出来,一共80道,希望能够帮助到大家。 https://maimai.cn/article/detail?fid=1699482551&efid=WqEcULyCOsAoPWgBSGGaFg
5.机器学习/算法校招面试考点汇总(附面试题和答案)持续更新5、概率题:抽蓝球红球,蓝结束红放回继续,平均结束游戏抽取次数 6、讲一下PCA 7、拟牛顿法的原理 8、编辑距离 二、机器学习算法 1、处理分类问题常用算法 1、交叉熵公式 2、LR公式 3 LR的推导,损失函数 4、逻辑回归怎么实现多分类 5、SVM中什么时候用线性核什么时候用高斯核? https://www.nowcoder.com/discuss/165930
6.机器学习与深度学习习题集答案1腾讯云开发者社区文章被收录于专栏:SIGAI学习与实践平台 本文是机器学习和深度学习习题集的答案-1,免费提供给大家,也是《机器学习-原理、算法与应用》一书的配套产品。此习题集可用于高校的机器学习与深度学习教学,以及在职人员面试准备时使用。 第2章 数学知识 1.计算下面函数的一阶导数和二阶导数 根据基本函数,复合函数,四则运算https://cloud.tencent.com/developer/article/1563493
7.IEEEIV2018丨徐昕:基于机器学习算法的自动驾驶汽车决策与控制由IEEE智能交通系统协会 (ITSS)主办的The 29th IEEE Intelligent Vehicles Symposium(第29届IEEE国际智能车大会)于6月26日-6月30日在江苏常熟圆满落幕,国防科技大学机电工程与自动化学院徐昕教授作为特邀主旨报告嘉宾,他报告的题目为《基于机器学习算法的自动驾驶汽车决策与控制》。 https://mp.ofweek.com/ai/a545673225236
8.百度算法岗武功秘籍(中)● 如何在不降低总体指标的情况下增强ctr模型实时性?除了增量学习 ● 如何填充曝光未点击样本的点击率? ● 如何evaluate 新feature 是否work带来提升?除了abtest ● 场景题:搜索场景下有监督无监督时候query匹配如何融入ctr到词重要性任务? 4 数据结构与算法分析相关知识点 https://www.flyai.com/article/948
9.Homebrew大神面试Google被拒,只因写不出一道算法题?很多读者在刷题和学习算法时,真正的苦恼在于没有一套行之有效的刷题顺序。 例如,动态规划是公认的程序员面试里最难掌握的算法,也是出现频率最高的算法。如果仅仅讲解几道题目,即使再举一反三也远远达不到真正理解的程度。如果把动态规划的题目单纯地堆砌在一起,也只会让人越学越懵,陷入“一看就会,一写就废”http://www.broadview.com.cn/article/419992
10.2019届毕业设计(论文)阶段性汇报毕业设计Gamblet方法在图像与数据分割中的应用包含两个方向,其中一个是使用多尺度快速算法求解在图像分割中的特征根问题,另一个是通过Optimal Recovery的方法得到合适的non-parametric kernel并使用这个kernel在高斯回归中,如此来进行图像分割或者数据分类。由于第二个方向内容简洁便于理解,第一次汇报主要集中在第二个方面https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3366
11.吴师兄学算法五分钟学算法吴师兄学算法(www.cxyxiaowu.com)提供许多数据结构与算法学习的基础知识, 涵盖 LeetCode 题解、剑指 Offer 题解、数据结构等内容。https://www.cxyxiaowu.com/
12.支持C++,Java,Python,Go,JavaScript等多语言版本,从此算法学习PDF版本:「代码随想录」算法精讲 PDF 版本。 算法公开课:《代码随想录》算法视频公开课。 最强八股文:代码随想录知识星球精华PDF。 刷题顺序:README已经将刷题顺序排好了,按照顺序一道一道刷就可以。 学习社区 :一起学习打卡/面试技巧/如何选择offer/大厂内推/职场规则/简历修改/技术分享/程序人生。欢迎加入「代码https://gitee.com/hubo/leetcode-master
13.GitHub算法这部分内容非常重要,如果你不知道如何学习算法的话,可以看下我写的: 算法学习书籍+资源推荐。 如何刷 Leetcode? 常见算法问题总结: 几道常见的字符串算法题总结 几道常见的链表算法题总结 剑指offer 部分编程题 十大经典排序算法 另外,GeeksforGeeks 这个网站总结了常见的算法 ,比较全面系统。 数据库 基础 数据https://github.com/Snailclimb/JavaGuide
14.超详细算法岗的学习路线大总结!机器学习 or 深度学习基础 论文or 项目介绍 其他问题 & 向面试官提问 本文将从以上四点进行展开。 一、数据结构&算法题 随着算法岗越来越卷,Coding几乎成了面试必考的一项,而且在面评中的权重也越来越高,根据个人面试经验,如果这一环节没有很顺利得完成的话,几乎必挂,尤其对于非科班转行的同学,需要特别重视。 https://leetcode.cn/circle/discuss/SX3aa6/
15.《常用算法之智能计算(三)》:机器学习计算在给出机器学习计算各种算法之前,最好是先研究一下什么是机器学习和如何对机器学习进行分类,才能更好的理解和掌握一些具体的机器学习算法并将其用于实际问题的计算和处理。 学习是人类具有的一种重要智能行为,但究竟什么是学习,长期以来却众说纷纭。社会学家、逻辑学家和心理学家都各有自己不同的看法和说法。比如,http://www.kepu.net/blog/zhangjianzhong/201903/t20190327_475625.html
16.面经推荐算法面经-推荐算法 1、自我介绍 一、机器学习基础题 1、LSTM的公式 随机梯度下降:来一个样本,更新梯度 ; 全量梯度下降; miniBatch 2、RNN为什么出现梯度消失及BPTT的推导 卷积:局部相关性; RNN 梯度消失 每一步只受前一步的影响;梯度爆炸 ==》LSTM好多门;https://www.jianshu.com/p/9269abc13279