ADL131《向量学习与搜索》开始报名线上线下同步举办

本期CCF学科前沿讲习班ADL131《向量学习与搜索》,将对向量学习与检索的最新进展进行深入浅出的讲解,从自然语言自监督和搜索预训练、视觉预训练、基于哈希的向量搜索技术、大规模向量搜索系统、预训练模型在推荐系统中的应用等不同应用领域视角为听众介绍向量学习与搜索的关键技术和前沿研究。相信学员经过本次讲习班,能够深入了解向量学习与搜索的基础技术、主要挑战和应用场景,开阔科研视野,增强实践能力。

本期ADL讲习班邀请了10位来自国内外著名高校与企业科研机构活跃在前沿领域的专家学者做主题报告。第一天,陈琪研究员讲解高效的超大规模向量近似最近邻搜索系统SPANN,刘政研究员介绍面向稠密检索系统的模型-索引联合优化,MatthijsDouze介绍SimilaritysearchandtheFaisslibrary,何栋梁博士讲解解耦表观与运动信息的视频自监督训练及视频文本弱监督预训练方法。第二天,HarshaSimhadri研究员介绍ApproximateNearestNeighborSearchalgorithmsforweb-scalesearchandrecommendation,杨红霞研究员讲解基于预训练模型与端云协同的推荐系统,孙宇架构师和刘璟架构师介绍百度文心大模型ERNIE及在搜索中的应用。第三天,李平博士讲授EmbeddingBasedRetrieval(EBR)andBeyond,毛佳昕教授讲解面向文本搜索的高效可学习的检索模型。通过三天教学,旨在带领学员实现对向量学习与搜索从基础技术,到前沿科研动态,再到典型应用场景的深入学习与思考。学术主任:王井东百度计算机视觉首席科学家主办单位:中国计算机学会

本期ADL主题向量学习与搜索,由王井东担任学术主任,邀请到陈琪(高级研究员,微软亚洲研究院)、刘政(技术专家,华为2012实验室)、MatthijsDouze(ResearchScientist,FAIRlab)、何栋梁(资深算法研发工程师,百度)、HarshaSimhadri(PrincipalResearcher,MicrosoftResearch)、杨红霞(人工智能科学家,阿里巴巴达摩院)、孙宇(杰出研发架构师,百度)、刘璟(主任研发架构师,百度)、李平(杰出工程师,LinkedIn)和毛佳昕(助理教授,中国人民大学)10位专家做专题讲座。

活动日程:

2022年10月25日(周二)

9:00-9:10

开班仪式

9:10-9:20

全体合影

9:20-10:50

专题讲座1:一个高效的超大规模向量近似最近邻搜索系统

陈琪,高级研究员,微软亚洲研究院

10:50-12:20

专题讲座2:面向稠密检索系统的模型-索引联合优化

刘政,技术专家,华为2012实验室

14:00-15:30

专题讲座3:SimilaritysearchandtheFaisslibrary

MatthijsDouze,ResearchScientist,FAIRlab

15:30-17:00

专题讲座4:解耦表观与运动信息的视频自监督训练及视频文本弱监督预训练方法

何栋梁,资深算法研发工程师,百度

2022年10月26日(周三)

9:00-10:30

专题讲座5:ApproximateNearestNeighborSearchalgorithmsforweb-scalesearchandrecommendation

HarshaSimhadri,PrincipalResearcher,MicrosoftResearch

10:30-12:00

专题讲座6:基于预训练模型与端云协同的推荐系统

杨红霞,人工智能科学家,阿里巴巴达摩院

14:00-17:00

专题讲座7:

面向文本搜索的高效可学习的检索模型

毛佳昕,助理教授,中国人民大学

2022年10月27日(周四)

9:00-12:00

专题讲座8:EmbeddingBasedRetrieval(EBR)andBeyond

李平,杰出工程师,LinkedIn

专题讲座9:

百度文心大模型ERNIE及在搜索中的应用

孙宇,杰出研发架构师,百度,刘璟,主任研发架构师,百度

特邀讲者:陈琪,高级研究员,微软亚洲研究院

讲者简介:陈琪,微软亚洲研究院系统研究组的高级研究员,2010年和2016年分别在北京大学信息科学技术学院获得学士和博士学位,师从肖臻教授,博士期间主要从事分布式系统,云计算和并行计算方向的研究。已经在国际顶级会议和期刊上发表了二十多篇学术论文,发表的论文曾获得过OSDI最佳论文奖。目前主要研究方向包括分布式系统,云计算,深度学习算法和人工智能系统。

报告题目:一个高效的超大规模向量近似最近邻搜索系统报告摘要:随着数据规模的快速增长,基于内存的向量搜索面临着海量且非常昂贵的内存需求,因此,人们对小内存-大硬盘混合型向量近似最近邻搜索的需求也越来越迫切。同时,传统的分布式搜索系统需要将每一个查询都分发给每台机器进行本地查询,这会导致查询延迟和资源开销会随着机器数量的增多而变大,系统可扩展性变差。因此,我们提出了一种非常简单且高效的基于倒排索引思想的内存-硬盘混合型索引和搜索方案SPANN,有效地解决了倒排索引方法中的三个会导致高延迟或者低召回的难题。实验结果显示,SPANN在多个上亿量级数据集上都能取得两倍多的加速达到90%召回率,其查询延迟能够有效地控制在一毫秒左右。同时,SPANN的设计能够有效地被扩展到分布式搜索中限制每个查询的资源开销和延迟大小,从而实现高可扩展性。目前SPANN已经被部署在了微软必应搜索中支持百亿量级的高性能向量近似最近邻搜索。刘政,技术专家,华为2012实验室

报告题目:面向稠密检索系统的模型-索引联合优化

Inthistalkwediscussempiricalprogressonthisproblem.Specifically,wepresentDiskANN,thefirstpublishedexternalmemoryANNSalgorithmthatcanindexabillionpointsandservequeriesatinteractivelatencies(fewmilliseconds)withhighrecallonacommoditymachine.Thisrepresentsanorderofmagnitudemorepointsindexedpermachinethanpreviouswork.Inaddition,theindexallowsreal-timeupdatesanditsin-memoryperformancecompareswellwithotherstateoftheartindices.

Finally,wewillhighlightsomeopenproblemsinthisspace--e.g.,supportforhybridqueriesthatinvolveacombinationofsimilaritysearchandhardmatches,accuratesearchesforout-of-distributionqueries,linearizabilityforupdates--andsomepreliminaryexperiments.

BasedonjointworkwithRavishankarKrishnaswamy,SujasJSubramanya,AditiSingh,RohanKadekodi,Devvrit,ShikharJaiswal,MagdalenDobson,SiddharthGollapudi,NeelKaria,VarunSivasankaran.

在探索预训练模型与端云协同分布式机器学习推荐系统过程中,我们首次归纳并开创了五种服务建构,包括云端单独建模,端侧单独建模,端云联合&云侧为中心的建模(如联邦学习),端云联合&端侧为中心的建模,和端云一体协同建模与推理。通过充分利用端侧模型高频的调用、端上细粒度特征感知,端云协同方式能够有效提高端侧模型的新鲜度和实时性,从而大幅增强系统离线&在线服务效率指标。基于定义的端云协同架构,端+大规模预训练,实践证明该方向有着巨大的应用价值和提升空间。孙宇,杰出研发架构师,百度,刘璟,主任研发架构师,百度

报告题目:EmbeddingBasedRetrieval(EBR)andBeyond

学术主任:王井东,百度计算机视觉首席科学家

王井东,百度计算机视觉首席科学家,负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前,曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。他的代表工作包括高分辨率神经网络(HRNet)、基于有监督的区域特征融合(DRFI)的显著目标检测及基于近邻图的大规模最近邻搜索(NGS,SPTAG)等。他曾担任过许多人工智能会议的领域主席,如CVPR、ICCV、ECCV、AAAI、IJCAI、ACMMM等。他现在是IEEETPAMI和IJCV的编委会成员,曾是IEEETMM和IEEETCSVT编委会成员。因在视觉内容理解和检索领域的杰出贡献,他被遴选为国际电气电子工程师学会和国际模式识别学会会士(IEEE/IAPRFellow)、国际计算机协会杰出会员。

线下地址(疫情允许的情况下):北京中科院计算所四层报告厅(北京市海淀区科学院南路6号)

线上地址:报名交费成功后,会前一周通过邮件发送线上会议号。

报名须知:

1、报名费:CCF会员2800元,非会员3600元。食宿交通费用自理。根据交费先后顺序,会员优先的原则录取,额满为止。疫情期间,根据政府疫情防控政策随时调整举办形式(线上线下同步举办、线上举办),线上线下报名注册费用相同。

THE END
1.原创初学者友好!最全算法学习资源汇总(附链接)6、五分钟学算法:算法与数据结构文章详细分类与整理! 项目介绍:该项目包含10个数据结构:数组、链表、栈、队列、散列表、二叉树、堆、跳表、图、Trie 树,以及10个算法:递归、排序、二分查找、搜索、哈希算法、贪心算法、分治算法、回溯算法、动态规划、https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247510847&idx=1&sn=6179a7eaff2b057fb2b31a7fa389cf86&chksm=e9e1a2b4de962ba29512789ddeab07c706eceaf318899fa57201474abd133495372d8a19a536&scene=27
2.有哪些学习算法的网站推荐?牛客还包含程序员笔试面试题库、在线编程、招聘求职等内容,讨论区还有内推信息发布,在这里不仅能学算法https://www.zhihu.com/question/20368410/answer/2667018053
3.有哪些学习算法的网站推荐?推荐的讲解算法的网站、好博客: 讲解、代码格式、图表都很规范,覆盖广 Matrix67 的一些算法讲解类经典文章,平易近人 BYVoid 的博客,计算机科学标签 范浩强的博客 (曾经)的博客@顾昱洲 有口碑的稳定的在线题库: http://acm.timus.ru/** URAL http://uva.onlinejudge.org/** UVA http://acm.sgu.ru/index.https://www.jianshu.com/p/06ff13b234e3
4.推荐几个算法可视化网站,从此轻松学算法!@程序员大彬: 推荐几个算法可视化网站,从此轻松学算法! 大家好,我是大彬~ 很多初学者在学习数据结构与算法的时候,都会觉得很难,很大一部分是因为数据结构与算法本身比较抽象,不好理解。对于这一点,可以通过一些可视化动画来帮助理解。 下面大彬推荐几个学习数据结构和算法的可视化工具。 Data Structure Vihttps://m.nowcoder.com/feed/main/detail/6ecdab56f00b44bfacf3cb854929059e
5.腾讯实验室推荐一些优秀的算法学习网站在算法学习中,首先自己要找出自己的问题总是出在哪里? 最薄弱的环节是哪一个? 只有发现自身问题,知道如何学习去提升技能,最终才会学以致用。 接着聊 收藏| 数据分析师最常用的10个机器学习算法! 一张让你代码能力突飞猛进的速查表 信息熵、条件熵、联合熵、互信息、相对熵、交叉熵 https://dy.163.com/v2/article/detail/ELF75C9Q0519EA27.html
6.这些算法可视化网站助你轻松学算法腾讯云开发者社区这些算法可视化网站助你轻松学算法 前言 无疑,数据结构与算法学习最大的难点之一就是如何在脑中形象化其抽象的逻辑步骤。而图像在很多时候能够大大帮助我们理解其对应的抽象化的东西,而如果这个图像还是我们自己一点点画出来的,那么无疑这个印象是最深刻的了。没错,今天给大家分享的就是算法可视化的网站。https://cloud.tencent.com/developer/article/1462038
7.6个超酷的练习算法,学习编程的网站如果您已经编程了一段时间,想学习一种新的语言,学习一种新的思维方式,那就去运动吧! 总结 在本文中,我分享了6个超酷的网站来练习算法和学习编程! 我个人认为您不需要学习太多,如果想在面试之前进行练习,请访问Skilled / Hackerrank / Leetcode。 或者,如果您需要学习新的语言,请选择运动。https://news.51cto.com/art/202006/618315.htm
8.程序算法学习网站壹度技术Codeforces 是一家总部位于俄罗斯的竞赛编程网站,它会定期举办在线比赛,并且竞赛选手是世界上一些最优秀的程序员。他们的挑战通常需要用到高等数学和算法,如果你是一个编程新手,他们的挑战很可能对你来说难度比较大。 11https://www.codecademy.com/ 包含在线编程练习和课程视频 https://www.cnblogs.com/mverting/p/9071813.html
9.吴师兄学算法五分钟学算法吴师兄学算法(www.cxyxiaowu.com)提供许多数据结构与算法学习的基础知识, 涵盖 LeetCode 题解、剑指 Offer 题解、数据结构等内容。https://www.cxyxiaowu.com/
10.学习编程算法网站火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,提供云基础、视频与内容分发、数智平台VeDI、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。本页核心内容:学习编程算法网站_凡科建https://www.volcengine.com/theme/1174833-X-7-1
11.算法网草根学python Python语言小册 Python 之旅 python进阶 python Requests官方文档 python从零开始学爬虫 python代码打包教程 python数据结构 python学习笔记 python与常用算法 数据结构 数据结构-时间复杂度 数据结构-空间复杂度 数据结构-链表 数据结构-队列 数据结构-散列表 http://ddrv.cn/
12.程序员自学网站整理大全(非常详细)零基础入门到精通,收藏这篇就够了12、五分钟学算法 地址: https://www.cxyxiaowu.com/ 简介:有一些非常不错的数据结构、算法相关的内容。 推荐指数:? 13、犬小哈教程网 地址: https://www.exception.site/ 简介:一些哈士奇的技术问答漫画很有意思。 推荐指数:? https://blog.csdn.net/Libra1313/article/details/143427307
13.Python机器学习基础教程它是统计学、人工智能和计算机科学交叉的研究领域,也被称为预测分析(predictive analytics)或统计学习(statistical learning)。近年来,机器学习方法已经应用到日常生活的方方面面。从自动推荐看什么电影、点什么食物、买什么商品,到个性化的在线电台和从照片中识别好友,许多现代化网站和设备的核心都是机器学习算法。当你https://www.ituring.com.cn/book/tupubarticle/19667
14.全网最全程序员学习网站汇总,还不赶快收藏地址: 五分钟学算法 简介:有少量非常不错的数据结构、算法相关的内容。 推荐指数:? 13、犬小哈教程网 地址: 犬小哈教程网 简介:少量哈士奇的技术问答漫画很有意思。 推荐指数:? 15、原创技术大联盟 地址: 原创技术大联盟 简介:优秀的技术博主实在太多了,列不完,也看不完,这里有一个导航页https://www.songma.com/news/txtlist_i66992v.html
15.大数据基础术语精粹来袭由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。http://www.mudan.gov.cn/2c908084831c4eb30183205259ac001f/2c908084831c4eb3018320df837d0020/1669185201282129920.html
16.Python机器学习10大经典算法的讲解和示例python为了展示10个经典的机器学习算法的最简例子,我将为每个算法编写一个小的示例代码。这些算法将包括线性回归、逻辑回归、K-最近邻(KNN)、支持向量机(SVM)、决策树、随机森林、朴素贝叶斯、K-均值聚类、主成分分析(PCA)、和梯度提升(Gradient Boosting)。我将使用常见的机器学习库,如 scikit-learn,numpy 和 pandas 来https://www.jb51.net/python/322045198.htm
17.常见用户行为分析模型解析MySecretRainbow预测用户分群——通过机器学习算法预测事件概率 互联网金融产品常常会用到预测用户分群的功能。互联网金融客户按照风险投资偏好这一属性分为保守、稳健和激进,按照投资行为可分为已投资和未投资。 运营人员可以根据这一属性和行为将满足某种条件的用户群体提取出来,譬如激进型但未投资的这群用户,然后分析这一群体的行为特http://www.mysecretrainbow.com/blog/12611.html
18.机器人运动学逆解算法工业机器人机器人运动学逆解问题随着运动学链系的复杂性而增加,寻求建立通用算法相当困难。主要的求解方法包括:解析法、几何法、迭代法、几何解析组合算法以及符号与数值算法等。自20世纪80年代以来,6R机器人的逆运动学问题一直是机器人领域专家和学者密切关注的难题.Tsai和Morgan运用高维逼近方法得到八个二次方程,推测除不同结构https://www.imrobotic.com/news/detail/4879
19.力扣(LeetCode)全球极客挚爱的技术成长平台海量技术面试题库,拥有算法、数据结构、系统设计等 1000+题目,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode-cn.com/
20.支持C++,Java,Python,Go,JavaScript等多语言版本,从此算法学习介绍 :本项目是一套完整的刷题计划,旨在帮助大家少走弯路,循序渐进学算法,关注作者 正式出版:《代码随想录》。 PDF版本:「代码随想录」算法精讲 PDF 版本。 算法公开课:《代码随想录》算法视频公开课。 最强八股文:代码随想录知识星球精华PDF。 刷题顺序:README已经将刷题顺序排好了,按照顺序一道一道刷就可以。https://portrait.gitee.com/programmercarl/leetcode-master
21.融合用户属性信息的冷启动推荐算法AET最常见的协同过滤算法是KNN[13]。协同过滤最大的困难在于需要大量的用户历史数据,对于新用户而言,缺乏历史数据使得系统难以计算他和其余用户的相似性,难以定位用户的兴趣与需求,从而降低了为新用户推荐的准确性——这个问题被称作冷启动(cold start)问题。http://www.chinaaet.com/article/3000073409