ADL131《向量学习与搜索》开始报名线上线下同步举办

本期CCF学科前沿讲习班ADL131《向量学习与搜索》,将对向量学习与检索的最新进展进行深入浅出的讲解,从自然语言自监督和搜索预训练、视觉预训练、基于哈希的向量搜索技术、大规模向量搜索系统、预训练模型在推荐系统中的应用等不同应用领域视角为听众介绍向量学习与搜索的关键技术和前沿研究。相信学员经过本次讲习班,能够深入了解向量学习与搜索的基础技术、主要挑战和应用场景,开阔科研视野,增强实践能力。

本期ADL讲习班邀请了10位来自国内外著名高校与企业科研机构活跃在前沿领域的专家学者做主题报告。第一天,陈琪研究员讲解高效的超大规模向量近似最近邻搜索系统SPANN,刘政研究员介绍面向稠密检索系统的模型-索引联合优化,MatthijsDouze介绍SimilaritysearchandtheFaisslibrary,何栋梁博士讲解解耦表观与运动信息的视频自监督训练及视频文本弱监督预训练方法。第二天,HarshaSimhadri研究员介绍ApproximateNearestNeighborSearchalgorithmsforweb-scalesearchandrecommendation,杨红霞研究员讲解基于预训练模型与端云协同的推荐系统,孙宇架构师和刘璟架构师介绍百度文心大模型ERNIE及在搜索中的应用。第三天,李平博士讲授EmbeddingBasedRetrieval(EBR)andBeyond,毛佳昕教授讲解面向文本搜索的高效可学习的检索模型。通过三天教学,旨在带领学员实现对向量学习与搜索从基础技术,到前沿科研动态,再到典型应用场景的深入学习与思考。学术主任:王井东百度计算机视觉首席科学家主办单位:中国计算机学会

本期ADL主题向量学习与搜索,由王井东担任学术主任,邀请到陈琪(高级研究员,微软亚洲研究院)、刘政(技术专家,华为2012实验室)、MatthijsDouze(ResearchScientist,FAIRlab)、何栋梁(资深算法研发工程师,百度)、HarshaSimhadri(PrincipalResearcher,MicrosoftResearch)、杨红霞(人工智能科学家,阿里巴巴达摩院)、孙宇(杰出研发架构师,百度)、刘璟(主任研发架构师,百度)、李平(杰出工程师,LinkedIn)和毛佳昕(助理教授,中国人民大学)10位专家做专题讲座。

活动日程:

2022年10月25日(周二)

9:00-9:10

开班仪式

9:10-9:20

全体合影

9:20-10:50

专题讲座1:一个高效的超大规模向量近似最近邻搜索系统

陈琪,高级研究员,微软亚洲研究院

10:50-12:20

专题讲座2:面向稠密检索系统的模型-索引联合优化

刘政,技术专家,华为2012实验室

14:00-15:30

专题讲座3:SimilaritysearchandtheFaisslibrary

MatthijsDouze,ResearchScientist,FAIRlab

15:30-17:00

专题讲座4:解耦表观与运动信息的视频自监督训练及视频文本弱监督预训练方法

何栋梁,资深算法研发工程师,百度

2022年10月26日(周三)

9:00-10:30

专题讲座5:ApproximateNearestNeighborSearchalgorithmsforweb-scalesearchandrecommendation

HarshaSimhadri,PrincipalResearcher,MicrosoftResearch

10:30-12:00

专题讲座6:基于预训练模型与端云协同的推荐系统

杨红霞,人工智能科学家,阿里巴巴达摩院

14:00-17:00

专题讲座7:

面向文本搜索的高效可学习的检索模型

毛佳昕,助理教授,中国人民大学

2022年10月27日(周四)

9:00-12:00

专题讲座8:EmbeddingBasedRetrieval(EBR)andBeyond

李平,杰出工程师,LinkedIn

专题讲座9:

百度文心大模型ERNIE及在搜索中的应用

孙宇,杰出研发架构师,百度,刘璟,主任研发架构师,百度

特邀讲者:陈琪,高级研究员,微软亚洲研究院

讲者简介:陈琪,微软亚洲研究院系统研究组的高级研究员,2010年和2016年分别在北京大学信息科学技术学院获得学士和博士学位,师从肖臻教授,博士期间主要从事分布式系统,云计算和并行计算方向的研究。已经在国际顶级会议和期刊上发表了二十多篇学术论文,发表的论文曾获得过OSDI最佳论文奖。目前主要研究方向包括分布式系统,云计算,深度学习算法和人工智能系统。

报告题目:一个高效的超大规模向量近似最近邻搜索系统报告摘要:随着数据规模的快速增长,基于内存的向量搜索面临着海量且非常昂贵的内存需求,因此,人们对小内存-大硬盘混合型向量近似最近邻搜索的需求也越来越迫切。同时,传统的分布式搜索系统需要将每一个查询都分发给每台机器进行本地查询,这会导致查询延迟和资源开销会随着机器数量的增多而变大,系统可扩展性变差。因此,我们提出了一种非常简单且高效的基于倒排索引思想的内存-硬盘混合型索引和搜索方案SPANN,有效地解决了倒排索引方法中的三个会导致高延迟或者低召回的难题。实验结果显示,SPANN在多个上亿量级数据集上都能取得两倍多的加速达到90%召回率,其查询延迟能够有效地控制在一毫秒左右。同时,SPANN的设计能够有效地被扩展到分布式搜索中限制每个查询的资源开销和延迟大小,从而实现高可扩展性。目前SPANN已经被部署在了微软必应搜索中支持百亿量级的高性能向量近似最近邻搜索。刘政,技术专家,华为2012实验室

报告题目:面向稠密检索系统的模型-索引联合优化

Inthistalkwediscussempiricalprogressonthisproblem.Specifically,wepresentDiskANN,thefirstpublishedexternalmemoryANNSalgorithmthatcanindexabillionpointsandservequeriesatinteractivelatencies(fewmilliseconds)withhighrecallonacommoditymachine.Thisrepresentsanorderofmagnitudemorepointsindexedpermachinethanpreviouswork.Inaddition,theindexallowsreal-timeupdatesanditsin-memoryperformancecompareswellwithotherstateoftheartindices.

Finally,wewillhighlightsomeopenproblemsinthisspace--e.g.,supportforhybridqueriesthatinvolveacombinationofsimilaritysearchandhardmatches,accuratesearchesforout-of-distributionqueries,linearizabilityforupdates--andsomepreliminaryexperiments.

BasedonjointworkwithRavishankarKrishnaswamy,SujasJSubramanya,AditiSingh,RohanKadekodi,Devvrit,ShikharJaiswal,MagdalenDobson,SiddharthGollapudi,NeelKaria,VarunSivasankaran.

在探索预训练模型与端云协同分布式机器学习推荐系统过程中,我们首次归纳并开创了五种服务建构,包括云端单独建模,端侧单独建模,端云联合&云侧为中心的建模(如联邦学习),端云联合&端侧为中心的建模,和端云一体协同建模与推理。通过充分利用端侧模型高频的调用、端上细粒度特征感知,端云协同方式能够有效提高端侧模型的新鲜度和实时性,从而大幅增强系统离线&在线服务效率指标。基于定义的端云协同架构,端+大规模预训练,实践证明该方向有着巨大的应用价值和提升空间。孙宇,杰出研发架构师,百度,刘璟,主任研发架构师,百度

报告题目:EmbeddingBasedRetrieval(EBR)andBeyond

学术主任:王井东,百度计算机视觉首席科学家

王井东,百度计算机视觉首席科学家,负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前,曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。他的代表工作包括高分辨率神经网络(HRNet)、基于有监督的区域特征融合(DRFI)的显著目标检测及基于近邻图的大规模最近邻搜索(NGS,SPTAG)等。他曾担任过许多人工智能会议的领域主席,如CVPR、ICCV、ECCV、AAAI、IJCAI、ACMMM等。他现在是IEEETPAMI和IJCV的编委会成员,曾是IEEETMM和IEEETCSVT编委会成员。因在视觉内容理解和检索领域的杰出贡献,他被遴选为国际电气电子工程师学会和国际模式识别学会会士(IEEE/IAPRFellow)、国际计算机协会杰出会员。

线下地址(疫情允许的情况下):北京中科院计算所四层报告厅(北京市海淀区科学院南路6号)

线上地址:报名交费成功后,会前一周通过邮件发送线上会议号。

报名须知:

1、报名费:CCF会员2800元,非会员3600元。食宿交通费用自理。根据交费先后顺序,会员优先的原则录取,额满为止。疫情期间,根据政府疫情防控政策随时调整举办形式(线上线下同步举办、线上举办),线上线下报名注册费用相同。

THE END
1.76周年校庆学术报告——如何高效的设计深度学习算法南京邮电大学自动化学院朱松豪副教授于2018年4月13日上午在我院做了“如何高效的设计深度学习算法”的学术报告。报告会由自动化系副主任尹海涛副教授主持,我院众多教师和学生参加了学术报告会议。朱松豪副教授就如何高效的设计深度学习算法展开了详细的论述,并与参会者进行了深入的沟通。朱松豪副教授首先介绍了开展视觉工https://coa.njupt.edu.cn/2018/0416/c2288a125137/page.htm
2.如何抓住重点,系统高效地学习数据结构与算法?你是否曾跟我一样,因为看不懂数据结构和算法,而一度怀疑是自己太笨?实际上,很多人在第一次接触这些知识时,都会有这种感觉,觉得数据结构和算法很抽象,晦涩难懂,宛如天书。正是这个原因,让很多初学者望而却步。 我个人觉得,其实真正的原因是你没有找到好的学习方法,没有抓住学习的重点。实际上,数据结构和算法的东https://www.imooc.com/article/332964
3.覃超算法训练营学习方法分享菁芜覃超-算法训练营 学习方法分享 精通一个领域的三步走方式 Chunk it up 切碎知识点 Deliberate Practicing 刻意练习 Feedback 反馈 切碎知识点 庖丁解牛的故事 将算法数据结构分解成一块一块相对简单化、脉络化的知识脑图,脉络相连。 任何一个知识体系都是一棵树,如果要掌握某个领域的关键知识,就需要将知识变成一颗https://www.cnblogs.com/Forgenvueory/p/13439624.html
4.腾讯Offer已拿,这99道算法高频面试题别漏了,80%都败在算法上3. 如何对类别变量进行独热编码? 4. 如何把“年龄”字段按照我们的阈值分段? 5. 如何根据变量相关性画出热力图? 6. 如何把分布修正为类正态分布? 7. 怎么简单使用PCA来划分数据且可视化呢? 8. 怎么简单使用LDA来划分数据且可视化呢? 深度学习类: https://maimai.cn/article/detail?fid=1699482551&efid=WqEcULyCOsAoPWgBSGGaFg
5.2023年,工业3D视觉或SLAM,我到底该如何高效学习?3D视觉工坊内有高质量教程资料,及时答疑解惑,助力高效解决问题 老客户优惠!七五折基础上再享优惠 「3D视觉从入门到精通」知识星球,致力于打造国内超一流的3D视觉学习社区。 经过5年多时间的沉淀,感谢各位星球嘉宾与小伙伴们的倾力分享,星球内汇集了3D视觉各个细分领域的非常丰富的学习资料。 https://www.shangyexinzhi.com/article/8944002.html
6.人工智能快速发展趋势下,中国该如何应对?1、AI芯片针对机器学习算法设计开发,广泛应用于云、边、端各类场景 AI芯片(AI Chip)是一种专门用于处理人工智能相关的计算任务的芯片。它的架构是专门为人工智能算法和应用进行优化的,能够高效地处理大量结构化和非结构化数据。AI芯片能够高效地支持视觉、语音、自然语言处理等智能处理任务。目前,AI芯片主要分为GPU、https://developer.aliyun.com/article/1179745
7.极客大学·算法训练营算法训练营即将开班,VIP 学习资料限时免费领取! 基础篇:如何高效学习数据结构与算法 前Facebook 工程师的“三位一体”高效学习法视频课、三张数据结构与算法知识图谱 训练篇:数据结构与算法进阶题库 讲师亲自整理的推荐题目及解法、算法训练营学员每周必刷必练题库 面试篇:不再让算法成为你的面试障碍 30 道大厂https://time.geekbang.org/college/algorithm/1000332?utm_source=time_web
8.深度学习十大算法快速掌握!深度学习算法自2006年深度学习概念被提出以来,20年快过去了,深度学习作为人工智能领域的一场革命,已经催生了许多具有影响力的算法。那么,你所认为深度学习的top10算法有哪些呢? 以下是大力哥我心目中的深度学习top10算法,它们在创新性、应用价值和影响力方面都具有重要的地位。 https://blog.csdn.net/u014073556/article/details/136733678
9.2024年图灵科技新书预告,技术人的必备技能,藏在每一本书里第2章讲解能提供ndarray对象的NumPy,它可以用Python高效地存储和操作大型数组;第3章主要涉及提供DataFrame对象的Pandas,它可以用Python高效地存储和操作带标签的列式数据;第4章的主角是Matplotlib,它为Python提供了许多数据可视化功能;第5章以scikit-learn为主,这个程序库为最重要的机器学习算法提供了高效整洁的Python版https://blog.51cto.com/u_15767091/10026356
10.第四范式先知平台的整体架构和实现细节架构胡时伟机器学习是一种数据驱动的实现人工智能的方式,机器学习在实际应用中的大数据、高维度背景导致需要一个高效计算的平台,同时,监督学习领域著名的 No Free Lunch 定理指出,没有一个机器学习模型能够对所有的问题都是最有效的。所以在不同的实际问题里,需要使用不同的机器学习算法或者对机器学习算法做适应性地调整,去达到https://www.infoq.cn/article/the-fourth-paradigm-prophet-platform
11.MindSpore官网在昇思MindSpore Reinforcement 0.2版本中提供了一套面向强化学习领域的Python编程API,例如Actor用于环境交互获得奖励,Learner学习并更新策略,以及Trainer用于控制算法逻辑等抽象,使整个算法结构更加清晰、简洁,有助于高效的算法开发和模块复用;另外在仓库中内置了一些经典的强化学习算法,如DQN、PPO等(后续版本中将会持续更新https://www.mindspore.cn/news/newschildren?id=967
12.科学网—[转载]强化学习在资源优化领域的应用基于这种行业趋势,本文针对强化学习算法在资源优化领域的应用展开调研,帮助读者了解该领域最新的进展,学习如何利用数据驱动的方式解决资源优化问题。鉴于资源优化问题场景众多、设定繁杂,划分出3类应用广泛的资源优化问题,即资源平衡问题、资源分配问题、装箱问题,集中进行调研。在每个领域阐述问题的特性,并根据具体的问题特性https://blog.sciencenet.cn/blog-3472670-1312677.html