ADL131《向量学习与搜索》开始报名线上线下同步举办

本期CCF学科前沿讲习班ADL131《向量学习与搜索》,将对向量学习与检索的最新进展进行深入浅出的讲解,从自然语言自监督和搜索预训练、视觉预训练、基于哈希的向量搜索技术、大规模向量搜索系统、预训练模型在推荐系统中的应用等不同应用领域视角为听众介绍向量学习与搜索的关键技术和前沿研究。相信学员经过本次讲习班,能够深入了解向量学习与搜索的基础技术、主要挑战和应用场景,开阔科研视野,增强实践能力。

本期ADL讲习班邀请了10位来自国内外著名高校与企业科研机构活跃在前沿领域的专家学者做主题报告。第一天,陈琪研究员讲解高效的超大规模向量近似最近邻搜索系统SPANN,刘政研究员介绍面向稠密检索系统的模型-索引联合优化,MatthijsDouze介绍SimilaritysearchandtheFaisslibrary,何栋梁博士讲解解耦表观与运动信息的视频自监督训练及视频文本弱监督预训练方法。第二天,HarshaSimhadri研究员介绍ApproximateNearestNeighborSearchalgorithmsforweb-scalesearchandrecommendation,杨红霞研究员讲解基于预训练模型与端云协同的推荐系统,孙宇架构师和刘璟架构师介绍百度文心大模型ERNIE及在搜索中的应用。第三天,李平博士讲授EmbeddingBasedRetrieval(EBR)andBeyond,毛佳昕教授讲解面向文本搜索的高效可学习的检索模型。通过三天教学,旨在带领学员实现对向量学习与搜索从基础技术,到前沿科研动态,再到典型应用场景的深入学习与思考。学术主任:王井东百度计算机视觉首席科学家主办单位:中国计算机学会

本期ADL主题向量学习与搜索,由王井东担任学术主任,邀请到陈琪(高级研究员,微软亚洲研究院)、刘政(技术专家,华为2012实验室)、MatthijsDouze(ResearchScientist,FAIRlab)、何栋梁(资深算法研发工程师,百度)、HarshaSimhadri(PrincipalResearcher,MicrosoftResearch)、杨红霞(人工智能科学家,阿里巴巴达摩院)、孙宇(杰出研发架构师,百度)、刘璟(主任研发架构师,百度)、李平(杰出工程师,LinkedIn)和毛佳昕(助理教授,中国人民大学)10位专家做专题讲座。

活动日程:

2022年10月25日(周二)

9:00-9:10

开班仪式

9:10-9:20

全体合影

9:20-10:50

专题讲座1:一个高效的超大规模向量近似最近邻搜索系统

陈琪,高级研究员,微软亚洲研究院

10:50-12:20

专题讲座2:面向稠密检索系统的模型-索引联合优化

刘政,技术专家,华为2012实验室

14:00-15:30

专题讲座3:SimilaritysearchandtheFaisslibrary

MatthijsDouze,ResearchScientist,FAIRlab

15:30-17:00

专题讲座4:解耦表观与运动信息的视频自监督训练及视频文本弱监督预训练方法

何栋梁,资深算法研发工程师,百度

2022年10月26日(周三)

9:00-10:30

专题讲座5:ApproximateNearestNeighborSearchalgorithmsforweb-scalesearchandrecommendation

HarshaSimhadri,PrincipalResearcher,MicrosoftResearch

10:30-12:00

专题讲座6:基于预训练模型与端云协同的推荐系统

杨红霞,人工智能科学家,阿里巴巴达摩院

14:00-17:00

专题讲座7:

面向文本搜索的高效可学习的检索模型

毛佳昕,助理教授,中国人民大学

2022年10月27日(周四)

9:00-12:00

专题讲座8:EmbeddingBasedRetrieval(EBR)andBeyond

李平,杰出工程师,LinkedIn

专题讲座9:

百度文心大模型ERNIE及在搜索中的应用

孙宇,杰出研发架构师,百度,刘璟,主任研发架构师,百度

特邀讲者:陈琪,高级研究员,微软亚洲研究院

讲者简介:陈琪,微软亚洲研究院系统研究组的高级研究员,2010年和2016年分别在北京大学信息科学技术学院获得学士和博士学位,师从肖臻教授,博士期间主要从事分布式系统,云计算和并行计算方向的研究。已经在国际顶级会议和期刊上发表了二十多篇学术论文,发表的论文曾获得过OSDI最佳论文奖。目前主要研究方向包括分布式系统,云计算,深度学习算法和人工智能系统。

报告题目:一个高效的超大规模向量近似最近邻搜索系统报告摘要:随着数据规模的快速增长,基于内存的向量搜索面临着海量且非常昂贵的内存需求,因此,人们对小内存-大硬盘混合型向量近似最近邻搜索的需求也越来越迫切。同时,传统的分布式搜索系统需要将每一个查询都分发给每台机器进行本地查询,这会导致查询延迟和资源开销会随着机器数量的增多而变大,系统可扩展性变差。因此,我们提出了一种非常简单且高效的基于倒排索引思想的内存-硬盘混合型索引和搜索方案SPANN,有效地解决了倒排索引方法中的三个会导致高延迟或者低召回的难题。实验结果显示,SPANN在多个上亿量级数据集上都能取得两倍多的加速达到90%召回率,其查询延迟能够有效地控制在一毫秒左右。同时,SPANN的设计能够有效地被扩展到分布式搜索中限制每个查询的资源开销和延迟大小,从而实现高可扩展性。目前SPANN已经被部署在了微软必应搜索中支持百亿量级的高性能向量近似最近邻搜索。刘政,技术专家,华为2012实验室

报告题目:面向稠密检索系统的模型-索引联合优化

Inthistalkwediscussempiricalprogressonthisproblem.Specifically,wepresentDiskANN,thefirstpublishedexternalmemoryANNSalgorithmthatcanindexabillionpointsandservequeriesatinteractivelatencies(fewmilliseconds)withhighrecallonacommoditymachine.Thisrepresentsanorderofmagnitudemorepointsindexedpermachinethanpreviouswork.Inaddition,theindexallowsreal-timeupdatesanditsin-memoryperformancecompareswellwithotherstateoftheartindices.

Finally,wewillhighlightsomeopenproblemsinthisspace--e.g.,supportforhybridqueriesthatinvolveacombinationofsimilaritysearchandhardmatches,accuratesearchesforout-of-distributionqueries,linearizabilityforupdates--andsomepreliminaryexperiments.

BasedonjointworkwithRavishankarKrishnaswamy,SujasJSubramanya,AditiSingh,RohanKadekodi,Devvrit,ShikharJaiswal,MagdalenDobson,SiddharthGollapudi,NeelKaria,VarunSivasankaran.

在探索预训练模型与端云协同分布式机器学习推荐系统过程中,我们首次归纳并开创了五种服务建构,包括云端单独建模,端侧单独建模,端云联合&云侧为中心的建模(如联邦学习),端云联合&端侧为中心的建模,和端云一体协同建模与推理。通过充分利用端侧模型高频的调用、端上细粒度特征感知,端云协同方式能够有效提高端侧模型的新鲜度和实时性,从而大幅增强系统离线&在线服务效率指标。基于定义的端云协同架构,端+大规模预训练,实践证明该方向有着巨大的应用价值和提升空间。孙宇,杰出研发架构师,百度,刘璟,主任研发架构师,百度

报告题目:EmbeddingBasedRetrieval(EBR)andBeyond

学术主任:王井东,百度计算机视觉首席科学家

王井东,百度计算机视觉首席科学家,负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前,曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。他的代表工作包括高分辨率神经网络(HRNet)、基于有监督的区域特征融合(DRFI)的显著目标检测及基于近邻图的大规模最近邻搜索(NGS,SPTAG)等。他曾担任过许多人工智能会议的领域主席,如CVPR、ICCV、ECCV、AAAI、IJCAI、ACMMM等。他现在是IEEETPAMI和IJCV的编委会成员,曾是IEEETMM和IEEETCSVT编委会成员。因在视觉内容理解和检索领域的杰出贡献,他被遴选为国际电气电子工程师学会和国际模式识别学会会士(IEEE/IAPRFellow)、国际计算机协会杰出会员。

线下地址(疫情允许的情况下):北京中科院计算所四层报告厅(北京市海淀区科学院南路6号)

线上地址:报名交费成功后,会前一周通过邮件发送线上会议号。

报名须知:

1、报名费:CCF会员2800元,非会员3600元。食宿交通费用自理。根据交费先后顺序,会员优先的原则录取,额满为止。疫情期间,根据政府疫情防控政策随时调整举办形式(线上线下同步举办、线上举办),线上线下报名注册费用相同。

THE END
1.算法网站:6个非常适合学习编程/算法的网站,选一个你喜欢的吧本文推荐了6个适合学习和练习编程算法的网站,包括HackerRank、TopCoder、Geekforgeeks、LeetCode、Daily Coding Problem和Exercism.io,涵盖了从基础到高级的算法题,适合不同水平的开发者提升技能,部分网站还提供在线编程环境和代码性能评估。 摘要由CSDN通过智能技术生成 https://blog.csdn.net/qq_42366672/article/details/123920105
2.人工智能51CTO.COM算法 自然语言处理 语音识别 人脸识别 机器视觉 知识图谱 无人驾驶 机器人 开发 云计算 开源 大数据 网络 安全 全部话题 关注该话题的人还关注了 机器学习 2011内容 算法 1605内容 深度学习 1675内容 机器视觉 64内容 知识图谱 70内容 自然语言处理 109内容 机器人 914内容 人脸识别 460内容 我关注的话题 相关https://ai.51cto.com/
3.AlphaZero加强版AlphaTensor问世,发现史上最快矩阵乘法算法大量研究利用ML技术进行大脑相关研究,例如将高维非线性模式分类方法应用于功能磁共振成像图像,以区分与谎言和真相相关的大脑活动的空间模式;一种结合常规和灌注磁共振的计算机辅助分类方法,用于鉴别诊断脑瘤类型和分级;利用SVM通过分析头皮EEG,通过构建特定于患者的分类器来检测癫痫发作;各种机器学习算法(如SVM、NN和随机森https://www.medsci.cn/article/show_article.do?id=97c6e419443f
4.台风科学研究为防灾减灾强支撑台风尺度估算研究采用了静止气象卫星红外观测数据、中国气象局和联合台风警报中心(JTWC)的最佳路径资料,以及少量的台风中心和外围飞机观测报数据;选用多层感知器(MLP)、广义回归神经网络(GRNN)等5种典型的机器学习算法,建立卫星观测及台风本体物理属性信息与台风特征大风半径之间的非线性关系。 https://www.cma.gov.cn/2011xwzx/2011xqxxw/2011xqxyw/202305/t20230531_5541701.html
5.如何选择机器学习算法此外,设计器中还提供了“优化模型超参数”组件。 此组件的目标是确定机器学习模型的最佳超参数。 该组件使用不同的设置组合来生成和测试多个模型。 它将比较所有模型的指标,以获取设置组合。 虽然这是确保跨越参数空间的好方法,但训练模型所需的时间随参数数量呈指数增长。 优点是通常情况下,参数较多说明算法具有更大https://docs.microsoft.com/zh-cn/azure/machine-learning/studio/algorithm-choice
6.Data高引文章荐读MDPI编辑荐读—论文—科学网本文阐述了机器学习模型在销售预测分析中的主要方法和案例研究。销售预测是一个回归问题,而不是一个时间序列问题。与时间序列方法相比,使用回归方法进行销售预测通常能带来更好的结果。回归方法的主要假设之一是,历史数据中的模式将在未来重复。验证集的精度是选择机器学习算法最佳迭代次数的重要指标。在新产品推出,特定销https://news.sciencenet.cn/htmlpaper/2022/2/202222318263480070288.shtm
7.有哪些学习算法的网站推荐?算法编程题库 1. leetcode http://leetcode.com/ 2. careerup http://www.c RivenL阅读 743评论 0赞 2 ACM 国内外几个网站 & 题目分类 国外 西班牙Valladolid大学 Uva:https://uva.onlinejudge.org俄罗斯Ural 百炼阅读 4,623评论 0赞 18 ACM算法分类、推荐学习资料和配套习题 相信每一位玩ACM程https://www.jianshu.com/p/06ff13b234e3
8.25个ai智能写作网站全盘点,300%解放内容生产力!2. 5 种最佳SEO写作工具 (1)Surfer:最适合 SEO 写作 如果只想获得一个工具来创建 SEO 内容,Surfer是另一种工具选择,付费计划比GrowthBar贵一点。使用Surfer,用户可以创建针对 SEO 优化的内容,抓取网络内容创意,并在 Google 中快速排名。 Surfer的文档编辑器可让用户直接复制并粘贴到您的网站内容管理系统 (CMS) https://boardmix.cn/article/ai-writing-websites/
9.腾讯实验室推荐一些优秀的算法学习网站机器学习算法与Python实战 重磅干货,第一时间送达 作者: 腾讯安全联合实验室 链接: https://www.zhihu.com/question/20368410/answer/726247443 算法是程序的灵魂。 以下从在线题库、在线提交程序源代码等维度推荐一些优秀的网站,希望能对大家有所帮助。一、在线题库算法学习,本质上是学习一门语言。 学习语言的要领https://dy.163.com/v2/article/detail/ELF75C9Q0519EA27.html
10.终极算法(豆瓣)购物网站用算法来为你推荐商品,点评网站用算法来帮你选择餐馆,GPS系统用算法来帮你选择最佳路线,公司用算法来选择求职者…… 当机器最终学会如何学习时,将会发生什么? 不同于传统算法,现在悄然主导我们生活的是“能够学习的机器”,它们通过学习我们琐碎的数据,来执行任务;它们甚至在我们还没提出要求,就能完成我们想做https://book.douban.com/subject/26931905/
11.推荐几个算法可视化网站,从此轻松学算法!大家好,我是大彬~ 很多初学者在学习数据结构与算法的时候,都会觉得很难,很大一部分是因为数据结构与算法本身比较抽象,不好理解。对于这一点,可以通过一些可视化动画来帮助理解。 下面大彬推荐几个学习数据结构和算法的可视化工具。 Data Structure Visualizations 这是https://m.nowcoder.com/feed/main/detail/6ecdab56f00b44bfacf3cb854929059e
12.吴师兄学算法五分钟学算法吴师兄学算法(www.cxyxiaowu.com)提供许多数据结构与算法学习的基础知识, 涵盖 LeetCode 题解、剑指 Offer 题解、数据结构等内容。https://www.cxyxiaowu.com/
13.程序员必备的8个高质量学习网站,让你轻松提升编程能力,走上人生巅峰这是一个高质量在线技术网站 LeetCode到目前为止,已经有超过1000多公开题目资源了,涉及到许多算法、数据结构等等,而且每一道题都有答案,可以从别人的解题思路中寻找灵感。另外题目都做了详细的分类,初学者完全可以利用这个网站系统性的学习。 传送地址:https://leetcode-cn.com/ https://www.cnblogs.com/aitidog/p/15095654.html
14.GitHublabuladong/fucking我的算法网站、所有配套插件都集成了一个算法可视化工具,可以对数据结构和递归过程进行可视化,大幅降低理解算法的难度。几乎每道题目的解法代码都有对应的可视化面板,具体参见下方介绍。 二、学习网站 内容当然是我的系列算法教程中最核心的部分,我的算法教程都发布在网站labuladong.online上,相信你会未来会在这里花费大https://github.com/labuladong/fucking-algorithm
15.自然语言处理与计算语言学文本分类和聚类是另外两类常见的文本处理任务,在说明如何对文本应用深度学习算法之前,本书将介绍相关知识。 下一章将介绍如何使用Python,以及为什么Python是最佳的编程语言,同时还将讨论一些Python的使用技巧来帮助我们进行文本分析。https://www.epubit.com/bookDetails?id=UB7218a27c085bf
16.力扣(LeetCode)全球极客挚爱的技术成长平台海量技术面试题库,拥有算法、数据结构、系统设计等 1000+题目,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode-cn.com/
17.最强AlphaGo怎样炼成?看DeepMind团队全面解读David Silver:实际上,我们从来没有为特定的弱点而人为引导过AlphaGo,而是一直专注于原则化的机器学习算法,让算法自己学会纠正自己的错误。 想找到围棋的最优解当然是不现实的,所以,弱点总是存在。在实践中,用正确的探索方法来保证训练没有卡在局部最优解中非常重要,但我们没有用上人为的引导。 https://sports.sina.cn/others/qipai/2017-10-20/detail-ifymzqpq2688175.d.html
18.几个常用的算法学习网站腾讯云开发者社区几个常用的算法学习网站 万丈高楼平地起,要想厚积薄发平时就必须努力!少说多做,能动手的决不动口。这几个网站收藏了,抽时间练习上面的算法!加油!Just fighting! http://www.lintcode.com https://www.topcoder.com http://train.usaco.org https://leetcode.comhttps://cloud.tencent.com/developer/article/1374687
19.程序员必备6大编程学习网站推荐专注于算法学习的网站,适合计算机专业学生和程序员。提供图解力扣、数据结构、传统算法、知识小课堂、剑指OFFER、程序员、经典算法题等版块。3 学术堂 专业的论文学习网站,提供丰富的论文素材和写作指导。通过拆分论文的每个具体模块,教你如何完整书写一篇优质的论文。4 牛客网 https://mbd.baidu.com/newspage/data/dtlandingsuper?nid=dt_4831933509716243159