ADL131《向量学习与搜索》开始报名线上线下同步举办

本期CCF学科前沿讲习班ADL131《向量学习与搜索》,将对向量学习与检索的最新进展进行深入浅出的讲解,从自然语言自监督和搜索预训练、视觉预训练、基于哈希的向量搜索技术、大规模向量搜索系统、预训练模型在推荐系统中的应用等不同应用领域视角为听众介绍向量学习与搜索的关键技术和前沿研究。相信学员经过本次讲习班,能够深入了解向量学习与搜索的基础技术、主要挑战和应用场景,开阔科研视野,增强实践能力。

本期ADL讲习班邀请了10位来自国内外著名高校与企业科研机构活跃在前沿领域的专家学者做主题报告。第一天,陈琪研究员讲解高效的超大规模向量近似最近邻搜索系统SPANN,刘政研究员介绍面向稠密检索系统的模型-索引联合优化,MatthijsDouze介绍SimilaritysearchandtheFaisslibrary,何栋梁博士讲解解耦表观与运动信息的视频自监督训练及视频文本弱监督预训练方法。第二天,HarshaSimhadri研究员介绍ApproximateNearestNeighborSearchalgorithmsforweb-scalesearchandrecommendation,杨红霞研究员讲解基于预训练模型与端云协同的推荐系统,孙宇架构师和刘璟架构师介绍百度文心大模型ERNIE及在搜索中的应用。第三天,李平博士讲授EmbeddingBasedRetrieval(EBR)andBeyond,毛佳昕教授讲解面向文本搜索的高效可学习的检索模型。通过三天教学,旨在带领学员实现对向量学习与搜索从基础技术,到前沿科研动态,再到典型应用场景的深入学习与思考。学术主任:王井东百度计算机视觉首席科学家主办单位:中国计算机学会

本期ADL主题向量学习与搜索,由王井东担任学术主任,邀请到陈琪(高级研究员,微软亚洲研究院)、刘政(技术专家,华为2012实验室)、MatthijsDouze(ResearchScientist,FAIRlab)、何栋梁(资深算法研发工程师,百度)、HarshaSimhadri(PrincipalResearcher,MicrosoftResearch)、杨红霞(人工智能科学家,阿里巴巴达摩院)、孙宇(杰出研发架构师,百度)、刘璟(主任研发架构师,百度)、李平(杰出工程师,LinkedIn)和毛佳昕(助理教授,中国人民大学)10位专家做专题讲座。

活动日程:

2022年10月25日(周二)

9:00-9:10

开班仪式

9:10-9:20

全体合影

9:20-10:50

专题讲座1:一个高效的超大规模向量近似最近邻搜索系统

陈琪,高级研究员,微软亚洲研究院

10:50-12:20

专题讲座2:面向稠密检索系统的模型-索引联合优化

刘政,技术专家,华为2012实验室

14:00-15:30

专题讲座3:SimilaritysearchandtheFaisslibrary

MatthijsDouze,ResearchScientist,FAIRlab

15:30-17:00

专题讲座4:解耦表观与运动信息的视频自监督训练及视频文本弱监督预训练方法

何栋梁,资深算法研发工程师,百度

2022年10月26日(周三)

9:00-10:30

专题讲座5:ApproximateNearestNeighborSearchalgorithmsforweb-scalesearchandrecommendation

HarshaSimhadri,PrincipalResearcher,MicrosoftResearch

10:30-12:00

专题讲座6:基于预训练模型与端云协同的推荐系统

杨红霞,人工智能科学家,阿里巴巴达摩院

14:00-17:00

专题讲座7:

面向文本搜索的高效可学习的检索模型

毛佳昕,助理教授,中国人民大学

2022年10月27日(周四)

9:00-12:00

专题讲座8:EmbeddingBasedRetrieval(EBR)andBeyond

李平,杰出工程师,LinkedIn

专题讲座9:

百度文心大模型ERNIE及在搜索中的应用

孙宇,杰出研发架构师,百度,刘璟,主任研发架构师,百度

特邀讲者:陈琪,高级研究员,微软亚洲研究院

讲者简介:陈琪,微软亚洲研究院系统研究组的高级研究员,2010年和2016年分别在北京大学信息科学技术学院获得学士和博士学位,师从肖臻教授,博士期间主要从事分布式系统,云计算和并行计算方向的研究。已经在国际顶级会议和期刊上发表了二十多篇学术论文,发表的论文曾获得过OSDI最佳论文奖。目前主要研究方向包括分布式系统,云计算,深度学习算法和人工智能系统。

报告题目:一个高效的超大规模向量近似最近邻搜索系统报告摘要:随着数据规模的快速增长,基于内存的向量搜索面临着海量且非常昂贵的内存需求,因此,人们对小内存-大硬盘混合型向量近似最近邻搜索的需求也越来越迫切。同时,传统的分布式搜索系统需要将每一个查询都分发给每台机器进行本地查询,这会导致查询延迟和资源开销会随着机器数量的增多而变大,系统可扩展性变差。因此,我们提出了一种非常简单且高效的基于倒排索引思想的内存-硬盘混合型索引和搜索方案SPANN,有效地解决了倒排索引方法中的三个会导致高延迟或者低召回的难题。实验结果显示,SPANN在多个上亿量级数据集上都能取得两倍多的加速达到90%召回率,其查询延迟能够有效地控制在一毫秒左右。同时,SPANN的设计能够有效地被扩展到分布式搜索中限制每个查询的资源开销和延迟大小,从而实现高可扩展性。目前SPANN已经被部署在了微软必应搜索中支持百亿量级的高性能向量近似最近邻搜索。刘政,技术专家,华为2012实验室

报告题目:面向稠密检索系统的模型-索引联合优化

Inthistalkwediscussempiricalprogressonthisproblem.Specifically,wepresentDiskANN,thefirstpublishedexternalmemoryANNSalgorithmthatcanindexabillionpointsandservequeriesatinteractivelatencies(fewmilliseconds)withhighrecallonacommoditymachine.Thisrepresentsanorderofmagnitudemorepointsindexedpermachinethanpreviouswork.Inaddition,theindexallowsreal-timeupdatesanditsin-memoryperformancecompareswellwithotherstateoftheartindices.

Finally,wewillhighlightsomeopenproblemsinthisspace--e.g.,supportforhybridqueriesthatinvolveacombinationofsimilaritysearchandhardmatches,accuratesearchesforout-of-distributionqueries,linearizabilityforupdates--andsomepreliminaryexperiments.

BasedonjointworkwithRavishankarKrishnaswamy,SujasJSubramanya,AditiSingh,RohanKadekodi,Devvrit,ShikharJaiswal,MagdalenDobson,SiddharthGollapudi,NeelKaria,VarunSivasankaran.

在探索预训练模型与端云协同分布式机器学习推荐系统过程中,我们首次归纳并开创了五种服务建构,包括云端单独建模,端侧单独建模,端云联合&云侧为中心的建模(如联邦学习),端云联合&端侧为中心的建模,和端云一体协同建模与推理。通过充分利用端侧模型高频的调用、端上细粒度特征感知,端云协同方式能够有效提高端侧模型的新鲜度和实时性,从而大幅增强系统离线&在线服务效率指标。基于定义的端云协同架构,端+大规模预训练,实践证明该方向有着巨大的应用价值和提升空间。孙宇,杰出研发架构师,百度,刘璟,主任研发架构师,百度

报告题目:EmbeddingBasedRetrieval(EBR)andBeyond

学术主任:王井东,百度计算机视觉首席科学家

王井东,百度计算机视觉首席科学家,负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前,曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。他的代表工作包括高分辨率神经网络(HRNet)、基于有监督的区域特征融合(DRFI)的显著目标检测及基于近邻图的大规模最近邻搜索(NGS,SPTAG)等。他曾担任过许多人工智能会议的领域主席,如CVPR、ICCV、ECCV、AAAI、IJCAI、ACMMM等。他现在是IEEETPAMI和IJCV的编委会成员,曾是IEEETMM和IEEETCSVT编委会成员。因在视觉内容理解和检索领域的杰出贡献,他被遴选为国际电气电子工程师学会和国际模式识别学会会士(IEEE/IAPRFellow)、国际计算机协会杰出会员。

线下地址(疫情允许的情况下):北京中科院计算所四层报告厅(北京市海淀区科学院南路6号)

线上地址:报名交费成功后,会前一周通过邮件发送线上会议号。

报名须知:

1、报名费:CCF会员2800元,非会员3600元。食宿交通费用自理。根据交费先后顺序,会员优先的原则录取,额满为止。疫情期间,根据政府疫情防控政策随时调整举办形式(线上线下同步举办、线上举办),线上线下报名注册费用相同。

THE END
1.如何有效学习算法?算法学习学习算法需要系统性的方法和实践,以下是一些有效的学习步骤和资源建议 基础知识学习: 数学基础:掌握离散数学、概率论、统计学等基础知识 编程基础:熟练掌握至少一种编程语言,如Python、C++、Java等 数据结构与算法基础: 数据结构:学习数组、链表、栈、队列、树、图等数据结构 https://blog.csdn.net/qq_49548132/article/details/140109291
2.9种常见的Python算法,学python有前景吗如果一个解决方案被证明不是一个解时,回溯算法会通过在上一步进行一些更改来丢弃该解决方案,即“回溯”并尝试其他解决方案。以上只是Python中可能存在的算法的一部分。实际上,Python可以用来实现任何类型的算法。学python有前景吗 Python编程语言的潜力还是很大的,Python相对好入门一些,也已经成为数据科学、机器学习、https://baijiahao.baidu.com/s?id=1778564523255716508&wfr=spider&for=pc
3.腾讯Offer已拿,这99道算法高频面试题别漏了,80%都败在算法上我自从2015年担任算法组leader,作为面试官面试了不少同学。前前后后面试了超过200名同学,其中有不少入职的同学后来发展都不错,也坚定了自己对于选人标准的自信心。 今年2020年找工作尤其艰难,我把这些年作为面试官一些重要的面试题整理出来,一共80道,希望能够帮助到大家。 https://maimai.cn/article/detail?fid=1699482551&efid=WqEcULyCOsAoPWgBSGGaFg
4.2019届毕业设计(论文)阶段性汇报近年来,计算机视觉和多尺度快速数值方法成为了研究者关注比较多的领域。毕业设计Gamblet方法在图像与数据分割中的应用包含两个方向,其中一个是使用多尺度快速算法求解在图像分割中的特征根问题,另一个是通过Optimal Recovery的方法得到合适的non-parametric kernel并使用这个kernel在高斯回归中,如此来进行图像分割或者数据分https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3366
5.太全了!自学机器学习算法学习路线图,有配套视频+实战项目,完全自学机器学习需要学习以下几个主要方面的内容: 一、数学基础线性代数: 【1】理解向量、矩阵的基本运算,如加法、减法、乘法等。 【2】掌握矩阵的特征值与特征向量的概念及计算方法,这在主成分分析等算法中非常关键。 【3】熟悉线性方程组的求解,对于理解线性回归等算法的原理有重要作用。 https://www.bilibili.com/opus/968422981073108994
6.学习,是治愈焦虑的良药只有不断学习、奔跑、更新自己的知识体系,外界发生的变化才不足以影响我们。 相反,如果我们在焦虑的时期选择躺平、摆烂,却不去学习,还抱怨不休,那么我们就会陷入双重困境,无法自拔。 二、建立一套有意识的学习算法 1.人的学习风格天然存在差异 我曾采访过很多人,包括小朋友,发现每个人的学习方法都不一样。在课堂上https://36kr.com/p/2375197738412036
7.万文长字总结“类别增量学习”的前世今生开源工具包三、Continual Learning 有哪些场景? 场景一:Task-IL 任务增量学习,是最简单的Continual Learning的场景。在这种场景下,无论是训练阶段还是测试阶段,模型都被告知了当前的任务ID。 这种特性导致了一些task specific component的方法出现,如packNet[3]提前为每个任务确定卷积的filter的掩码图。再如HAT会动态的根据任务为https://www.thepaper.cn/newsDetail_forward_17451573
8.人工智能快速发展趋势下,中国该如何应对?1、AI芯片针对机器学习算法设计开发,广泛应用于云、边、端各类场景 AI芯片(AI Chip)是一种专门用于处理人工智能相关的计算任务的芯片。它的架构是专门为人工智能算法和应用进行优化的,能够高效地处理大量结构化和非结构化数据。AI芯片能够高效地支持视觉、语音、自然语言处理等智能处理任务。目前,AI芯片主要分为GPU、https://developer.aliyun.com/article/1179745
9.宽度学习(一):宽度学习体系:有效和高效的无需深度架构的增量学习深度学习: 1,时间长:由于涉及到大量的超参数和复杂的结构,大多数神经网络的训练过程非常耗时。 2,重新训练:如果要更改神经网络的结构,或者增加样本,深度学习系统将遇到一个完整的重新训练过程。 宽度学习: 1,消除了训练过程长的缺点,并且提供了很好的泛化能力。 https://cloud.tencent.com/developer/article/2088810
10.关于人工智能的学习经验总结上面讲的是从实用的角度出发,就是我开始一个项目,从项目中学习新知识,但是能出发的前提是有了一个基本的知识框架和基础了。 这个基本的知识应该如何学习呢?或者说跟着课程学习的时候应该如何学习呢? 这里记录一个在课程中学习到的一个高效的学习方法, 称之为MAS方法。 https://www.51cto.com/article/703854.html
11.AI深度强化学习落地方法七步曲2——状态空间篇回报函数篇鉴于强化学习算法对优秀reward函数设计的依赖,学术界提出了很多方法改善这一状况。比如逆向强化学习,利用expert demonstration(专家示范)学习到reward函数,再用这个reward函数训练RL策略。此外,还有一大堆模仿学习的方法,干脆抛开reward直接拟合专家策略。以上方法的前提是要有专家数据,不具备普适性,这里就不多说了。 https://www.shangyexinzhi.com/article/4228946.html
12.力扣(LeetCode)全球极客挚爱的技术成长平台海量技术面试题库,拥有算法、数据结构、系统设计等 1000+题目,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/
13.精神病学研究中如何进行中小型数据的深度学习鉴于机器学习(尤其是深度学习)的现代算法和方法在其他学科中的出色预测性能,它们为解决这些问题提供了新希望。深度学习算法的优势在于它们可以实现非常复杂的算法,并且原则上可以高效地执行任意预测结果的映射。但是,这种实现是有代价的,需要大量的训练(和测试)样本来推断(有时超过数百万个)模型参数。这似乎与迄今为止在https://www.360doc.cn/mip/955038026.html
14.极客大学·算法训练营从训练营中最大的收获不仅是算法知识,更重要的是一些学习方法和经验 算法训练营即将开班,VIP 学习资料限时免费领取! 基础篇:如何高效学习数据结构与算法 前Facebook 工程师的“三位一体”高效学习法视频课、三张数据结构与算法知识图谱 训练篇:数据结构与算法进阶题库 讲师亲自整理的推荐题目及解法、算法训练营https://time.geekbang.org/college/algorithm/1000332?utm_source=time_web
15.BAT机器学习面试1000题系列(二)109.准备机器学习面试应该了解哪些理论知识? 知乎解答 110.标准化与归一化的区别? 简单来说,标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“https://www.jianshu.com/p/4a7f7127eef1