ADL131《向量学习与搜索》开始报名线上线下同步举办

本期CCF学科前沿讲习班ADL131《向量学习与搜索》,将对向量学习与检索的最新进展进行深入浅出的讲解,从自然语言自监督和搜索预训练、视觉预训练、基于哈希的向量搜索技术、大规模向量搜索系统、预训练模型在推荐系统中的应用等不同应用领域视角为听众介绍向量学习与搜索的关键技术和前沿研究。相信学员经过本次讲习班,能够深入了解向量学习与搜索的基础技术、主要挑战和应用场景,开阔科研视野,增强实践能力。

本期ADL讲习班邀请了10位来自国内外著名高校与企业科研机构活跃在前沿领域的专家学者做主题报告。第一天,陈琪研究员讲解高效的超大规模向量近似最近邻搜索系统SPANN,刘政研究员介绍面向稠密检索系统的模型-索引联合优化,MatthijsDouze介绍SimilaritysearchandtheFaisslibrary,何栋梁博士讲解解耦表观与运动信息的视频自监督训练及视频文本弱监督预训练方法。第二天,HarshaSimhadri研究员介绍ApproximateNearestNeighborSearchalgorithmsforweb-scalesearchandrecommendation,杨红霞研究员讲解基于预训练模型与端云协同的推荐系统,孙宇架构师和刘璟架构师介绍百度文心大模型ERNIE及在搜索中的应用。第三天,李平博士讲授EmbeddingBasedRetrieval(EBR)andBeyond,毛佳昕教授讲解面向文本搜索的高效可学习的检索模型。通过三天教学,旨在带领学员实现对向量学习与搜索从基础技术,到前沿科研动态,再到典型应用场景的深入学习与思考。学术主任:王井东百度计算机视觉首席科学家主办单位:中国计算机学会

本期ADL主题向量学习与搜索,由王井东担任学术主任,邀请到陈琪(高级研究员,微软亚洲研究院)、刘政(技术专家,华为2012实验室)、MatthijsDouze(ResearchScientist,FAIRlab)、何栋梁(资深算法研发工程师,百度)、HarshaSimhadri(PrincipalResearcher,MicrosoftResearch)、杨红霞(人工智能科学家,阿里巴巴达摩院)、孙宇(杰出研发架构师,百度)、刘璟(主任研发架构师,百度)、李平(杰出工程师,LinkedIn)和毛佳昕(助理教授,中国人民大学)10位专家做专题讲座。

活动日程:

2022年10月25日(周二)

9:00-9:10

开班仪式

9:10-9:20

全体合影

9:20-10:50

专题讲座1:一个高效的超大规模向量近似最近邻搜索系统

陈琪,高级研究员,微软亚洲研究院

10:50-12:20

专题讲座2:面向稠密检索系统的模型-索引联合优化

刘政,技术专家,华为2012实验室

14:00-15:30

专题讲座3:SimilaritysearchandtheFaisslibrary

MatthijsDouze,ResearchScientist,FAIRlab

15:30-17:00

专题讲座4:解耦表观与运动信息的视频自监督训练及视频文本弱监督预训练方法

何栋梁,资深算法研发工程师,百度

2022年10月26日(周三)

9:00-10:30

专题讲座5:ApproximateNearestNeighborSearchalgorithmsforweb-scalesearchandrecommendation

HarshaSimhadri,PrincipalResearcher,MicrosoftResearch

10:30-12:00

专题讲座6:基于预训练模型与端云协同的推荐系统

杨红霞,人工智能科学家,阿里巴巴达摩院

14:00-17:00

专题讲座7:

面向文本搜索的高效可学习的检索模型

毛佳昕,助理教授,中国人民大学

2022年10月27日(周四)

9:00-12:00

专题讲座8:EmbeddingBasedRetrieval(EBR)andBeyond

李平,杰出工程师,LinkedIn

专题讲座9:

百度文心大模型ERNIE及在搜索中的应用

孙宇,杰出研发架构师,百度,刘璟,主任研发架构师,百度

特邀讲者:陈琪,高级研究员,微软亚洲研究院

讲者简介:陈琪,微软亚洲研究院系统研究组的高级研究员,2010年和2016年分别在北京大学信息科学技术学院获得学士和博士学位,师从肖臻教授,博士期间主要从事分布式系统,云计算和并行计算方向的研究。已经在国际顶级会议和期刊上发表了二十多篇学术论文,发表的论文曾获得过OSDI最佳论文奖。目前主要研究方向包括分布式系统,云计算,深度学习算法和人工智能系统。

报告题目:一个高效的超大规模向量近似最近邻搜索系统报告摘要:随着数据规模的快速增长,基于内存的向量搜索面临着海量且非常昂贵的内存需求,因此,人们对小内存-大硬盘混合型向量近似最近邻搜索的需求也越来越迫切。同时,传统的分布式搜索系统需要将每一个查询都分发给每台机器进行本地查询,这会导致查询延迟和资源开销会随着机器数量的增多而变大,系统可扩展性变差。因此,我们提出了一种非常简单且高效的基于倒排索引思想的内存-硬盘混合型索引和搜索方案SPANN,有效地解决了倒排索引方法中的三个会导致高延迟或者低召回的难题。实验结果显示,SPANN在多个上亿量级数据集上都能取得两倍多的加速达到90%召回率,其查询延迟能够有效地控制在一毫秒左右。同时,SPANN的设计能够有效地被扩展到分布式搜索中限制每个查询的资源开销和延迟大小,从而实现高可扩展性。目前SPANN已经被部署在了微软必应搜索中支持百亿量级的高性能向量近似最近邻搜索。刘政,技术专家,华为2012实验室

报告题目:面向稠密检索系统的模型-索引联合优化

Inthistalkwediscussempiricalprogressonthisproblem.Specifically,wepresentDiskANN,thefirstpublishedexternalmemoryANNSalgorithmthatcanindexabillionpointsandservequeriesatinteractivelatencies(fewmilliseconds)withhighrecallonacommoditymachine.Thisrepresentsanorderofmagnitudemorepointsindexedpermachinethanpreviouswork.Inaddition,theindexallowsreal-timeupdatesanditsin-memoryperformancecompareswellwithotherstateoftheartindices.

Finally,wewillhighlightsomeopenproblemsinthisspace--e.g.,supportforhybridqueriesthatinvolveacombinationofsimilaritysearchandhardmatches,accuratesearchesforout-of-distributionqueries,linearizabilityforupdates--andsomepreliminaryexperiments.

BasedonjointworkwithRavishankarKrishnaswamy,SujasJSubramanya,AditiSingh,RohanKadekodi,Devvrit,ShikharJaiswal,MagdalenDobson,SiddharthGollapudi,NeelKaria,VarunSivasankaran.

在探索预训练模型与端云协同分布式机器学习推荐系统过程中,我们首次归纳并开创了五种服务建构,包括云端单独建模,端侧单独建模,端云联合&云侧为中心的建模(如联邦学习),端云联合&端侧为中心的建模,和端云一体协同建模与推理。通过充分利用端侧模型高频的调用、端上细粒度特征感知,端云协同方式能够有效提高端侧模型的新鲜度和实时性,从而大幅增强系统离线&在线服务效率指标。基于定义的端云协同架构,端+大规模预训练,实践证明该方向有着巨大的应用价值和提升空间。孙宇,杰出研发架构师,百度,刘璟,主任研发架构师,百度

报告题目:EmbeddingBasedRetrieval(EBR)andBeyond

学术主任:王井东,百度计算机视觉首席科学家

王井东,百度计算机视觉首席科学家,负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前,曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。他的代表工作包括高分辨率神经网络(HRNet)、基于有监督的区域特征融合(DRFI)的显著目标检测及基于近邻图的大规模最近邻搜索(NGS,SPTAG)等。他曾担任过许多人工智能会议的领域主席,如CVPR、ICCV、ECCV、AAAI、IJCAI、ACMMM等。他现在是IEEETPAMI和IJCV的编委会成员,曾是IEEETMM和IEEETCSVT编委会成员。因在视觉内容理解和检索领域的杰出贡献,他被遴选为国际电气电子工程师学会和国际模式识别学会会士(IEEE/IAPRFellow)、国际计算机协会杰出会员。

线下地址(疫情允许的情况下):北京中科院计算所四层报告厅(北京市海淀区科学院南路6号)

线上地址:报名交费成功后,会前一周通过邮件发送线上会议号。

报名须知:

1、报名费:CCF会员2800元,非会员3600元。食宿交通费用自理。根据交费先后顺序,会员优先的原则录取,额满为止。疫情期间,根据政府疫情防控政策随时调整举办形式(线上线下同步举办、线上举办),线上线下报名注册费用相同。

THE END
1.机器学习:开启智能未来的钥匙腾讯云开发者社区机器学习作为人工智能的核心方法,通过分析数据中的隐藏规律,让计算机从中获取新的经验和知识,不断提升和改善自身性能,从而像人一样根据所学知识做出决策。https://cloud.tencent.com/developer/article/2478495
2.人工智能基础知识速成一、机器学习概念与原理 什么是机器学习? 机器学习是人工智能的一个分支,通过从数据中学习和改进算法,使计算机系统在没有明确编程的情况下也能够自动地学习和改进。机器学习是一种实现人工智能的技术手段,能够让计算机“自我学习”,从而实现更准确的预测和决策。 https://www.jianshu.com/p/90fcb8dc2b95
3.机器学习找不到创新点?三种特征选择的方法包你拿下顶会!最近特征选择特别火!多次荣登各大期刊会议,例如登上Nature子刊bGGO、计算效率狂提98%的FSFS……妥妥的机器学习领域热门创新点! 通过从原始特征集中精心挑选出最相关、最有用的特征,能够显著提高模型的准确性,大大减少了过拟合的风险,降低了计算成本。 特征选择的主流策略涵盖了过滤法、包裹法、嵌入法等多种方法。为https://www.bilibili.com/read/cv40067807
4.人工智能机器学习深度学习这一系列主要分享Iran Goodfellow&Yoshua Bengo《深度学习》的阅读总结。 人工智能、机器学习以及深度学习的关系人工智能,在Dartmouth会议的定义:学习或者智能的任何特性都能够被精确地加以描述,使得机器可…https://zhuanlan.zhihu.com/p/8976535645
5.机器学习知识:机器学习中的离线训练与在线推理其次,在离线训练中,模型的参数和超参数是可以不断进行调节和优化的,而在线推理中,则需要将训练好的模型固定下来不再进行修改。最后,离线训练和在线推理都需要考虑时间和计算资源的限制,从而在算法和模型上进行优化。 四、结语 离线训练和在线推理都是机器学习中非常重要的领域,这两个领域的发展直接关系到机器学习技术https://wenku.baidu.com/view/269b3033862458fb770bf78a6529647d2728349d.html
6.机器学习:在线学习和离线学习区别机器学习中的在线学习(Online Learning)和离线学习(Offline Learning)是两种不同的学习方式,它们在数据处理和模型更新方面有着明显的区别。以下是它们的主要区别: 数据获取方式: 在线学习:在在线学习中,模型是不断地从数据流中接收新的样本并进行学习。这意味着模型会随着时间的推移不断更新,以适应新的数据。 https://blog.csdn.net/weixin_41194129/article/details/132998721
7.机器学习RLHF:在线方法与离线算法在大模型语言模型校准中的博弈基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,简称RLHF)作为一种有效的校准方法,已逐渐在GPT-4、ChatGPT等先进模型中展现出其独特优势。然而,随着离线对齐算法的迅速崛起,RLHF所面临的挑战也日益严峻。本文将从RLHF的基本概念入手,探讨在线方法与离线算法在大型语言模型校准中的优劣,并通过实验https://developer.aliyun.com/article/1542161
8.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
9.2020届计算机科学方向毕业设计(论文)阶段性汇报CUDA中对于统一内存寻址的实现以及原本CUDA处理内存问题的对比。 郝琰 三维特征点提取的前期实验调查 本次汇报介绍了用于三维特征点提取的机器学习方法和传统几何方法的实验结果对比。 金之涵 二次分配问题中的组合构型第一次汇报 Monge矩阵和Kalmanson矩阵中最小哈密顿圈有通解。事实上,Monge矩阵可以被刻画为二阶差分非https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
10.从8个维度全面比较机器学习算法不同的 ML 算法会有不同的偏差 - 方差权衡,偏差误差来自于模型偏向于特定解或假设的事实。例如,在非线性数据上拟合线性决策边界时,偏差较大。另一方面,是方差测量模型方差带来的误差,它是模型预测与期望模型预测的均方差。 5. 在线和离线 在线和离线学习是指机器学习软件学习更新模型的方式。在线学习意味着可以一次https://time.geekbang.org/column/article/226084
11.网站工具。涉及大数据几大组件Python机器学习和数据分析学习记录的一些笔记,以及所看得一些电子书eBooks、视频资源和平常收纳的一些自己认为比较好的博客、网站、工具。涉及大数据几大组件、Python机器学习和数据分析、Linux、操作系统、算法、网络等 - josonle/Coding-Nowhttps://github.com/josonle/Coding-Now/
12.机器学习,能为5G通信技术带来哪些新挑战?强化学习是基于智能体与外部环境之间的动态交互,可以在线处理数据。智能体通过探索环境和奖励或惩罚行为来学习,并以最佳行动序列优化累积奖励。 图一:人工智能,机器学习,监督学习,无监督学习,强化学习之间的关系 3、机器学习在5G通信中的应用 近年来,全球研究人员对利用机器学习发展5G通信技术表现出了极大的兴趣。接下来https://www.xakpw.com/single/31167
13.蚂蚁金服新计算实践:基于Ray的融合计算引擎架构蔡芳芳随着计算和 AI 体系逐步成熟,我们希望机器学习应用能更多地在动态环境下运行、实时响应环境中的变化,这推动了机器学习从传统离线学习逐渐向在线学习演进。相比于传统的离线机器学习,在线学习可以带来更快的模型迭代速度,让模型预测效果更贴真实情况,对于线上的波动更加敏锐。https://www.infoq.cn/article/ualTzk5OwDb1crVHg7c1
14.机器学习与微博:TensorFlow在微博的大规模应用与实践微博机器学习平台承担了离线训练和在线预测任务。微博实时产生的文本、图片、视频显示后转入后台,用于提取特征、离线训练。 越来越多的业务使用深度学习方法,TensorFlow/Caffe 框架被集成进来。 离线训练主要使用 GPU 机群。由于业务增长过快,计算机群有一部分来自阿里云。 https://36kr.com/p/1721923682305
15.FEM前沿研究:智能工业数据解析与优化—论文—科学网已有的建模方法多为静态建模,当工况发生改变时,需要人工离线对模型进行调整,无法满足工业系统的实时、快速需求。针对时变的生产工况,将系统优化与数据解析相结合,通过学习、预测、反馈、调整,提出带有反馈闭环结构的优化模型在线调整方法,对模型参数进行自适应修正并对优化方案进行重新调整和再优化。https://news.sciencenet.cn/htmlpaper/2021/7/20217151683757164957.shtm
16.机器学习方法在数字芯片设计中的应用电子创新网Imgtec社区随着深度学习的概念深入人心,相比于传统方法,机器学习(ML, Machine learning)的方法对于处理NP-complete问题提供了一整套新的解决方案。芯片设计过程可以看成不断的伴随着从一个step到另外一个step的抽象化任务模型建模的过程,其方法论在半导体发展的过程中不断的完善,汇集了种类繁多的各种抽象化模型任务,几乎可以包含所https://imgtec.eetrend.com/blog/2022/100565005.html
17.大数据与人工智能学习中心《人工智能应用基础》、《机器学习技术应用》、《深度学习技术应用》、《计算机视觉技术应用》、《自然语言处理》。 (4)主要特色 以真实的专业领域工程问题为依托,结合在线学习平台,智能终端实训套件及项目应用环境,将多学科交叉项目与应用场景结合起来,让学生在工程实践过程中主动学习和建构“AI + X”产业知识,从而培https://www.mitu.cn/wzxy/dsjyrgznxxzx/list.htm
18.机器学习平台可视化建模模型部署深度学习机器学习机器学习平台覆盖算法开发、模型训练评估、在线推理预测建模全流程。 有效支撑数据智能化分析场景,赋能企业AI转型升级。https://sf.163.com/product/ml
19.一文看懂什么是强化学习?(基本概念+应用嘲+主流算法)在线学习 VS 离线学习 详细请查看《强化学习方法汇总》 百度百科和维基百科 百度百科版本 强化学习(reinforcement learning),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。 但在传统的机器学习分类中没有提到过强化学习,而在连接主义学习中,把学习算法分为三种类型,https://easyai.tech/ai-definition/reinforcement-learning/