ADL129《大规模预训练模型及其应用》开始报名线上线下同步开启

2022年8月17-19日苏州(线上线下同步举办)

学术主任:黄萱菁教授复旦大学/邱锡鹏教授复旦大学

主办单位:中国计算机学会

本期ADL主题《大规模预训练模型及其应用》邀请到崔一鸣(资深科学奖,科大讯飞)、刘知远(教授,清华大学)、丁宁(博士生,清华大学)、刘鹏飞(博士后,卡耐基梅隆大学)、杨红霞(技术总监,阿里巴巴达摩院)、李磊(助理教授,加州大学圣巴巴拉分校)、侯璐(高级研究员,华为诺亚方舟实验室)、尹伊淳(高级研究员,华为诺亚方舟实验室)共8位专家做专题讲座。活动日程:

特邀报告1:面向自然语言理解的预训练模型

特邀讲者:崔一鸣,资深科学家,科大讯飞

特邀报告2:DeltaTuning:大模型的小参数高效微调

特邀讲者:刘知远,长聘副教授,清华大学;丁宁,博士生,清华大学

特邀讲者:刘鹏飞,博后,卡耐基梅隆大学

讲者简介:刘鹏飞博士,卡耐基梅隆大学语言技术研究所博士后,InspiredCognition科技公司联合创始人。在自然语言处理及人工智能领域的顶级会议发表学术论文50余篇,谷歌学术引用4000余次。曾连续获得ACL2021BestDemoPaper,ACL2022OutstandingDemoPaper奖项,以及上海市计算机学会优秀博士论文,人工智能学会优秀博士论文,百度奖学金,微软学者,AI华人青年学者等荣誉。担任顶级会议ACL,EMNLP,NeurIPS等领域主席以及卡耐基梅隆大学自然语言处理课程的联合讲师。领导开发了首个基于深度学习的高考英语AI系统,自动审稿机器人,AI系统可解释排行榜等开源产品,受到来自于DeepMind等公司的合作邀请,以及多名投资人的意向投资。

特邀报告4:超大规模多模态预训练模型建设与其产业化落地

报告摘要:近年来,随着预训练技术在深度学习领域的飞速发展,超大规模模型逐渐走进人们的视野,成为人工智能领域的焦点。继OpenAI推出1750亿参数的GPT-3模型之后,我们于自2021年初提出百亿参数的超大规模中文多模态预训练模型M6(Multi-ModalitytoMulti-ModalityMultitaskMega-transformer),在多项多模态和自然语言下游任务表现出突出的能力。作为业界最大的中文多模态预训练模型M6,我们持续推出多个版本,参数逐步从百亿规模扩展到十万亿规模,在大模型、绿色/低碳AI、AI商业化、服务化等诸多方面取得突破性进展,比如对比相同参数规模1750亿的GPT-3模型,我们只需要其1%的算力,绿色/低碳是大模型普及的必要条件。M6服务内部近50个部门并在阿里云对外200+产品中投入使用,被MITTechReview评为2021年度中国AI突破技术并重点推荐。

今年,在探索算力极限的同时,我们也积极展开了针对通用模型这一预训练技术“皇冠”的探索,提出业界首个通用的统一大模型(模态、任务和架构)M6-OFA,极大的降低模型在预训练、适配下游任务、推理过程中的难度,更加便捷的从在线模型构建、在线模型部署、应用发布的全流程预训练服务,能够支持成百上千个应用的开发与部署。同时随着移动芯片计算能力的指数级增长,智能移动设备在内容展示终端这一传统角色之外,逐渐承担起更多任务。如何充分利用好移动算力,我们也探索了一条大模型由云计算走向端计算,端云协同建模M6-Edge。

特邀讲者:杨红霞,技术总监,阿里巴巴达摩院

特邀报告5:机器翻译预训练方法

报告摘要:预训练已经成为自然语言处理中的重要方法。如何在神经网络机器翻译中利用预训练方法来提升翻译能力?直接将预训练好的BERT/GPT等语言模型应用于机器翻译很难获得预期效果。本次讲座将围绕单语预训练、多语言预训练、多模态预训练三个方面来介绍机器翻译中预训练方法研究最新进展。预训练在机器翻译中需要达到三个目标:设计有效优化目标适应翻译任务;充分利用大量单语上已有预训练模型;拉近跨语言跨任务跨模态表示。通过预训练和细调方法,在双语翻译,多语言联合翻译(包括zero-shot场景),语音翻译,图像辅助翻译等不同翻译场景都取得了显著成效。

特邀讲者:李磊,助理教授,加州大学圣巴巴拉分校

讲者简介:李磊博士,加州大学圣巴巴拉分校助理教授。本科毕业于上海交通大学计算机系(ACM班),博士毕业于卡耐基梅隆大学计算机系。曾获2012年美国计算机学会SIGKDD最佳博士论文第二名、2017年吴文俊人工智能技术发明二等奖、2017年CCF杰出演讲者、2019年CCF青竹奖、2021年ACL最佳论文奖。在机器学习、数据挖掘和自然语言处理领域于国际顶级学术会议发表论文100余篇,主导研发火山翻译和Xiaomingbot写稿机器人等产品。担任IEEETPAMI杂志编委和2017KDDCup、2018KDDHands-onTutorial、2019-2020KDDSponsorship联合主席,IJCAI2017、AAAI2019/2020,EMNLP2019-2022、AACL2020、NeurIPS2021/2022、KDD2022等大会领域主席。

特邀报告6:预训练语言模型的压缩和加速

报告摘要:基于Transformer的预训练语言模型在多种NLP下游任务上取得了SOTA的效果。本报告首先回顾语言模型的基本概念和最近几年业界典型的预训练语言模型以及它们的应用场景。巨大的参数量使得这些模型的训练和推理成本极高,阻碍了这些模型在边缘设备或云上的部署。本报告然后梳理近期预训练语言模型训练加速和推理压缩加速方法和优缺点,并重点介绍报告人在该研究领域的一些最新进展,包括使用知识蒸馏、动态网络、网络量化(包括量化训练、并行后量化以及生成模型的量化)和参数共享复用等对预训练语言模型进行极致压缩和加速的算法与落地情况。最后,本报告会展望未来的研究方向和一些思考。

特邀讲者:侯璐/尹伊淳,高级研究员,华为诺亚方舟实验室

讲者简介:侯璐,2019年于香港科技大学获得博士学位,目前在华为诺亚方舟实验室语音语义组担任高级研究员,从事NLP和多模态大模型预训练和压缩加速的研究和落地工作。已在ICML,NeurIPS,ICLR,EMNLP,ACL等机器学习和自然语言处理领域发表论文十余篇,并获得ACL2022杰出论文奖。

讲者简介:尹伊淳,2018年于北京大学获得博士学位。目前在华为诺亚方舟语音语义实验室担任高级研究员,主要从事高效预训练语言模型和神经符号的研究与落地。在ACL、EMNLP等自然语言处理会议上发表多篇论文,其中一篇是EMNLP2020引用次数最高的论文。

学术主任:

黄萱菁,教授,复旦大学

复旦大学教授,中文信息学会理事,中国计算机学会自然语言处理专委会副主任,计算语言学学会亚太分会执委,亚太信息检索学会指导委员会委员。主要从事人工智能、自然语言处理和信息检索等方向研究。近年来承担了国家重点研发计划课题、国家自然科学基金等多项研究。迄今在ACL、SIGIR、IJCAI、AAAI、ICML、EMNLP、NAACL、IEEETKDE、IEEE/ACMTASL等国际重要学术刊物和会议发表论文200余篇,被引11,000多次。曾获AI2000人工智能全球最具影响力提名学者、人工智能全球女性、福布斯中国科技女性、上海市育才奖、复旦大学“研究生心目中的好导师”等多项奖励。

邱锡鹏,教授,复旦大学

邱锡鹏,复旦大学计算机学院教授,国家优青获得者,主要从事自然语言处理、深度学习等方向的研究,发表CCFA/B类论文70余篇,获得ACL2017杰出论文奖(CCFA类)、CCL2019最佳论文奖、《中国科学:技术科学》2021年度高影响力论文奖,有5篇论文入选PaperDigest发布的ACL/EMNLP/NAACL/IJCAI会议的最有影响力论文(该会议每年所有发表论文中被引用数前10名的论文),主持开发了开源框架FudanNLP和FastNLP,已被国内外数百家单位使用。2015年入选首届中国科协青年人才托举工程,2018年获钱伟长中文信息处理科学技术奖青年创新奖,2020获第四届上海高校青年教师教学竞赛优等奖,2021年获首届上海市计算机学会教学成果奖一等奖(第一完成人)。培养学生多次获得一级学会优博、微软学者、百度奖学金等。

线下地址(疫情允许的情况下):苏州市相城区高铁新城相融路600号CCF业务总部&会员活动中心

线上地址:报名交费成功后通过邮件发送。

报名须知:

1、报名费:CCF会员2800元,非会员3600元。食宿交通费用自理。根据交费先后顺序,会员优先的原则录取,额满为止。疫情期间,根据政府疫情防控政策随时调整举办形式(线上、线下)。

THE END
1.从零基础到精通:一步步保姆级大模型训练教程,手把手教学,学不会你来2.3 模型的评测方法 CSDN独家福利 1.预训练阶段(Pretraining Stage) 工欲善其事,必先利其器。 当前,不少工作选择在一个较强的基座模型上进行微调,且通常效果不错(如:[alpaca]、[vicuna] 等)。 这种成功的前提在于:预训练模型和下游任务的差距不大,预训练模型中通常已经包含微调任务中所需要的知识。 https://blog.csdn.net/2401_85325726/article/details/144342271
2.训练人工智能基础模型的方法腾讯云开发者社区训练人工智能基础模型的方法通常包括以下步骤: 1. 数据收集:收集大量高质量的、标注的数据用于训练和测试。这些数据可以来自公开的数据集或自己收集的数据。 2. 数据预处理:将数据集进行预处理,例如https://cloud.tencent.com/developer/information/%E8%AE%AD%E7%BB%83%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E5%9F%BA%E7%A1%80%E6%A8%A1%E5%9E%8B%E7%9A%84%E6%96%B9%E6%B3%95
3.ai大模型训练方法有哪些?使用多GPU或多节点来加速模型训练。 自动化机器学习(AutoML) 自动化模型选择、超参数调优等过程。 持续学习和在线学习 使模型能够持续学习新数据,而不需要从头开始训练。 模型评估 使用交叉验证、混淆矩阵等方法评估模型性能。 模型部署 将训练好的模型部署到生产环境中。 https://www.elecfans.com/d/4031955.html
4.随时间在线训练脉冲神经网络模型的图像数据分类方法与流程10.为了克服上述现有技术的不足,本发明提供一种基于随时间在线训练的脉冲神经网络模型进行图像视觉数据分类的方法,方法取名为ottt(online training through time)。通过本发明提供的方法,可以在训练snn模型时极大地减小训练内存的开销,将训练得到的模型用于计算机图像数据和神经形态图像视觉数据的分类与识别等视觉任务,能够https://www.xjishu.com/zhuanli/55/202210694741.html
5.大语言模型训练数据常见的4种处理方法不在线第一只蜗牛因此,如何从收集到的数据中删除低质量数据成为大语言模型训练中的重要步骤。大语言模型训练中所使用的低质量数据过滤方法可以大致分为两类:基于分类器的方法和基于启发式的方法。基于分类器的方法目标是训练文本质量判断模型,并利用该模型识别并过滤低质量数据。https://xie.infoq.cn/article/6edbb0252aecc0fce50c43abb
6.AI:ModelScope(一站式开源的模型即服务共享平台)的简介安装AI:ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略,ModelScope旨在打造下一代开源的模型即服务共享平台,汇集了行业领先的预训练模型,减少了开发者的重复研发成本。个人认为,相比于AIhttps://blog.51cto.com/yunyaniu/5935335
7.图解机器学习模型评估方法与准则使用历史数据训练一个适合解决目标任务的一个或多个机器学习模型。 对模型进行验证(Validation)与离线评估(Offline Evaluation)。 通过评估指标选择一个较好的模型。 2)在线实验方法 除了离线评估之外,其实还有一种在线评估的实验方法。由于模型是在老的模型产生的数据上学习和验证的,而线上的数据与之前是不同的,因此https://www.jianshu.com/p/70a6f39d91bf
8.《自然语言处理:基于预训练模型的方法》(车万翔)简介书评当当网图书频道在线销售正版《自然语言处理:基于预训练模型的方法》,作者:车万翔,出版社:电子工业出版社。最新《自然语言处理:基于预训练模型的方法》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《自然语言处理:基于预训练模型的方法》,就上当http://product.dangdang.com/29273992.html
9.转化率预估(pCVR)系列延迟预估模型(上篇)3.模型训练及预估:CVR和DFM联合训练,采用EM算法或sgd-Joint Learning等方法。在线预估时,只使用CVR模型,DFM被舍弃。 背景 展示广告中,oCPX/CPA模式(eCPM=pCTR * pCVR * CPA)下pcvr预估的准确性至关重要。 在参考ctr模型优化经验优化cvr模型时,会遇到一个问题,与点击(相比曝光)发生时间相比,转化发生时间要晚的https://www.zhuanzhi.ai/document/fb87ca09a0899775ab401f8300c5e5f9
10.一步一步教你在线免费训练机器学习模型(启用GPU和TPU)由于我无法在这篇文章中涵盖所有在线训练机器学习模型的服务,因此本文将有第二部分。 所有需要学习和实践机器学习的资源都是开源的,可在线获取。从计算、数据集、算法以及免费在线提供的各种高质量教程,你只需要互联网连接和学习的热情。 我希望这篇文章有用,因为它解决了开始走向机器学习和数据科学之路的业界人士所面https://blog.itpub.net/31545819/viewspace-2216969/
11.朱庆华宋珊珊风险视角下生成式人工智能的司法应用路径建构全生命周期的模型治理路径 针对算法黑箱、算法偏见,通常的应对之举是算法治理,即通过一系列规章制度和实践方法,旨在确保算法的公正性、透明度、可解释性和安全性,重点关注算法的实现和运行过程,包括数据采集、特征工程、模型开发、评估和部署等方面。而模型治理更侧重于机器学习模型的整个生命周期,包括需求规划、数据https://www.thepaper.cn/newsDetail_forward_26236606