科学家提出图上多任务预训练框架,能统一协作不同的预训练任务视频生成模型

近期,中国科学技术大学团队设计一种多任务预训练与提示学习组合的框架,名为MultiGPrompt。

它通过图上多个预训练任务和提示学习,缓解了不同任务间的相互干扰。

同时,高效地将在预训练阶段学到的多任务知识,迁移到不同的下游任务。最终,取得优于“单任务预训练+微调/提示学习”的表现。

与大语言模型中,泛用的预训练任务完形填空作为通用预训练范式相比,图由于具有复杂的结构,难以用单一预训练任务来获得广泛的知识。

与之对比的是,多任务预训练框架能够统一地协作不同预训练任务,并在不同下游任务上表现出更好的泛化能力。因此,这种新型框架有望成为通往图大模型的路径之一。

中国科技大学博士研究生于星橦为第一作者,中国科技大学张信明教授和新加坡管理大学方元助理教授担任共同通讯作者。

在研究初期阶段,该课题组成员提出了一种设想:是否可以使用多种不同的预训练任务,来解决不同的下游任务,以此实现比单一预训练任务更好的效果?

但是,不容忽视的是,这其中存在两个主要的挑战:将不同的训练任务协作,以及将预训练中每个任务的特定知识和全局知识,迁移到下游任务上。

具体来看,如何使目标不一致的训练任务全部互相协作,来提升预训练模型的能力呢?

在预训练阶段,需要用多个不同的智能任务。最直接的方法之一,是将每个预训练任务的损失(loss)加起来,来得到最终的最适应阶段的损失。

于星橦解释说道:“但是这种做法的效果并不理想,由于不同训练任务的目标不同,直接累加任务之间会产生互相干扰,反而导致效果下降。”

研究人员针对每个预训练任务,添加了特定的预训练标记(pretexttoken),通过这种方式让不同目标的任务之间互不干扰。

于星橦指出,预训练标记本身会在预训练的阶段,包含每个预训练的任务特定的内容。所以,通过预训练标记方式,在预训练阶段,可以实现不同的训练任务共同协作的目标。

接下来,研究人员的重点解决目标,是在已经能够把所有任务比较好地统一,并迁移到下游任务的基础上,如何具体地把预训练任务迁移到下游任务。

需要了解的是,不同于单一的预训练任务,多训练任务到下游任务的迁移,不仅要有针对性地考虑每个具体预训练任务的重要程度,还需要考虑如何将全局和特定的知识迁移到下游。

于星橦表示:“全局知识的迁移相对比较简单,是做单一的、大的预训练任务,可以通过提示学习迁移到下游任务上。”

为此,该课题组提出一种双重提示机制,包括组合提示(composedprompt)以及开放提示(openprompt)。通过特定预训练任务以及全局预训练知识,来指导少样本场景中的下游任务。

研究人员用MultiGPrompt,将不同的预训练任务进行统一。并且,该框架具有普适性,适用于任何基于图的预训练任务。

最后,他们在6个公共数据集上,进行了广泛的实验,来全面评估和分析MultiGPrompt,并证明它的性能比以往路径更佳。

基于已有的通用预训练模型,在接下来的研究阶段,该团队计划探索协同多种不同图数据集共同预训练图模型的方法。

需要了解的是,图和自然语言处理(NaturalLanguageProcessing,NLP)预训练模型的区别在于,NLP由于所有输入都是文本,因此具有一致性和统一的特征空间。

而图数据本身由于具有拓扑结构,并且图的类型多样,例如社交网络图、分子图、蛋白质图、文献引用图等。

“每种类型的图区别非常大,因此它们的特征空间也不相同,如何统一这些图的特征是个巨大的挑战。”于星橦说。

因此,对于这种预训练模型的训练方式,不能像NLP领域那样,直接把所有的文本数据输入到语言模型,而是需要先把所有图的特征空间对齐,然后才能将它们输入到图模型中。

总体来说,该研究提供了一种通用的图预训练范式,下游的双重提示机制为知识迁移提供支持,有望基于此向图大模型发展。

参考资料:

运营/排版:何晨龙

01/北大团队发现类病毒颗粒新机制,将发展基于类病毒颗粒的RNA递送体系,助力研发新型疫苗

02/西交大团队实现自组装六方氮化硼纳米片制备大面积薄膜,兼具高探测率与低暗电流,可用于空间微光探测

03/光电催化制氢领域迎新突破:科学家开发氧化亚铜薄膜制备新方法,将载流子迁移率提升1个数量级

04/科学家提出GenAINet框架,能让工业机器人互换经验,让AI网络成为综合智能体

THE END
1.大模型训练实战经验总结:从入门到精通,全方位解析模型训练中的关键步在当今AI技术飞速发展的背景下,定制化大模型的自主训练已成为满足特定行业需求、保障数据安全、提升模型应用效能的关键途径。本文将深度剖析这一过程的核心价值与实践智慧,从数据隐私保护、模型透明度增强,到数据预处理的精细操作,特别是数据配比在维持模型通用性与垂类能力平衡中的核心作用,为读者勾勒出一幅清晰的大模型https://blog.csdn.net/2401_85325726/article/details/144368261
2.Ai大模型训练框架随着人工智能技术的不断发展,越来越多的企业开始关注并投入巨资研发自己的AI大模型。然而,如何搭建一套高效、实用的AI大模型训练框架成为了摆在他们面前的一项难题。本文将为您详细解析AI大模型训练框架的构建方法,助您企业提升工作效率,创造更多价值。 一、明确目标,制定策略 https://marketplace.huaweicloud.com/article/1-05ec9e94d8885234cea15f6a38b71e11
3.如何从零构建一个现代深度学习框架?10907175的技术博客可以说,眼下比较火的就是各种基于深度学习的大模型训练,那么从零开始构建这样一个能够高效支持各类神经网络模型训练、推理及部署的现代深度学习框架,这个有一定的技术难度,非小白或者一般技术人员可以做到的。深度学习框架涉及到的基础理论知识以及各学科的联合能力要求都是比较高的,查阅了相关资料,下面来大致说一下如何https://blog.51cto.com/u_10917175/11835873
4.分布式训练框架分布式训练框架 一、主流框架: 1、SparkMLlib 2、Parameter Server 3、All-Reduce框架(TensorFlow) 二、分布式机器学习系统: 1、模型并行 2、数据并行 参考: [1]分布式机器学习初探 [2]分布式机器学习之—Spark MLlib并行训练原理 [3]一文读懂「Parameter Server」的分布式机器学习训练原理https://www.jianshu.com/p/920ac27dec12
5.25分钟训练机器人学会6个动作,伯克利开发高效机器人操纵框架而根据相关报告,未来十年,制造业将需要460万个岗位。许多制造商也都在转向自动化生产,机械自动化将占比越来越高。FERM这样的高效训练框架,可谓是制造业福音。 参考链接: https://venturebeat.com/2020/12/16/new-framework-can-train-a-robotic-arm-on-6-grasping-tasks-in-less-than-an-hour/ https://www.thepaper.cn/newsDetail_forward_10641430
6.制作训练集,到训练模型——手把手教你使用yolov5框架训练自己但我想告诉你,大量模型都是有被开源的,我们可以用别人做好的框架,训练自己的模型,而且根本不需要什么基础!我们只需要学会使用大佬们为我们做好的“工具”,就可以将其投入到开发项目中了。 那么接下来,我将会带大家通过开源的yolov5框架,完成:环境搭建,训练集制作,框架参数调整,训练模型和目标检测测试这几个步骤,来https://developer.horizon.ai/forumDetail/185446371330059463
7.科学网—[转载]群视角下的多智能体强化学习方法综述依靠分布式训练框架IMPALA,DeepMind在开发星际争霸AlphaStar时,采用了集中式训练分布式执行的范式设计了三大类智能体对象:主智能体(main agent)为正在训练的智能体及历史数据,采用优先级虚拟自对弈的方式来选取;联盟利用者(league exploiter)能打败联盟中的所有智能体,按照有优先级虚拟自对弈的方式与全联盟的对手进行训练;https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
8.JMedSeg:Jittor医学图像智能分割模型库开源了!—Jittor在此基础上,JMedSeg研发团队对现有的方法进行取长补短,提出了基于 MoCo 对比学习框架的自监督预训练框架、数据增强方法,以及STN 空间变形网络结合的SAS(Self supervise learning & dataAugmentation &Spatial transformer networks) 医学图像分割模型训练框架。 https://cg.cs.tsinghua.edu.cn/jittor/news/2021-08-19-00-00-JMedSeg/
9.腾讯云总监手把手教你,如何成为AI工程师?这类人主要提供将计算逻辑,硬件封装打包起来,方便模型的训练和预测。比如: 精通Caffee/TensorFlow等训练框架源码,能熟练使用并做针对性优化; 构建机器学习平台,降低使用门槛,通过页面操作提供样本和模型就能启动训练; 通过FPGA实行硬件加速,实现更低延时和成本的模型预测; https://cloud.tencent.com/developer/article/1004751
10.堆栈AIInfra——AI大模型时代的“卖铲人”? 模型训练:模型库更加刚需,训练框架持续迭代,软件工具协助实验管理。基于通用的LLM大模型微调、蒸馏出小模型成为高性价比的落地方式,因此需要能够高效便捷地获取预训练模型的模型库;也催生更适应LLM大规模训练需求的底层分布式计算引擎和训练框架。此外,我们认为实验管理工具的重要性或始终较高。 https://wallstreetcn.com/articles/3695292
11.一种基于三方同态加密纵向联邦学习的模型保护方法21.图3是本发明带有vfl server服务端的三方模型训练框架图; 具体实施方式 22.为使本发明的目的、技术方案和有益效果更加清晰,下面结合附图及具体实施例对本发明作进一步的详细描述。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。 http://mip.xjishu.com/zhuanli/55/202210359699.html
12.飞桨』核心框架,深度学习&机器学习高性能单机分布式训练PArallel Distributed Deep LEarning: Machine Learning Framework from Industrial Practice (『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署) - PaddlePaddle/Paddlehttps://github.com/PaddlePaddle/Paddle
13.旷视开源深度学习框架天元!动静合一,训推一体,落地边缘设备传统的训练框架和推理框架是分开进行的,也就是说,系统要先经过训练再接受新的格式,在推理框架上适配不同的场景,但是在两者转化过程中会遇到算子无法支持、手工无法优化、大量冗余算子等多种问题。 天元系统的训练和推理是一体的,因此无需进行模型转换,同时,系统内部内置有模型优化,可以有效降低手工优化的误差,精度和速https://news.hexun.com/2020-03-25/200756446.html
14.守护记忆:多模态大模型为认知障碍患者带来全新的训练方法近期,微软亚洲研究院与上海市精神卫生中心展开联合研究,借助微软 Azure OpenAI 服务中的多模态大模型以及智能代理(AI agent)技术,开发了个性化认知训练框架“忆我”(ReMe),扩展了自动化认知训练的训练范围,为数字化认知训练提供了新方法,有望帮助延缓认知下降。这项创新工具将助力推进认知训练研究,为各类认知障碍,包括https://www.msra.cn/zh-cn/news/features/reme
15.ACL2021美团提出基于对比学习的文本表示模型,效果相比BERT他们同样使用基于对比学习的训练框架,使用Dropout的数据增强方法,在维基百科语料上Fine-tune BERT。 2.2 对比学习 对比学习是CV领域从2019年末开始兴起的预训练方法,同时最近也被广泛应用到了NLP任务中,我们简要介绍两个领域下的进展: 计算机视觉(CV)领域的对比学习:2019年年末~2020年年初,Facebook提出MoCo$^\text{[https://maimai.cn/article/detail?fid=1631291182&efid=zbjLjwE_JcF3pqFvOvLMNw
16.从「大炼模型」到「炼大模型」:1.75万亿参数,全球最大预训练模型如今,「悟道 2.0」更进一步:不仅在预训练模型架构、微调算法、高效预训练框架方面均实现了原始理论创新,在世界公认的多个 AI Benchmark 榜单上,该模型还取得了多项任务能力的领先地位。 「悟道 2.0」的算法基石是「FastMoE」。在攻关过程中,「悟道」团队开创了 FastMoE 技术,打破了 MoE 本身所存在的限制。作为首个https://www.jiqizhixin.com/articles/2021-06-01-6