近期,中国科学技术大学团队设计一种多任务预训练与提示学习组合的框架,名为MultiGPrompt。
它通过图上多个预训练任务和提示学习,缓解了不同任务间的相互干扰。
同时,高效地将在预训练阶段学到的多任务知识,迁移到不同的下游任务。最终,取得优于“单任务预训练+微调/提示学习”的表现。
与大语言模型中,泛用的预训练任务完形填空作为通用预训练范式相比,图由于具有复杂的结构,难以用单一预训练任务来获得广泛的知识。
与之对比的是,多任务预训练框架能够统一地协作不同预训练任务,并在不同下游任务上表现出更好的泛化能力。因此,这种新型框架有望成为通往图大模型的路径之一。
中国科技大学博士研究生于星橦为第一作者,中国科技大学张信明教授和新加坡管理大学方元助理教授担任共同通讯作者。
在研究初期阶段,该课题组成员提出了一种设想:是否可以使用多种不同的预训练任务,来解决不同的下游任务,以此实现比单一预训练任务更好的效果?
但是,不容忽视的是,这其中存在两个主要的挑战:将不同的训练任务协作,以及将预训练中每个任务的特定知识和全局知识,迁移到下游任务上。
具体来看,如何使目标不一致的训练任务全部互相协作,来提升预训练模型的能力呢?
在预训练阶段,需要用多个不同的智能任务。最直接的方法之一,是将每个预训练任务的损失(loss)加起来,来得到最终的最适应阶段的损失。
于星橦解释说道:“但是这种做法的效果并不理想,由于不同训练任务的目标不同,直接累加任务之间会产生互相干扰,反而导致效果下降。”
研究人员针对每个预训练任务,添加了特定的预训练标记(pretexttoken),通过这种方式让不同目标的任务之间互不干扰。
于星橦指出,预训练标记本身会在预训练的阶段,包含每个预训练的任务特定的内容。所以,通过预训练标记方式,在预训练阶段,可以实现不同的训练任务共同协作的目标。
接下来,研究人员的重点解决目标,是在已经能够把所有任务比较好地统一,并迁移到下游任务的基础上,如何具体地把预训练任务迁移到下游任务。
需要了解的是,不同于单一的预训练任务,多训练任务到下游任务的迁移,不仅要有针对性地考虑每个具体预训练任务的重要程度,还需要考虑如何将全局和特定的知识迁移到下游。
于星橦表示:“全局知识的迁移相对比较简单,是做单一的、大的预训练任务,可以通过提示学习迁移到下游任务上。”
为此,该课题组提出一种双重提示机制,包括组合提示(composedprompt)以及开放提示(openprompt)。通过特定预训练任务以及全局预训练知识,来指导少样本场景中的下游任务。
研究人员用MultiGPrompt,将不同的预训练任务进行统一。并且,该框架具有普适性,适用于任何基于图的预训练任务。
最后,他们在6个公共数据集上,进行了广泛的实验,来全面评估和分析MultiGPrompt,并证明它的性能比以往路径更佳。
基于已有的通用预训练模型,在接下来的研究阶段,该团队计划探索协同多种不同图数据集共同预训练图模型的方法。
需要了解的是,图和自然语言处理(NaturalLanguageProcessing,NLP)预训练模型的区别在于,NLP由于所有输入都是文本,因此具有一致性和统一的特征空间。
而图数据本身由于具有拓扑结构,并且图的类型多样,例如社交网络图、分子图、蛋白质图、文献引用图等。
“每种类型的图区别非常大,因此它们的特征空间也不相同,如何统一这些图的特征是个巨大的挑战。”于星橦说。
因此,对于这种预训练模型的训练方式,不能像NLP领域那样,直接把所有的文本数据输入到语言模型,而是需要先把所有图的特征空间对齐,然后才能将它们输入到图模型中。
总体来说,该研究提供了一种通用的图预训练范式,下游的双重提示机制为知识迁移提供支持,有望基于此向图大模型发展。
参考资料:
运营/排版:何晨龙
01/北大团队发现类病毒颗粒新机制,将发展基于类病毒颗粒的RNA递送体系,助力研发新型疫苗
02/西交大团队实现自组装六方氮化硼纳米片制备大面积薄膜,兼具高探测率与低暗电流,可用于空间微光探测
03/光电催化制氢领域迎新突破:科学家开发氧化亚铜薄膜制备新方法,将载流子迁移率提升1个数量级
04/科学家提出GenAINet框架,能让工业机器人互换经验,让AI网络成为综合智能体