文心大模型：知识增强的NLP模型详解|百度在线识图技术_在线律师

预训练大模型能够充分地挖掘大规模无标注数据的潜力，从海量数据中学习知识与规律，就像我们人类的通识教育。从出生开始，我们接受的都是通识教育，到上大学以后，才接受专业教育。在应用大模型以后，通过大模型加任务数据微调的方式，能获得非常好的效果，这已经成为了新的研发范式。

拥有了预训练大模型后，我们可以从之前的手工调参依赖AI专家的阶段进入大规模可复制的大工业落地阶段。

这是我们文心大模型的全景图，包括NLP大模型、CV大模型和跨模态大模型，在此基础上，我们开发了大模型的开发工具、轻量化工具和大规模部署工具，而且我们支持零门槛的AI开发平台以及全功能AI开发平台。

知识增强大模型

文心ERNIE

接下来，首先让我们解读知识增强大模型文心ERNIE。

文心ERNIE：持续学习框架

首先，我们来看第一个特色，从大规模知识图谱和海量无结构数据中学习。从这个例子可以看出，我们同时输入大规模图谱和相应无标注、无结构化的文本，通过文本的Mask，能够推理这个知识图谱里的关系，从而使这个模型具有知识推理能力。在右图的知识问答过程图可以看到，ERNIE具有增强的知识推理能力。

在Fine-tuning任务上，文心ERNIE可以用在不同任务中，用任务数据做微调。文心ERNIE在21类54个Fine-tuning任务中取得领先。这些任务分布很广泛，有语言理解、语言生成、知识推理等。同时，文心ERNIE在零样本和小样本学习的能力也非常好，尤其是在文本分类、阅读理解、知识推理、指代消解等任务中取得全面领先。

众所周知，大模型的训练成本及使用成本非常高，在实际业务落地应用中面临着相当大的挑战。首先，对千亿模型进行知识蒸馏需要耗费非常高的计算资源，而且，如果从千亿的规模蒸馏到几亿或几千万的数据量，差距过大，影响蒸馏的效果。针对这个问题，我们提出了在线蒸馏的框架，能够降低计算资源的消耗。同时，我们采取辅助蒸馏的方式，首先从千亿规模蒸馏到几十亿，然后到几亿。通过这个过程，我们能使模型蒸馏的效率和效果都得到很好的提升。

从这个实际应用案例中能看到，我们实现了搜索15亿的大模型无损蒸馏，并把这个模型应用在搜索排序的场景中。实际上，在这个过程中，我们将多个教师模型进行蒸馏，使效果得到了非常大的提升。

刚才介绍了文心ERNIE的学习框架以及学习效果。接下来，我将针对知识增强大模型里其他的跨语言大模型、跨模态大模型以及图模型进行解读。

跨语言大模型文心ERNIE-M

在跨语言的学习过程中，中文和英文这类语种的语料资源较为丰富，然而对于很多小语种来说，比如泰语，我们的资源是不够丰富的。那么，如何利用资源丰富的语种来帮助资源缺乏的语种实现性能提升呢？我们采用了用少量平行语料和大量非平行语料通过回译的机制进行学习的方式来实现。

在这个过程中，我们使用统一模型建模了96种语言，并在5类语言任务上刷新世界最好结果。例如在自然语言推断、语义相似度、阅读理解、命名实体识别、跨语言检索等任务中，我们都获得了极大提升，同时在权威跨语言理解榜单XTREME上获得了第一。

看一个例子，我们通过用非平行语料来学习各个语种中语义的关联，同时将标注丰富语种中的知识（比如中文中一些命名实体的标注）通过跨语言模型迁移到其他语种中，从而实现语言知识的迁移，并提高其他语种下游任务的效果。

跨模态大模型文心ERNIE-ViL

在文心ERNIE-ViL中，我们在跨模态模型中首次引入了场景知识。引入场景知识的目的是为了理解图像中细粒度的语义，比如说房子、车子和人之间的关系，以及车的颜色等。通过构建场景图的方式，模型能够对图像进行细粒度的语义理解，从而在跨模态任务上取得最好的效果，比如视觉问答、视觉常识推理、图像检索等。我们在权威视觉常识推理任务VCR榜单上也排名第一。

来看一个例子，左边图中一共有几位运动员？我们看到的一共有六个人，到底有几个运动员呢？我们选择了C，这是正确答案。在这个过程中模型要给出解释，为什么在6个人之中只有5个是运动员？模型要判断其中一个是裁判。这个其实就是通过视觉推理来获得的。这就是在场景图里加入知识，通过它的文字信息去构建场景图，使得模型能够理解图中细粒度的语义。

跨模态大模型文心ERNIE-ViLG

图模型文心ERNIE-Sage

对话生成模型

文心PLATO

基于这样的框架，去年我们发布了全球首个百亿参数的预训练对话生成模型文心PLATO-XL，它的特点是规模大、效果好、能耗低。从下图左侧可以看出，在参数规模还不是很大的情况下，跟参数规模非常大的效果相比，文心PLATO-XL也能取得相对好的结果，而在能耗方面成本更低。

知识外用指的是我们把知识作为一个库，外挂在生成模型之外，通过检索的方法，检索知识加入生成模型中，能够很好地增强回复生成的信息量。知识内化是指我们把各种异构的数据、知识加入到这个聊天语料中一起训练，然后把知识信息学到模型参数中。通过这样的方法，我们能够把知识的准确率提升到90%以上。

举个例子，在医疗领域的对话中，我们用医疗图谱来指导生成。我们采用了两步生成方式，第一步通过上下文的方式生成一个流畅的句子，但是里面的知识可能是不准确的，这个时候利用知识图谱，也就是利用医疗知识图谱修正里面的知识错误，使生成回复中知识的准确率相对提高60%，达到80%以上。这样一个知识增强模型生成的回复，能够保持知识的准确率处于一个相对比较高的水平。

刚才提到，我们在有些任务中需要有对话推荐，如推荐一首音乐、推荐一本书，推荐一个地方去旅游等，这些都需要在对话中满足，也采用了两种方法：一种是层次化的内容规划，另外一种是通过数据增强的方式实现。我们也建立了多种跨类型的对话数据集，并且这些数据集已经发布。通过这样的方法，使多轮对话的合适度和推荐的成功率在90%以上。

百度语言与知识技术开放平台

在这个能力引擎平台和知识中台上，我们能够支持各种场景定制，比如，智能文档分析、对话理解、定制与服务平台、智能创作、机器翻译开放平台、内容审核平台等，所有这些平台都可以支持各种互联网应用和工业应用。

THE END

文心大模型：知识增强的NLP模型详解

百度识图App官方版下载安装百度识图手机版下载v3.6.0安卓版

百度识图在线版识图工具百度识图在线版识图工具v8.6.5免费高速下载

百度识图设计百度识图翻译设计教程

资源丨20类252个顶级侦探必备查询网址汇总

百度识图在线识别(百度识图，智能在线识别，快速便捷帮你解决问题)

识图

怎样提取图片上的文字？四个方法教你快速提取！

百度识图app免费下载百度识图安卓最新版v3.6.0下载

实操Java+百度ocr，实现图片识别文字小工具

文心大模型：知识增强的NLP模型详解