ChatGPT/GPT的原理ChatGPT的技术架构人工智能|离线强化学习和在线强化学习的区别_在线学习

ChatGPT也可以与其他AIGC模型联合使用，获得更加炫酷实用的功能。

例如上面通过对话生成客厅设计图。这极大加强了AI应用与客户对话的能力，使我们看到了AI大规模落地的曙光。

一、ChatGPT的传承与特点

▌1.1OpenAI家族

GPT家族主要模型对比

▌1.2ChatGPT的主要特点

ChatGPT是基于GPT-3.5（GenerativePre-trainedTransformer3.5）架构开发的对话AI模型，是InstructGPT的兄弟模型。ChatGPT很可能是OpenAI在GPT-4正式推出之前的演练，或用于收集大量对话数据。

ChatGPT的主要特点

二、ChatGPT/GPT的原理

▌2.1NLP

NLP/NLU领域已知局限包括对重复文本、对高度专业的主题的误解，以及对上下文短语的误解。对于人类或AI，通常需接受多年的训练才能正常对话。NLP类模型不仅要理解单词的含义，还要理解如何造句和给出上下文有意义的回答，甚至使用合适的俚语和专业词汇。

NLP技术的应用领域本质上，作为ChatGPT基础的GPT-3或GPT-3.5是一个超大的统计语言模型或顺序文本预测模型。

▌2.2GPTv.s.BERT

BERT与GPT的技术架构（图中En为输入的每个字，Tn为输出回答的每个字）

三、ChatGPT的技术架构

▌3.1GPT家族的演进

ChatGPT与GPT1-3的技术对比

GPT家族与BERT模型都是知名的NLP模型，都基于Transformer技术。GPT-1只有12个Transformer层，而到了GPT-3，则增加到96层。

▌3.2人类反馈强化学习

真实性：是虚假信息还是误导性信息？

无害性：它是否对人或环境造成身体或精神上的伤害？

有用性：它是否解决了用户的任务？

▌3.3TAMER框架

TAMER架构在强化学习中的应用具体实现上，人类标记者扮演对话的用户和人工智能助手，提供对话样本，让模型生成一些回复，然后标记者会对回复选项打分排名，将更好的结果反馈回模型中。Agents同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统，通过奖励策略对模型进行微调并持续迭代。在此基础上，ChatGPT可以比GPT-3更好的理解和完成人类语言或指令，模仿人类，提供连贯的有逻辑的文本信息的能力。

▌3.4ChatGPT的训练

ChatGPT的训练过程分为以下三个阶段：第一阶段：训练监督策略模型GPT3.5本身很难理解人类不同类型指令中蕴含的不同意图，也很难判断生成内容是否是高质量的结果。为了让GPT3.5初步具备理解指令的意图，首先会在数据集中随机抽取问题，由人类标注人员，给出高质量答案，然后用这些人工标注好的数据来微调GPT-3.5模型（获得SFT模型,SupervisedFine-Tuning）。此时的SFT模型在遵循指令/对话方面已经优于GPT-3，但不一定符合人类偏好。

ChatGPT模型的训练过程第二阶段：训练奖励模型（RewardMode，RM）这个阶段的主要是通过人工标注训练数据（约33K个数据），来训练回报模型。在数据集中随机抽取问题，使用第一阶段生成的模型，对于每个问题，生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师辅导。接下来，使用这个排序结果数据来训练奖励模型。对多个排序结果，两两组合，形成多个训练数据对。RM模型接受一个输入，给出评价回答质量的分数。这样，对于一对训练数据，调节参数使得高质量回答的打分比低质量的打分要高。第三阶段：采用PPO（ProximalPolicyOptimization，近端策略优化）强化学习来优化策略。PPO的核心思路在于将PolicyGradient中On-policy的训练过程转化为Off-policy，即将在线学习转化为离线学习，这个转化过程被称之为ImportanceSampling。这一阶段利用第二阶段训练好的奖励模型，靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题，使用PPO模型生成回答，并用上一阶段训练好的RM模型给出质量分数。把回报分数依次传递，由此产生策略梯度，通过强化学习的方式以更新PPO模型参数。

如果我们不断重复第二和第三阶段，通过迭代，会训练出更高质量的ChatGPT模型。

四、ChatGPT的局限

只要用户输入问题，ChatGPT就能给予回答，是否意味着我们不用再拿关键词去喂Google或百度，就能立即获得想要的答案呢？

尽管ChatGPT表现出出色的上下文对话能力甚至编程能力，完成了大众对人机对话机器人（ChatBot）从“人工智障”到“有趣”的印象改观，我们也要看到，ChatGPT技术仍然有一些局限性，还在不断的进步。1）ChatGPT在其未经大量语料训练的领域缺乏“人类常识”和引申能力，甚至会一本正经的“胡说八道”。ChatGPT在很多领域可以“创造答案”，但当用户寻求正确答案时，ChatGPT也有可能给出有误导的回答。例如让ChatGPT做一道小学应用题，尽管它可以写出一长串计算过程，但最后答案却是错误的。那我们是该相信ChatGPT的结果还是不相信呢？

五、ChatGPT的未来改进方向

▌5.1减少人类反馈的RLAIF

2020年底，OpenAI前研究副总裁DarioAmodei带着10名员工创办了一个人工智能公司Anthropic。Anthropic的创始团队成员，大多为OpenAI的早期及核心员工，参与过OpenAI的GPT-3、多模态神经元、人类偏好的强化学习等。2022年12月，Anthropic再次发表论文《ConstitutionalAI:HarmlessnessfromAIFeedback》介绍人工智能模型Claude。（arxiv.org/pdf/2212.0807）

CAI模型训练过程Claude和ChatGPT都依赖于强化学习(RL)来训练偏好（preference）模型。CAI（ConstitutionalAI）也是建立在RLHF的基础之上，不同之处在于，CAI的排序过程使用模型（而非人类）对所有生成的输出结果提供一个初始排序结果。CAI用人工智能反馈来代替人类对表达无害性的偏好，即RLAIF，人工智能根据一套constitution原则来评价回复内容。

▌5.2补足数理短板

ChatGPT与Wolfram|Alpha结合处理梳理问题在这一结合体系中，ChatGPT可以像人类使用Wolfram|Alpha一样，与Wolfram|Alpha“对话”，Wolfram|Alpha则会用其符号翻译能力将从ChatGPT获得的自然语言表达“翻译”为对应的符号化计算语言。在过去，学术界在ChatGPT使用的这类“统计方法”和Wolfram|Alpha的“符号方法”上一直存在路线分歧。但如今ChatGPT和Wolfram|Alpha的互补，给NLP领域提供了更上一层楼的可能。ChatGPT不必生成这样的代码，只需生成常规自然语言，然后使用Wolfram|Alpha翻译成精确的WolframLanguage，再由底层的Mathematica进行计算。

▌5.3ChatGPT的小型化

SparseGPT压缩流程

六、ChatGPT的产业未来与投资机会

▌6.1AIGC

说到ChaGPT不得不提AIGC。AIGC即利用人工智能技术来生成内容。与此前Web1.0、Web2.0时代的UGC（用户生产内容）和PGC（专业生产内容）相比，代表人工智能构思内容的AIGC，是新一轮内容生产方式变革，而且AIGC内容在Web3.0时代也将出现指数级增长。ChatGPT模型的出现对于文字/语音模态的AIGC应用具有重要意义，会对AI产业上下游产生重大影响。

▌6.2受益场景

从上游增加需求来看，包括算力芯片、数据标注、自然语言处理（NLP)等。

参考文献：

InstructGPT论文：TraininglanguagemodelstofollowinstructionswithhumanfeedbackTraininglanguagemodelstofollowinstructionswithhumanfeedback

huggingface解读RHLF算法：IllustratingReinforcementLearningfromHumanFeedback(RLHF)IllustratingReinforcementLearningfromHumanFeedback(RLHF)

RHLF算法论文：AugmentingReinforcementLearningwithHumanFeedbackcs.utexas.edu/~ai-lab/p

PPO算法：ProximalPolicyOptimizationAlgorithmsProximalPolicyOptimizationAlgorithms

THE END

ChatGPT/GPT的原理ChatGPT的技术架构人工智能

强化学习和在线学习的区别是什么?Worktile社区

大模型面经答案—强化学习：理论解释与讲解

机器学习中的集成在线批量迁移……各种学习的区别哆啦梦乐园

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹智能体新浪科技

今天来讨论下离线强化学习方法

探讨什么是离线强化学习

ADL120《深度强化学习》开始报名

强化学习(一)：简介——什么是强化学习？

数据治理新要求

推特爆款：谷歌大脑工程师的深度强化学习劝退文

ChatGPT发展历程原理技术架构详解和产业未来

ChatGPT/GPT的原理ChatGPT的技术架构人工智能