ChatGPT发展历程原理技术架构详解和产业未来|离线强化学习和在线强化学习的区别_在线学习

据报道，ChatGPT在开放试用的短短几天，就吸引了超过100万互联网注册用户。并且社交网络流传出各种询问或调戏ChatGPT的有趣对话。甚至有人将ChatGPT比喻为“搜索引擎+社交软件”的结合体，能够在实时互动的过程中获得问题的合理答案。

ChatGPT也可以与其他AIGC模型联合使用，获得更加炫酷实用的功能。例如上面通过对话生成客厅设计图。这极大加强了AI应用与客户对话的能力，使我们看到了AI大规模落地的曙光。敬请阅读。

文/陈巍（清华大学教授）

引言

ChatGPT也可以与其他AIGC模型联合使用，获得更加炫酷实用的功能。例如上面通过对话生成客厅设计图。这极大加强了AI应用与客户对话的能力，使我们看到了AI大规模落地的曙光。

ChatGPT的传承与特点

每一代GPT模型的参数量都爆炸式增长，堪称“越大越好”。2019年2月发布的GPT-2参数量为15亿，而2020年5月的GPT-3，参数量达到了1750亿。

GPT家族主要模型对比

ChatGPT是基于GPT-3.5（GenerativePre-trainedTransformer3.5）架构开发的对话AI模型，是InstructGPT的兄弟模型。ChatGPT很可能是OpenAI在GPT-4正式推出之前的演练，或用于收集大量对话数据。

ChatGPT的主要特点

即便学习的知识有限，ChatGPT还是能回答脑洞大开的人类的许多奇葩问题。为了避免ChatGPT染上恶习，ChatGPT通过算法屏蔽，减少有害和欺骗性的训练输入。，查询通过适度API进行过滤，并驳回潜在的种族主义或性别歧视提示。

ChatGPT/GPT的原理

对于人类或AI，通常需接受多年的训练才能正常对话。NLP类模型不仅要理解单词的含义，还要理解如何造句和给出上下文有意义的回答，甚至使用合适的俚语和专业词汇。

NLP技术的应用领域

BERT与GPT的技术架构（图中En为输入的每个字，Tn为输出回答的每个字）

ChatGPT的技术结构

ChatGPT之前有几个知名的兄弟，包括GPT-1、GPT-2和GPT-3。这几个兄弟一个比一个个头大，ChatGPT与GPT-3更为相近。

ChatGPT与GPT1-3的技术对比

这里不得不提到TAMER（TraininganAgentManuallyviaEvaluativeReinforcement，评估式强化人工训练代理）这个框架。该框架将人类标记者引入到Agents的学习循环中，可以通过人类向Agents提供奖励反馈（即指导Agents进行训练），从而快速达到训练任务目标。

TAMER框架论文

而TAMER则可以将人类标记者的知识，以奖励信反馈的形式训练Agent，加快其快速收敛。TAMER不需要标记者具有专业知识或编程技术，语料成本更低。通过TAMER+RL（强化学习），借助人类标记者的反馈，能够增强从马尔可夫决策过程(MDP)奖励进行强化学习(RL)的过程。

TAMER架构在强化学习中的应用

此时的SFT模型在遵循指令/对话方面已经优于GPT-3，但不一定符合人类偏好。

ChatGPT模型的训练过程

如果我们不断重复第二和第三阶段，通过迭代，会训练出更高质量的ChatGPT模型。

ChatGPT的局限

当然，瑕不掩瑜，有工程师贴出了要求ChatGPT写verilog代码（芯片设计代码）的对话。可以看出ChatGPT水平已经超出一些verilog初学者了。

ChatGPT的未来改进方向

2022年12月，Anthropic再次发表论文《ConstitutionalAI:HarmlessnessfromAIFeedback》介绍人工智能模型Claude。（arxiv.org/pdf/2212.0807）

CAI模型训练过程

CAI用人工智能反馈来代替人类对表达无害性的偏好，即RLAIF，人工智能根据一套constitution原则来评价回复内容。

计算机学家StephenWolfram为这一问题提出了解决方案。StephenWolfram创造了的Wolfram语言和计算知识搜索引擎Wolfram|Alpha，其后台通过Mathematica实现。

ChatGPT与Wolfram|Alpha结合处理梳理问题

第三种模型压缩方法是稀疏化。例如奥地利科学技术研究所(ISTA)提出的SparseGPT（arxiv.org/pdf/2301.0077）可以将GPT系列模型单次剪枝到50%的稀疏性，而无需任何重新训练。对GPT-175B模型，只需要使用单个GPU在几个小时内就能实现这种剪枝。

SparseGPT压缩流程

ChatGPT的产业未来与投资机会

大模型呈爆发态势（更多的参数/更大的算力芯片需求）

最后，作者问存算一体技术在ChatGPT领域的地位（作者本人目前在重点推进存算一体芯片的产品落地），ChatGPT想了想，大胆的预言存算一体技术将在ChatGPT芯片中占据主导地位。

THE END

ChatGPT发展历程原理技术架构详解和产业未来

强化学习和在线学习的区别是什么?Worktile社区

大模型面经答案—强化学习：理论解释与讲解

机器学习中的集成在线批量迁移……各种学习的区别哆啦梦乐园

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹智能体新浪科技

今天来讨论下离线强化学习方法

探讨什么是离线强化学习

ADL120《深度强化学习》开始报名

强化学习(一)：简介——什么是强化学习？

数据治理新要求

推特爆款：谷歌大脑工程师的深度强化学习劝退文

ChatGPT发展历程原理技术架构详解和产业未来

ChatGPT/GPT的原理ChatGPT的技术架构人工智能