ChatGPT发展历程原理技术架构详解和产业未来|在线强化学习和离线强化学习区别_在线学习

据报道，ChatGPT在开放试用的短短几天，就吸引了超过100万互联网注册用户。并且社交网络流传出各种询问或调戏ChatGPT的有趣对话。甚至有人将ChatGPT比喻为“搜索引擎+社交软件”的结合体，能够在实时互动的过程中获得问题的合理答案。

ChatGPT也可以与其他AIGC模型联合使用，获得更加炫酷实用的功能。例如上面通过对话生成客厅设计图。这极大加强了AI应用与客户对话的能力，使我们看到了AI大规模落地的曙光。敬请阅读。

文/陈巍（清华大学教授）

引言

ChatGPT也可以与其他AIGC模型联合使用，获得更加炫酷实用的功能。例如上面通过对话生成客厅设计图。这极大加强了AI应用与客户对话的能力，使我们看到了AI大规模落地的曙光。

ChatGPT的传承与特点

每一代GPT模型的参数量都爆炸式增长，堪称“越大越好”。2019年2月发布的GPT-2参数量为15亿，而2020年5月的GPT-3，参数量达到了1750亿。

GPT家族主要模型对比

ChatGPT是基于GPT-3.5（GenerativePre-trainedTransformer3.5）架构开发的对话AI模型，是InstructGPT的兄弟模型。ChatGPT很可能是OpenAI在GPT-4正式推出之前的演练，或用于收集大量对话数据。

ChatGPT的主要特点

即便学习的知识有限，ChatGPT还是能回答脑洞大开的人类的许多奇葩问题。为了避免ChatGPT染上恶习，ChatGPT通过算法屏蔽，减少有害和欺骗性的训练输入。，查询通过适度API进行过滤，并驳回潜在的种族主义或性别歧视提示。

ChatGPT/GPT的原理

对于人类或AI，通常需接受多年的训练才能正常对话。NLP类模型不仅要理解单词的含义，还要理解如何造句和给出上下文有意义的回答，甚至使用合适的俚语和专业词汇。

NLP技术的应用领域

BERT与GPT的技术架构（图中En为输入的每个字，Tn为输出回答的每个字）

ChatGPT的技术结构

ChatGPT之前有几个知名的兄弟，包括GPT-1、GPT-2和GPT-3。这几个兄弟一个比一个个头大，ChatGPT与GPT-3更为相近。

ChatGPT与GPT1-3的技术对比

这里不得不提到TAMER（TraininganAgentManuallyviaEvaluativeReinforcement，评估式强化人工训练代理）这个框架。该框架将人类标记者引入到Agents的学习循环中，可以通过人类向Agents提供奖励反馈（即指导Agents进行训练），从而快速达到训练任务目标。

TAMER框架论文

而TAMER则可以将人类标记者的知识，以奖励信反馈的形式训练Agent，加快其快速收敛。TAMER不需要标记者具有专业知识或编程技术，语料成本更低。通过TAMER+RL（强化学习），借助人类标记者的反馈，能够增强从马尔可夫决策过程(MDP)奖励进行强化学习(RL)的过程。

TAMER架构在强化学习中的应用

此时的SFT模型在遵循指令/对话方面已经优于GPT-3，但不一定符合人类偏好。

ChatGPT模型的训练过程

如果我们不断重复第二和第三阶段，通过迭代，会训练出更高质量的ChatGPT模型。

ChatGPT的局限

当然，瑕不掩瑜，有工程师贴出了要求ChatGPT写verilog代码（芯片设计代码）的对话。可以看出ChatGPT水平已经超出一些verilog初学者了。

ChatGPT的未来改进方向

2022年12月，Anthropic再次发表论文《ConstitutionalAI:HarmlessnessfromAIFeedback》介绍人工智能模型Claude。（arxiv.org/pdf/2212.0807）

CAI模型训练过程

CAI用人工智能反馈来代替人类对表达无害性的偏好，即RLAIF，人工智能根据一套constitution原则来评价回复内容。

计算机学家StephenWolfram为这一问题提出了解决方案。StephenWolfram创造了的Wolfram语言和计算知识搜索引擎Wolfram|Alpha，其后台通过Mathematica实现。

ChatGPT与Wolfram|Alpha结合处理梳理问题

第三种模型压缩方法是稀疏化。例如奥地利科学技术研究所(ISTA)提出的SparseGPT（arxiv.org/pdf/2301.0077）可以将GPT系列模型单次剪枝到50%的稀疏性，而无需任何重新训练。对GPT-175B模型，只需要使用单个GPU在几个小时内就能实现这种剪枝。

SparseGPT压缩流程

ChatGPT的产业未来与投资机会

大模型呈爆发态势（更多的参数/更大的算力芯片需求）

最后，作者问存算一体技术在ChatGPT领域的地位（作者本人目前在重点推进存算一体芯片的产品落地），ChatGPT想了想，大胆的预言存算一体技术将在ChatGPT芯片中占据主导地位。

THE END

ChatGPT发展历程原理技术架构详解和产业未来

强化学习和在线学习的区别是什么?Worktile社区

强化学习图鉴｜你与最优策略之间，可能还差一本离线强化学习秘籍

今天来讨论下离线强化学习方法

大模型面经答案—强化学习：理论解释与讲解

AWAC：使用离线数据集加速在线强化学习技术博客技术支持京天机器人官网

机器学习中的集成在线批量迁移……各种学习的区别哆啦梦乐园

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹智能体新浪科技

强化学习研究综述.docx

ADL120《深度强化学习》开始报名

资源学到了！UCBerkeleyCS294深度强化学习课程（附视频与PPT）

推特爆款：谷歌大脑工程师的深度强化学习劝退文

光盘行动的真正含义范文

CICC原创面向智能博弈的决策Transformer方法综述算法模态智能体大模型

ChatGPT发展历程原理技术架构详解和产业未来