ChatGPT发展历程原理技术架构详解和产业未来

据报道,ChatGPT在开放试用的短短几天,就吸引了超过100万互联网注册用户。并且社交网络流传出各种询问或调戏ChatGPT的有趣对话。甚至有人将ChatGPT比喻为“搜索引擎+社交软件”的结合体,能够在实时互动的过程中获得问题的合理答案。

ChatGPT也可以与其他AIGC模型联合使用,获得更加炫酷实用的功能。例如上面通过对话生成客厅设计图。这极大加强了AI应用与客户对话的能力,使我们看到了AI大规模落地的曙光。敬请阅读。

文/陈巍(清华大学教授)

00

引言

ChatGPT也可以与其他AIGC模型联合使用,获得更加炫酷实用的功能。例如上面通过对话生成客厅设计图。这极大加强了AI应用与客户对话的能力,使我们看到了AI大规模落地的曙光。

01

ChatGPT的传承与特点

每一代GPT模型的参数量都爆炸式增长,堪称“越大越好”。2019年2月发布的GPT-2参数量为15亿,而2020年5月的GPT-3,参数量达到了1750亿。

GPT家族主要模型对比

ChatGPT是基于GPT-3.5(GenerativePre-trainedTransformer3.5)架构开发的对话AI模型,是InstructGPT的兄弟模型。ChatGPT很可能是OpenAI在GPT-4正式推出之前的演练,或用于收集大量对话数据。

ChatGPT的主要特点

即便学习的知识有限,ChatGPT还是能回答脑洞大开的人类的许多奇葩问题。为了避免ChatGPT染上恶习,ChatGPT通过算法屏蔽,减少有害和欺骗性的训练输入。,查询通过适度API进行过滤,并驳回潜在的种族主义或性别歧视提示。

02

ChatGPT/GPT的原理

对于人类或AI,通常需接受多年的训练才能正常对话。NLP类模型不仅要理解单词的含义,还要理解如何造句和给出上下文有意义的回答,甚至使用合适的俚语和专业词汇。

NLP技术的应用领域

BERT与GPT的技术架构(图中En为输入的每个字,Tn为输出回答的每个字)

03

ChatGPT的技术结构

ChatGPT之前有几个知名的兄弟,包括GPT-1、GPT-2和GPT-3。这几个兄弟一个比一个个头大,ChatGPT与GPT-3更为相近。

ChatGPT与GPT1-3的技术对比

这里不得不提到TAMER(TraininganAgentManuallyviaEvaluativeReinforcement,评估式强化人工训练代理)这个框架。该框架将人类标记者引入到Agents的学习循环中,可以通过人类向Agents提供奖励反馈(即指导Agents进行训练),从而快速达到训练任务目标。

TAMER框架论文

而TAMER则可以将人类标记者的知识,以奖励信反馈的形式训练Agent,加快其快速收敛。TAMER不需要标记者具有专业知识或编程技术,语料成本更低。通过TAMER+RL(强化学习),借助人类标记者的反馈,能够增强从马尔可夫决策过程(MDP)奖励进行强化学习(RL)的过程。

TAMER架构在强化学习中的应用

此时的SFT模型在遵循指令/对话方面已经优于GPT-3,但不一定符合人类偏好。

ChatGPT模型的训练过程

如果我们不断重复第二和第三阶段,通过迭代,会训练出更高质量的ChatGPT模型。

04

ChatGPT的局限

当然,瑕不掩瑜,有工程师贴出了要求ChatGPT写verilog代码(芯片设计代码)的对话。可以看出ChatGPT水平已经超出一些verilog初学者了。

05

ChatGPT的未来改进方向

2022年12月,Anthropic再次发表论文《ConstitutionalAI:HarmlessnessfromAIFeedback》介绍人工智能模型Claude。(arxiv.org/pdf/2212.0807)

CAI模型训练过程

CAI用人工智能反馈来代替人类对表达无害性的偏好,即RLAIF,人工智能根据一套constitution原则来评价回复内容。

计算机学家StephenWolfram为这一问题提出了解决方案。StephenWolfram创造了的Wolfram语言和计算知识搜索引擎Wolfram|Alpha,其后台通过Mathematica实现。

ChatGPT与Wolfram|Alpha结合处理梳理问题

第三种模型压缩方法是稀疏化。例如奥地利科学技术研究所(ISTA)提出的SparseGPT(arxiv.org/pdf/2301.0077)可以将GPT系列模型单次剪枝到50%的稀疏性,而无需任何重新训练。对GPT-175B模型,只需要使用单个GPU在几个小时内就能实现这种剪枝。

SparseGPT压缩流程

06

ChatGPT的产业未来与投资机会

大模型呈爆发态势(更多的参数/更大的算力芯片需求)

最后,作者问存算一体技术在ChatGPT领域的地位(作者本人目前在重点推进存算一体芯片的产品落地),ChatGPT想了想,大胆的预言存算一体技术将在ChatGPT芯片中占据主导地位。

THE END
1.学习笔记在线强化学习是强化学习的一种形式,其中智能体(agent)通过与环境的实时交互来学习。在这个过程中,智能体根据当前观察状态(state)采取行动(action),并从环境那里接收奖励(reward)和下一个状态(next state)。智能体使用这些反馈来更新其策略(policy),即在定状态下选择行动的规则。在线学习的特点是智能体在每一时刻都基https://blog.csdn.net/hzlalb/article/details/136870080
2.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
3.强化学习和生成对抗网络的区别和联系腾讯云开发者社区强化学习(Reinforcement Learning)和生成对抗网络(Generative Adversarial Networks,GANs)是两种重要的机器学习方法,它们各自有着不同的学习目标、过程和结果。本文将介绍强化学习和生成对抗网络的区别和联系,并详细解释它们的目标、过程和结果。 1.强化学习 1.1 目标: https://cloud.tencent.com/developer/article/2390327
4.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
5.离线强化学习因此,离线强化学习(offline reinforcement learning)的目标是,在智能体不和环境交互的情况下,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略。离线强化学习和在线策略算法、离线策略算法的区别如图 18-1 所示。图18-1 离线强化学习和在线策略算法、离线策略算法的区别https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
6.人工智能团队研究成果在TKDE发表:样本高效的离线转在线强化学习算法近期,吉林大学人工智能学院、未来科学国际合作联合实验室人工智能团队在IEEE Transactions on Knowledge and Data Engineering上发表题为“Sample Efficient Offline-to-Online Reinforcement Learning”的研究工作。该研究提出了一种样本高效的离线转在线强化学习算法,通http://icfs.jlu.edu.cn/info/1007/3101.htm
7.科学网—[转载]强化学习在资源优化领域的应用随着强化学习在围棋、游戏等序列化决策领域大放异彩、在多智能体协作等领域取得较好表现,它的一些优秀特性也得到了资源优化领域的关注。首先,基于强化学习的解决方案决策非常高效。虽然强化学习策略的训练非常耗时,但是这些训练工作可以离线进行,实际中只需要利用训练好的模型进行推理,因而在绝大部分情况下可以做到近似实时https://blog.sciencenet.cn/blog-3472670-1312677.html
8.叶志豪:介绍强化学习及其在NLP上的应用分享总结雷峰网基于价值函数的强化学习,它先通过对现状进行一个价值函数的估计,进而去提升策略,估计这个策略,再重复循环,再估计当前策略下的函数,再用当前价值函数来提升它的策略,两步,第一步估计价值函数,第二步是提升它的策略,这两步一直循环。 基于值的函数分为在线学习和离线学习两种方式,在线学习的代表学习方法是 Sarsa,离线https://www.leiphone.com/news/201807/sbyafpzV4BgvjLT1.html
9.基于强化学习的仿人智能控制器参数在线学习与优化参数的在线学习与优化在控制中起着重要的作用,其在线学习与离线学习参数的最大区别是在线学习参数可以适应动态环境,而离线学习参数则只适于静态或简单的环境。在线参数的方法包括:模拟退火算法(SA)、粒子群算法(PSO)、单纯形法和强化学习方法等等。本论文首次提出了利用强化学习在线学习优化仿人智能控制器的参数。 连续https://cdmd.cnki.com.cn/Article/CDMD-10611-2010217708.htm
10.清华北大等发布SelfPlay强化学习最新综述澎湃号·湃客麻将同样基于不完全信息做出决策,此外,麻将的牌数更多,获胜牌型也更为复杂,对 AI 更具挑战性。Suphx 通过监督学习和自我博弈强化学习成为首个达到与人类专家水平的算法。NAGA 和腾讯设计的 LuckyJ 同样也在在线平台上达到了人类专家水平。 场景三:电子游戏 https://www.thepaper.cn/newsDetail_forward_28688973
11.上海市育鹰学校“基于“基于教学改革融合信息技术的新型教与学打造育鹰学校“悦创云校园”,即以“学创融合、结伴奋飞”为建设理念,以教学为核心,构建悦创云课堂,促进教师教学方式的改变,运用不同的学习策略指导学生形成自主、合作、探究的学习方式,提升学生自主学习和综合实践能力。在实现校园信息系统互联互通的基础上,探索基于数据的学生评价,强化过程评价、健全综合评价,促进学生http://www.yuying.edu.sh.cn/info/1076/8592.htm