ChatGPT也可以与其他AIGC模型联合使用,获得更加炫酷实用的功能。
例如上面通过对话生成客厅设计图。这极大加强了AI应用与客户对话的能力,使我们看到了AI大规模落地的曙光。
一、ChatGPT的传承与特点
▌1.1OpenAI家族
GPT家族主要模型对比
▌1.2ChatGPT的主要特点
ChatGPT是基于GPT-3.5(GenerativePre-trainedTransformer3.5)架构开发的对话AI模型,是InstructGPT的兄弟模型。ChatGPT很可能是OpenAI在GPT-4正式推出之前的演练,或用于收集大量对话数据。
ChatGPT的主要特点
二、ChatGPT/GPT的原理
▌2.1NLP
NLP/NLU领域已知局限包括对重复文本、对高度专业的主题的误解,以及对上下文短语的误解。对于人类或AI,通常需接受多年的训练才能正常对话。NLP类模型不仅要理解单词的含义,还要理解如何造句和给出上下文有意义的回答,甚至使用合适的俚语和专业词汇。
NLP技术的应用领域本质上,作为ChatGPT基础的GPT-3或GPT-3.5是一个超大的统计语言模型或顺序文本预测模型。
▌2.2GPTv.s.BERT
BERT与GPT的技术架构(图中En为输入的每个字,Tn为输出回答的每个字)
三、ChatGPT的技术架构
▌3.1GPT家族的演进
ChatGPT与GPT1-3的技术对比
GPT家族与BERT模型都是知名的NLP模型,都基于Transformer技术。GPT-1只有12个Transformer层,而到了GPT-3,则增加到96层。
▌3.2人类反馈强化学习
真实性:是虚假信息还是误导性信息?
无害性:它是否对人或环境造成身体或精神上的伤害?
有用性:它是否解决了用户的任务?
▌3.3TAMER框架
TAMER架构在强化学习中的应用具体实现上,人类标记者扮演对话的用户和人工智能助手,提供对话样本,让模型生成一些回复,然后标记者会对回复选项打分排名,将更好的结果反馈回模型中。Agents同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统,通过奖励策略对模型进行微调并持续迭代。在此基础上,ChatGPT可以比GPT-3更好的理解和完成人类语言或指令,模仿人类,提供连贯的有逻辑的文本信息的能力。
▌3.4ChatGPT的训练
ChatGPT的训练过程分为以下三个阶段:第一阶段:训练监督策略模型GPT3.5本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。为了让GPT3.5初步具备理解指令的意图,首先会在数据集中随机抽取问题,由人类标注人员,给出高质量答案,然后用这些人工标注好的数据来微调GPT-3.5模型(获得SFT模型,SupervisedFine-Tuning)。此时的SFT模型在遵循指令/对话方面已经优于GPT-3,但不一定符合人类偏好。
ChatGPT模型的训练过程第二阶段:训练奖励模型(RewardMode,RM)这个阶段的主要是通过人工标注训练数据(约33K个数据),来训练回报模型。在数据集中随机抽取问题,使用第一阶段生成的模型,对于每个问题,生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师辅导。接下来,使用这个排序结果数据来训练奖励模型。对多个排序结果,两两组合,形成多个训练数据对。RM模型接受一个输入,给出评价回答质量的分数。这样,对于一对训练数据,调节参数使得高质量回答的打分比低质量的打分要高。第三阶段:采用PPO(ProximalPolicyOptimization,近端策略优化)强化学习来优化策略。PPO的核心思路在于将PolicyGradient中On-policy的训练过程转化为Off-policy,即将在线学习转化为离线学习,这个转化过程被称之为ImportanceSampling。这一阶段利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的RM模型给出质量分数。把回报分数依次传递,由此产生策略梯度,通过强化学习的方式以更新PPO模型参数。
如果我们不断重复第二和第三阶段,通过迭代,会训练出更高质量的ChatGPT模型。
四、ChatGPT的局限
只要用户输入问题,ChatGPT就能给予回答,是否意味着我们不用再拿关键词去喂Google或百度,就能立即获得想要的答案呢?
尽管ChatGPT表现出出色的上下文对话能力甚至编程能力,完成了大众对人机对话机器人(ChatBot)从“人工智障”到“有趣”的印象改观,我们也要看到,ChatGPT技术仍然有一些局限性,还在不断的进步。1)ChatGPT在其未经大量语料训练的领域缺乏“人类常识”和引申能力,甚至会一本正经的“胡说八道”。ChatGPT在很多领域可以“创造答案”,但当用户寻求正确答案时,ChatGPT也有可能给出有误导的回答。例如让ChatGPT做一道小学应用题,尽管它可以写出一长串计算过程,但最后答案却是错误的。那我们是该相信ChatGPT的结果还是不相信呢?
五、ChatGPT的未来改进方向
▌5.1减少人类反馈的RLAIF
2020年底,OpenAI前研究副总裁DarioAmodei带着10名员工创办了一个人工智能公司Anthropic。Anthropic的创始团队成员,大多为OpenAI的早期及核心员工,参与过OpenAI的GPT-3、多模态神经元、人类偏好的强化学习等。2022年12月,Anthropic再次发表论文《ConstitutionalAI:HarmlessnessfromAIFeedback》介绍人工智能模型Claude。(arxiv.org/pdf/2212.0807)
CAI模型训练过程Claude和ChatGPT都依赖于强化学习(RL)来训练偏好(preference)模型。CAI(ConstitutionalAI)也是建立在RLHF的基础之上,不同之处在于,CAI的排序过程使用模型(而非人类)对所有生成的输出结果提供一个初始排序结果。CAI用人工智能反馈来代替人类对表达无害性的偏好,即RLAIF,人工智能根据一套constitution原则来评价回复内容。
▌5.2补足数理短板
ChatGPT与Wolfram|Alpha结合处理梳理问题在这一结合体系中,ChatGPT可以像人类使用Wolfram|Alpha一样,与Wolfram|Alpha“对话”,Wolfram|Alpha则会用其符号翻译能力将从ChatGPT获得的自然语言表达“翻译”为对应的符号化计算语言。在过去,学术界在ChatGPT使用的这类“统计方法”和Wolfram|Alpha的“符号方法”上一直存在路线分歧。但如今ChatGPT和Wolfram|Alpha的互补,给NLP领域提供了更上一层楼的可能。ChatGPT不必生成这样的代码,只需生成常规自然语言,然后使用Wolfram|Alpha翻译成精确的WolframLanguage,再由底层的Mathematica进行计算。
▌5.3ChatGPT的小型化
SparseGPT压缩流程
六、ChatGPT的产业未来与投资机会
▌6.1AIGC
说到ChaGPT不得不提AIGC。AIGC即利用人工智能技术来生成内容。与此前Web1.0、Web2.0时代的UGC(用户生产内容)和PGC(专业生产内容)相比,代表人工智能构思内容的AIGC,是新一轮内容生产方式变革,而且AIGC内容在Web3.0时代也将出现指数级增长。ChatGPT模型的出现对于文字/语音模态的AIGC应用具有重要意义,会对AI产业上下游产生重大影响。
▌6.2受益场景
从上游增加需求来看,包括算力芯片、数据标注、自然语言处理(NLP)等。
参考文献:
InstructGPT论文:TraininglanguagemodelstofollowinstructionswithhumanfeedbackTraininglanguagemodelstofollowinstructionswithhumanfeedback
huggingface解读RHLF算法:IllustratingReinforcementLearningfromHumanFeedback(RLHF)IllustratingReinforcementLearningfromHumanFeedback(RLHF)
RHLF算法论文:AugmentingReinforcementLearningwithHumanFeedbackcs.utexas.edu/~ai-lab/p
PPO算法:ProximalPolicyOptimizationAlgorithmsProximalPolicyOptimizationAlgorithms