从结果来看,ChatGPT可以和我们用“语言”进行对话,从原理上看,ChatGPT是一个可以通过数学运算预测,完成“接下句”的工作的模型。我们完全可以说ChatGPT不知道它输出的“答案”背后到底是什么意思,但可以输出从“语言”角度上来讲正确的答案。
这因为ChatGPT是一个”预训练生成式AI模型“,它使用了Transfomer架构,通过学习词与词之间的关系,预测下一个单词。而ChatGPT使用的注意力机制也让他比别的大语言模型可以理解更长、更复杂的句子。
我们完全可以说ChatGPT不知道它输出的“答案”背后到底是什么意思,但可以输出从“语言”角度上来讲正确的答案。
GPT-4发布以后,网友把“我看完这本书花了三天了”这个例子给GPT-4看,发现它完全可以理解,非常厉害,我们试用了以后也发现,GPT-4在中文理解和输出上也已经有了很强的能力了。
GPT-3的论文里其实有部分解释ChatGPT的“few-shot学习"机制。简单来说,就是”举例子”,也就是在输出之前靠你给他的例子举一反三。
到了GPT-4,它的多语言理解能力更强了,但这次论文里公开的技术细节很少,而且从某些角度来讲,ChatGPT能做到的,和大家能解释的内容开始逐渐发生偏差,我们也希望能借此机会和更多专业的朋友一起讨论这个问题。
在和一些从业者聊过后,也有朋友表示,不同语言对于AI来说都是数据,在大算力和深度学习面前,没有什么太大的区别。
但我们可以了解一下ChatGPT本身选取语料的办法,根据论文显示,GPT-3模型用到的Token(NLP研究对于词语的一个单位)数量高达499B,也就是4990亿个。而GPT-4到底用了多少外文语料,OpenAI目前还没有公开。
虽然说名师出高徒,但臭皮匠的数量足够,外加正确的学习方法,还是能出高徒的。
如果你理解了前面我们对于ChatGPT原理和训练过程的介绍,就会知道其实文言文可能对于数据模型来说,只是“要不要练,怎么练”的过程。
如果我们想要一个会说文言文的AI,可能需要给他喂足够多的文言文语料,这背后带来更多的工作,比如说文献数字化、分类、提取……
人工智能是个烧钱的生意,或许目前我们还不太需要一个会说文言文的AI?
谁知道呢。
首先是语料,语料就仿佛是土壤,有好的土壤自然就有好的基础。或许我们需要一些除了维基百科之外的中文语料集来进行训练,同时或许也可以像OpenAI一样,先使用英文语料,再教会它翻译。
其次就是训练方式方法,技术路线各家有各家的不同,但具体采用什么样的技术手段,一定会直接影响产品的最终表现。
这些都是白花花的银子。
这似乎是一个不太被目前所讨论的问题,但正如好莱坞对全球文化的影响,如果人工智能真的会像一些人预期那样席卷全球,那么这基于英语的训练数据,是否会影响文化的多元性呢?
在OpenAI公布的论文里我们可以知道,ChatGPT在进行RLHF(基于人工反馈的强化学习)时,寻找了40个承包商(contractor)进行”打标签“(labeling),这些承包商是什么背景的,我们暂时不得而知。
又考虑到目前Transfomer和神经网络的黑箱特性,这些人工干涉的部分会对最终的模型产生什么影响,实际上是暂时不明确的。但从以往人工智能的实例来看,偏见普遍存在,而通过参数调整解决这个偏见,还是个难题。
早上看到一个笑话:
有的公司在训练有意识的AI;
有的公司在训练无意识的工人。
(via夏之空)
现在各种“AI使用指南”正在如同雨后春笋般冒出来,从实际效果来看,至少可以确定的是,用ChatGPT学习外语绝对是可行的,像是翻译、润色、理解,这些都是大语言模型所擅长的。
但也有人担心了,如果我们过度依赖大语言模型,我们会不会又从训练AI的人,变成被AI训练的人呢?如果AI底层有一些问题,那我们是否会受到影响呢?
目前这个公开信已经有1125名知名人士签字,包括伊隆·马斯克和史蒂夫·沃兹尼亚克。
因为速度实在是太快了……就好像在人工智能的牌桌上,大家手里都是大王小王一样。
正如公开信中所说,AI系统在一般任务上已经具备了与人类竞争的能力,那下一步是否就要取代人类了呢?
Let'senjoyalongAIsummer,notrushunpreparedintoafall.
让我们享受一场漫长的AI夏天,而不是毫无准备的冲向深秋。(手工翻译,未使用AI)
此外,我们联系到了浙江大学的陈华钧教授,陈老师是做知识图谱、大数据系统、自然语言处理方向的专家。几个问题和答案供大家参考
Q:中文语料不行对训练AI说中文有影响吗??
A:未必会有很大的影响,毕竟对于AI而言,文字、图片、视频这些模态都不是区别了,何况是语言,都是数据而已。
Q:那您觉得做中文语言模型应该用什么思路呢?
A:基础模型可以用英文语料来训,然后用中文来做指令微调,我相信这是目前大多数国内团队搞大模型的技术路线。
Q:这样的话岂不是会出现语义不同导致的理解偏差?
A:我认为这不全是一个中文成语处理的问题,解决办法可以是用一个知识图谱来约束生成模型,这些约束可以用来减少生成模型的胡说八道问题,我们自己的很多实验都证实了这一点。
Q:那您觉得接下来会怎么样呢?
A:AI还是一种生产力革命,总归有利弊,不过我还是觉得利还是大于弊。人类生产力提升一个量级之后,大家的又会找到一堆新工作和新生活。