虎学研究让AI说中文，总共分几步？|如何用ai学英语_在线学习

从结果来看，ChatGPT可以和我们用“语言”进行对话，从原理上看，ChatGPT是一个可以通过数学运算预测，完成“接下句”的工作的模型。我们完全可以说ChatGPT不知道它输出的“答案”背后到底是什么意思，但可以输出从“语言”角度上来讲正确的答案。

这因为ChatGPT是一个”预训练生成式AI模型“，它使用了Transfomer架构，通过学习词与词之间的关系，预测下一个单词。而ChatGPT使用的注意力机制也让他比别的大语言模型可以理解更长、更复杂的句子。

我们完全可以说ChatGPT不知道它输出的“答案”背后到底是什么意思，但可以输出从“语言”角度上来讲正确的答案。

GPT-4发布以后，网友把“我看完这本书花了三天了”这个例子给GPT-4看，发现它完全可以理解，非常厉害，我们试用了以后也发现，GPT-4在中文理解和输出上也已经有了很强的能力了。

GPT-3的论文里其实有部分解释ChatGPT的“few-shot学习"机制。简单来说，就是”举例子”，也就是在输出之前靠你给他的例子举一反三。

到了GPT-4，它的多语言理解能力更强了，但这次论文里公开的技术细节很少，而且从某些角度来讲，ChatGPT能做到的，和大家能解释的内容开始逐渐发生偏差，我们也希望能借此机会和更多专业的朋友一起讨论这个问题。

在和一些从业者聊过后，也有朋友表示，不同语言对于AI来说都是数据，在大算力和深度学习面前，没有什么太大的区别。

但我们可以了解一下ChatGPT本身选取语料的办法，根据论文显示，GPT-3模型用到的Token（NLP研究对于词语的一个单位）数量高达499B，也就是4990亿个。而GPT-4到底用了多少外文语料，OpenAI目前还没有公开。

虽然说名师出高徒，但臭皮匠的数量足够，外加正确的学习方法，还是能出高徒的。

如果你理解了前面我们对于ChatGPT原理和训练过程的介绍，就会知道其实文言文可能对于数据模型来说，只是“要不要练，怎么练”的过程。

如果我们想要一个会说文言文的AI，可能需要给他喂足够多的文言文语料，这背后带来更多的工作，比如说文献数字化、分类、提取……

人工智能是个烧钱的生意，或许目前我们还不太需要一个会说文言文的AI？

谁知道呢。

首先是语料，语料就仿佛是土壤，有好的土壤自然就有好的基础。或许我们需要一些除了维基百科之外的中文语料集来进行训练，同时或许也可以像OpenAI一样，先使用英文语料，再教会它翻译。

其次就是训练方式方法，技术路线各家有各家的不同，但具体采用什么样的技术手段，一定会直接影响产品的最终表现。

这些都是白花花的银子。

这似乎是一个不太被目前所讨论的问题，但正如好莱坞对全球文化的影响，如果人工智能真的会像一些人预期那样席卷全球，那么这基于英语的训练数据，是否会影响文化的多元性呢？

在OpenAI公布的论文里我们可以知道，ChatGPT在进行RLHF（基于人工反馈的强化学习）时，寻找了40个承包商（contractor）进行”打标签“（labeling），这些承包商是什么背景的，我们暂时不得而知。

又考虑到目前Transfomer和神经网络的黑箱特性，这些人工干涉的部分会对最终的模型产生什么影响，实际上是暂时不明确的。但从以往人工智能的实例来看，偏见普遍存在，而通过参数调整解决这个偏见，还是个难题。

早上看到一个笑话：

有的公司在训练有意识的AI；

有的公司在训练无意识的工人。

（via夏之空）

现在各种“AI使用指南”正在如同雨后春笋般冒出来，从实际效果来看，至少可以确定的是，用ChatGPT学习外语绝对是可行的，像是翻译、润色、理解，这些都是大语言模型所擅长的。

但也有人担心了，如果我们过度依赖大语言模型，我们会不会又从训练AI的人，变成被AI训练的人呢？如果AI底层有一些问题，那我们是否会受到影响呢？

目前这个公开信已经有1125名知名人士签字，包括伊隆·马斯克和史蒂夫·沃兹尼亚克。

因为速度实在是太快了……就好像在人工智能的牌桌上，大家手里都是大王小王一样。

正如公开信中所说，AI系统在一般任务上已经具备了与人类竞争的能力，那下一步是否就要取代人类了呢？

Let'senjoyalongAIsummer,notrushunpreparedintoafall.

让我们享受一场漫长的AI夏天，而不是毫无准备的冲向深秋。（手工翻译，未使用AI）

此外，我们联系到了浙江大学的陈华钧教授，陈老师是做知识图谱、大数据系统、自然语言处理方向的专家。几个问题和答案供大家参考

Q：中文语料不行对训练AI说中文有影响吗？？

A：未必会有很大的影响，毕竟对于AI而言，文字、图片、视频这些模态都不是区别了，何况是语言，都是数据而已。

Q：那您觉得做中文语言模型应该用什么思路呢？

A：基础模型可以用英文语料来训，然后用中文来做指令微调，我相信这是目前大多数国内团队搞大模型的技术路线。

Q：这样的话岂不是会出现语义不同导致的理解偏差？

A：我认为这不全是一个中文成语处理的问题，解决办法可以是用一个知识图谱来约束生成模型，这些约束可以用来减少生成模型的胡说八道问题，我们自己的很多实验都证实了这一点。

Q：那您觉得接下来会怎么样呢？

A：AI还是一种生产力革命，总归有利弊，不过我还是觉得利还是大于弊。人类生产力提升一个量级之后，大家的又会找到一堆新工作和新生活。

THE END

虎学研究让AI说中文，总共分几步？

如何使用AI练习英语口语–PingCode

高效使用AI学英语的4个实用秘诀

如何用AI让明星教你学英语？

如何与孩子聊ChatGPT：AI大时代的完整版家长指南

虎学研究让AI说中文，总共分几步？

智慧教育新篇章：AI如何改变英语学习方式

好未来推出ABC英语角：AI+3D沉浸式，如何帮孩子练口语？

开学第一件事，我给孩子找到一个“最聪明”的学习“搭子”翻译新课标英语口语

新学期孩子的专属家教科大讯飞AI学习机T10评测

半年融资1.6亿美金，AI学语言又来敲Duolingo的门了

Ai英语app下载手机版Ai英语人工智能软件下载v2.5.0620安卓版

AI如何赋能外语学科？华东师大外语学院这场研讨会探讨破题之策

国外教师用生成式人工智能辅助教学

VIPKID用AI赋能在线少儿英语教育

跟沪江小D学英语英语四级必考词汇大全