做出最好大模型的CEO,不认为ScalingLaw撞墙了

Cursor因为这个模型找到了自己的PMF,很多编剧和作者也发现它的语言表达能力也更好一些。

而Anthropic公司,今年发布的Artifact、ComputerUse功能,都在某种意义上引领了AI开发的新方向。

AnthropicCEODarioAmodei,无疑是当下最懂大模型的人之一,他和LexFridman在11月12日的这场对谈,回答了诸多大家对于大模型是否撞墙的疑问,以及RLHF、CompuerUse等模型训练和产品功能的讨论。

访谈很长,我们节选了DarioAmodei这部分,编译版本来自「海外独角兽」,FounderPark略有调整。

DarioAmodei:我只能从我个人的经历来聊这件事。我在AI领域待了差不多有10年了,最早在2014年底接触到了AI,一开始我们研究的是语音识别系统,那时候deeplearning还比较新,虽然取得了不少进展,但大家普遍认为,我们才只做了一小部分,还没有找到成功的算法以及能和人类智能相匹配的模型,在算法方面还有很长的路要走。

一开始我以为这种规律只适用于语音识别系统,只是这个领域的一个特性,直到2017年看到GPT-1,我才意识到,语言其实是一个非常适合scaling的领域,因为有海量的语言数据可以用于训练。当时训练的模型还很小,1-8块GPU就够了,现在要训模型已经需要数万张GPU,很快就需要用到数十万张GPU。

Thescalinglaw

所以对我来说,真正的转折点是在2014年到2017年之间,那时我真正确信:通过扩大模型规模,我们就能完成各种复杂的认知任务。

其实scalinglaw在发展的每个阶段都会有各种各样不同的质疑。刚开始我也觉得可能是我错了,比如Chomsky认为,尽管模型可以做到句法分析,但仍然无法理解语义,还有一种观点认为,句子可以是有意义的,但还是不能让段落连贯起来。

现在最新的质疑就包括,数据马上就要耗尽了,或者数据的质量不够高,或者模型不能进行推理等等。但面对这些质疑,我们每次都能找到解决的办法,或者持续做scaling就能解决问题。

直到现在,我仍然认为scaling有很多不确定性,我们只能通过归纳推理来判断未来两年是否会延续过去10年的趋势。这样的情况我已经见过太多次了,我认为scaling很可能还会继续下去,只不过其中的奥秘还没有办法完全用理论解释。

LexFridman:这里的scaling指的是计算规模更大、数据更多、算力更强吗?

DarioAmodei:是的,具体来说是network、rainingtimes和data的线性扩展。这就好比一个化学反应一共有三种成分,如果想让反应顺利进行,就需要把这三种成分一起按比例加倍。如果只增加其中一个成分,其他试剂不够了,反应就会停止。如果能把所有成分都按照相同的比例增加,反应就能继续进行下去。

LexFridman:ScalingLaw是不是可以延展到其它更细节的环节?比如可解释性中也存在scalinglaws,或者post-train也存在scalinglaw?

DarioAmodei:是的,除了语言以外,到2020年底左右,我们又发现同样的规律在图像、视频、文本到图像、图像到文本、数学等模态下也都适用。在其他我们研究过的模型训练的环节中,比如post-train、新的resigningmodels上,也能看到类似的规律。

LexFridman:你是如何理解scalinglaw的?为什么会存在模型和数据的规模越大,模型就会越智能的规律?

DarioAmodei:物理学领域有两个概念分别是「1/f噪声」和「1/x分布」,意思是说如果我们把很多自然现象的过程叠加在一起,往往会呈现出高斯分布,但如果不同分布的自然过程叠加在一起,就会形成一种衰减的分布。

比如说,如果把探针接到电阻上,电阻的热噪声分布与频率成反比,随着频率的增加,热噪声的幅度会减小,这是一种自然的收敛分布。这个概念的实质是,我们可以观察一下由自然过程产生的很多事物,它们通常会有很多不同的尺度,不像高斯分布那样集中。比如在电气噪声中,大小不同的波动会呈现出衰减的1/x分布。

语言中的模式也是类似的。

首先是一些简单的规律,比如「the」这种词出现的频率比其他词更高,然后是基本的名词、动词结构,比如句子的主谓一致,再往上到句子结构,再到整段文字的主题结构。这是一个逐级递减的结构,可以想象成网络在扩展时,最先捕捉到的就是这些简单的关联和规律,然后才是长尾的其他规律。

如果语言模式的长尾分布像电阻热噪声的1/f分布一样平滑,那么随着网络规模的不断扩大,模型能捕捉到的分布中的规律也会越来越多。这种平滑性最终会反映在模型的预测能力和性能上。

语言本身是一个不断演化的过程,我们有常用词、少见词、固定表达和不常见的表达,有陈词滥调,也有新出现的流行词汇等等,所以我猜语言中这些想法的分布可能是一种长尾分布,当然这只是我的猜测。

是的,如果模型规模很小,它就只能捕捉到最常见的东西。比如一个小型的神经网络,它很擅长理解一个句子中的动词、形容词、名词等等,但要把这些词搭配起来形成有意义的句子结构,它就不能做出很好的决策。

如果把网络稍微做大一点,它就能更好地理解句子结构了,但是还是不能很好地理解段落。网络的容量越大,模型能捕捉到的模式就越稀有、越复杂。

LexFridman:Scaling的上限在哪里?现实世界还有多少复杂的知识需要我们和模型去学习?

DarioAmodei:还没有人能给出明确答案。

我的一个直觉是,就达到人类的水平这个目标来说,scalinglaw还没有遇到上限。人类能够理解各种复杂的模式,所以如果我们继续放大这些模型规模,开发新的训练方法并扩大它们的能力,至少能让模型达到人类的水平。问题是,模型是否有可能超越人类的能力,会不会比人类更聪明、更敏锐?这个答案在不同领域可能不一样。

在斯坦福、哈佛、伯克利这样的学校,可能有一整个系的人都在研究免疫系统或代谢通路,但每个人都只理解其中很小的一部分,研究分工特别地专业化,而且他们也在尝试把互相之间的研究整合起来。所以,我直觉上会觉得,AI智能还有很大的提升空间。

如果说到物质世界的材料,或者人与人之间的冲突,这些问题可能没有生物学那么难解决,但问题在于我们也只能做到这个程度,就好比语音识别能听清的程度是有限的。

所以某些领域的上限可能很接近于人类的水平,而其他领域的上限可能还远远没达到。只有真正搭建好了这些AI系统,才能知道上限到底在哪里,尽管我们可以推测,但不能确定,也很难提前知道答案。

LexFridman:在你提到的这些领域,AI的能力之所以有限制可能是因为人类必须在整个链条里,而不是模型能力本身?

DarioAmodei:是的,理论上来讲很多技术,例如生物学的各种发明都可以快速发展,但是在真正应用到人身上之前,还需要经过临床试验体系,这其中既混杂着一些不必要的组织机制,也有确实有一些社会性的因素,关键在于怎么把它们清楚地区分开。

拿药物研发举个例子,我觉得我们的进展太慢、太保守了。但如果这个过程过于鲁莽,一旦出错就很可能就会危及人们的生命,所以这个领域的很多监管机构的保守在某种程度上确实保护了人们。所以关键是要找到平衡。

LexFridman:如果我们真的遇到了上限,或者scalinglaw放缓了,你认为原因可能会是什么?

DarioAmodei:我认为可能的原因有几种。我们这里所说的上限是指模型还没有达到人类的水平之前能力就触顶了的情况。

现在比较普遍的一种观点是,我们可能会面临数据不足的限制。我们的确有可能会用完数据,因为网络上的数据量是有限的,数据质量也是个问题,虽然网络上有数百亿的词汇量,但其中很多都是重复的,或者是为了SEO而产生的内容,甚至未来可能是AI自己生成的文本。所以我认为通过这种方式获取的数据是有限的。

不过,我们正在研究如何制造合成数据(syntheticdata),通过模型生成与现有数据类似的新数据,甚至完全从零开始生成数据。我估计其他公司也在这么做,比如DeepMind就让AlphaGoZero做self-play,让它从完全不会下围棋到超越人类水平,过程中不需要人类的示例数据。

还有一个方向是reasoningmodels,这类模型会进行思维链思考,也可以停下来反思自己的思维过程,某种程度上算是另一种结合了RL的合成数据。

所以通过合成数据和resoningmodels其中任何一种方法,都可以帮我们解决数据限制的问题。

一个可能的答案是我们要发明新的架构。过去也遇到过模型数值的稳定性等问题,当时模型性能看起来基本已经不再提升了,但实际上找到合适的解决方案后,性能又会继续提升。所以我们可能需要新的优化的方法或者技术来突破当前的瓶颈,虽然到目前为止我还没有看到这方面的迹象,但如果scaling的进展被明确证实放缓了,那么原因可能就是缺少新的架构。

LexFridman:算力会是scalinglaw的限制吗?

DarioAmodei:我估计目前主流模型公司的计算规模在0.33~3billion之间,预计明年能提升到几十亿的规模,2026年可能会超过一百亿,到2027年,可能会建设上百亿规模的计算集群。这一切都是可以实现的,因为业界有很强的决心,当然,即使达到千亿级别的计算规模,算力可能也还不够,我们要么需要进一步加大规模,要么就需要开发更高效的方法,改变现在的scaling曲线。

我之所以看好powerfulAI,其中一个原因就是如果我们继续沿着当前的曲线发展,模型很快就能接近人类的能力水平。在今天已经被开发出来的reasoningmodels中,有些已经达到了PhD或者专业的水平,就coding的能力来说,我们最新发布的Sonnet3.5在SWE-bench上的表现已经达到了50%左右。

今年年初,SOTA模型在SWE-bench上的表现也才只有3%到4%,仅仅在10个月内,模型的表现就从3%提升到了50%。再过一年,甚至都不需要一年,可能就会达到90%。

OpenAI的o1模型已经能够在研究生级别的数学、物理、生物等领域取得了类似的进展。如果我们继续沿着这条技能提升的曲线往前走,我认为几年内这些模型的专业能力就能超过人类的最高水平。但确实存在这条曲线并不一定会一直持续下去的风险。

DarioAmodei:我们发布Claude3系列的时候的出发点是,现在很多公司开发出了各种规模的模型,模型的性能也有强有弱。市场上既需要能力更强的大模型,这种模型可能运行得稍微慢一些,价格也会高一些,也需要响应快、成本低的模型,但它们的智能水平已经很不错了。对于一些复杂的分析,比如我想写代码、构思创意或者做一些创意写作时,就需要这种强大的模型。

但是在商业领域也有很多实际的应用,如果我要和网站交互,比如报税,和法律顾问沟通,或者分析合同等等,还有很多公司想在IDE上实现自动补全。这些场景需要的是能快速响应且应用广泛的模型。我们希望能够满足这一系列的需求,所以就有了这一系列模型。

这几个模型的命名参考了诗歌,最短的诗就是Haiku,Haiku是一个响应速度快、成本便宜的小模型,并且在同样的响应和成本条件下,模型表现最好。

Sonnet(十四行诗)是一种中等长度的诗歌,所以Sonnet的模型规模中等,比Haiku更智能,但速度稍微慢一些,成本价格也更高。Opus代表的是,所以Opus是当时最大、最智能的模型。这就是当初起名时的思路。

当时的想法是,每一代新模型都应该进一步推动性能与成本达到平衡。所以我们发布Sonnet3.5时,它的成本和速度与Sonnet3差不多,但智能水平却超过了最初Opus3的水准,它在各种应用上的表现都很出色,特别是在代码上。

最近我们也展示了Haiku3.5的结果,我认为,虽然Haiku3.5是最新的小模型,但是它的能力已经接近旧版的Opus3这个最大的模型了。大体上,我们的目标是不断推进这条曲线,接下来我们也会推出Opus3.5。

每一代新模型都有自己的特点:新的数据和个性也会发生变化,虽然我们会尽量进行引导,但也并不能完全掌控它们的变化,所以模型改变的不仅仅智能能力。我们总是想要在某些方面做出改进,但是我们并不能预知或者检测到所有改变,所以这是一门不太精确的科学。在很多方面,这些模型的风格和个性更像是一种艺术,而非纯粹的科学。

LexFridman:从ClaudeOpus3.0到3.5,中间你们主要做了哪些事情?

接下来是post-train阶段,在这个阶段我们会进行RLHF和其他类型的RL,post-train现在已经越来越重要了。

我们希望既能严格进行安全测试,也希望这个测试尽可能自动化、快速进行,而不牺牲严谨性,pre-train和post-train的过程也是一样。就像造飞机一样,既想让它们安全,又想让整个流程高效。这种在效率与安全之间的创造性张力,就是让模型能够运行的关键。

LexFridman:你们通过RLHF获取的偏好数据是不是又可以被用在之后的新模型训练上?

DarioAmodei:是的,旧模型的偏好数据有些时候会被用来训练新模型,当然,新模型上收集到的RLHF的数据的练效果会更好。

我们有一种叫做ConstitutionalAI的方法,这个方法不仅会使用到偏好数据,还会在post-train的过程中让模型和自身进行对抗训练,并且每天都会使用新的自我对抗的训练方法。所以post-training环节除了RLHF外还会用到很多其他方法。我觉得整个post-train正变得越来越复杂和精细。

LexFridman:新一代模型什么时候发布?比如ClaudeOpus3.5、Claude4.0等等?

其实随着模型的迭代,怎么给模型命名也是一个很有意思的挑战。可能在1年前,模型训练的重点在pre-train的时候,我们通常是从头训一个新模型,再用统一的命名体系来管理这些不同规模的模型,可能只要有一些新的改进,就可以升级成下一代模型。

但模型的命名和软件不一样,因为软件可以清晰地说「这是3.7版本,这是3.8版本」,但不同代际模型之间会很多环节都做出trade-off,因此就会存在不同模型在推理、成本、规模上的差异。我觉得怎么区分这些不同的模型是所有人都很头疼的问题,目前看Haiku、Sonnet和Opus这样的命名方式的确是更清晰的。

因为有时候模型的特性、不同模型之间的差异很难通过基准测试体现出来,因为这些特性不完全是能力本身,也可能是「模型更礼貌、更直率、反应敏捷、主动提问」等。

我们有一个专注于Claude性格的团队,由Amanda领导,但这仍然是一门非常不精确的科学。我们经常会发现模型的一部分特性我们事先并不知道。事实上,就算和一个模型交谈一万次,也还是会发现一些之前没有见过的行为。

就和人一样,我可能和一个人认识了几个月,但我还是不知道他有某种技能或者特质。我们需要接受这个事实,我们一直在寻找更好的方法来测试模型,展示模型的能力,决定哪些性格特性是我们希望模型拥有的,哪些是我们不想要的。这种规范性的问题本身就非常有意思。

LexFridman:Claude4.0会在什么时候发布?

DarioAmodei:我不想现在就给下一代模型定义好它的名字,比如可能存在一些情况还是我们因为有了新的模型而决定重新开始,这个领域存在很多变化,但scaling的趋势还会继续下去。我们肯定会推出比现在的模型还要强大的版本,如果做不到这点,就说明我们公司彻底失败了。

所以模型能力是在不断提升,最新一版的Sonnet表现要更出色。从技术层面来看,我们在这个过程中作了全面的改进,包括pre-train、post-train,以及各种评估等等所有环节。

SWE-bench基准测试模拟了真实的场景,根据当前代码库的状态,要求模型根据语言描述实现新功能。我们内部也有类似的基准测试可以测量同样的任务,我们允许模型自由发挥、运行或编辑任何内容,然后评估它完成任务的效果。这个基准测试的成功率最初只有3%,现在提高到了50%左右。

所以我觉得,基准测试的成功率的确可以提高,但是在不针对特定基准过度训练或优化的情况下达到100%的成功,才能说明编程能力真正取得了进步,如果基准测试的成功率能达到90%-95%,就说明它可以自主完成大部分软件工程任务了。

LexFridman:你觉得编程作为AI开发的核心环节会发生哪些本质上的变化?

DarioAmodei:我认为编程会是变化最快的领域之一,原因有两个。

第二,无论是在模型训练还是应用阶段,编程都能形成闭环。模型可以编写代码、运行这些代码、分析结果并进行反馈。相比硬件或生物学等领域,这种闭环能力会让AI在编程领域的进步速度更快。

就实际编程任务来说,从今年1月到10月,模型的能力从3%提升到了50%。我们正处在S曲线快速增长的阶段,由于上限是100%,增长速度会逐渐放缓。我估计再过10个月左右,我们可能就能达到至少90%的水平。我个人猜测到2026年或2027年,AI可以胜任大多数程序员日常的编码任务。

尽管如此,人类在编程中的比较优势依然存在。当AI能够完成程序员80%的工作时,尤其是根据给定的spec进行编码,到那时人类会转向发挥更大价值的领域,比如high-level的系统设计、应用架构评估、设计和用户体验等方面。

就和文字处理的演变一样,过去写信和排版都很困难,但随着文字处理器和计算机的出现,这些工作就变得容易了,人们也能把精力集中在创意和想法上。这种比较优势的逻辑会让一些小任务扩展成大任务,创造新的任务来提高生产力。我认为这种比较优势的逻辑在未来会继续发挥作用。

当然,终有一天AI会在所有方面都超越人类,到那时这个逻辑就不再适用了,那时人类需要思考如何共同应对这种情况,这也是除了滥用风险和自主性之外我们每天都在思考的一个问题。但在近期甚至是中期,也就是2-4年内,我认为人类既然会扮演重要的角色。编程的性质会改变,但编程作为一个职业不会消失,只是会从逐行编写代码转向更宏观的工作。

LexFridman:未来的IDE会是什么样的?每个垂直领域都会有特定的工具与AI系统交互来提高效率,Anthropic会自己做toolings吗?

DarioAmodei:我完全相信IDE还有很多待开发的潜力,因为现在的模式还停留在我们和模型对话的阶段。但IDE在静态分析方面已经很强大了,很多bug在写代码之前就能通过静态分析发现。IDE还擅长运行特定任务、组织代码、测量单元测试覆盖率等。

现在再加上模型能够编写和运行代码,我相信在接下来的一两年里,即使模型本身的能力不提升,我们也能通过IDE显著提高工作效率,帮助开发者避免很多错误,完成大量基础工作。我们现在才刚刚开始探索这个领域。

但对于Anthropic很难说以后会怎么样,目前我们并不打算自己开发IDE。我们为Cursor、Kognition这样的公司,以及安全领域的其他公司提供API支持,让他们在我们的基础上开发工具。

我们的理念是百花齐放,既然我们内部没有资源去尝试所有这些方向,那不如让客户去尝试,看看谁能成功。也许不同的客户会在不同领域取得成功。所以虽然我认为这个方向很有前景,但Anthropic现在、可能以后也不会急着在这个领域和其他公司竞争。

Cursor给到的体验很惊艳,虽然作为CEO,我现在编程的机会不多,但我觉得如果6个月后我重新回去编程,可能会感觉完全不一样了。

DarioAmodei:其实原理并不难。在今年3月发布Claude3后,Claude就具备了分析图像并输出文本的能力。我们新加入的功能是,电脑截图也可以成为分析的图像,我们让模型可以通过点击屏幕上的某个位置或者按下按键来执行操作。事实证明,不需要太多额外训练,模型可以很好地胜任这样的任务。

ComputeUse是一个很好的关于泛化的例子。科幻小说家海因莱因说过「Ifyoucangetyourshipintoorbit,you'rehalfwaytoanywhere」,一个强大的pre-train模型就相当于在AI智能的空间里也走完了一半的路程。所以对于Claude来说,要实现这种功能并没有太大难度。

我们可以把ComputeUse设置成一个循环:给模型一张截图,告诉它要点击的位置,然后再给它下一张截图,告诉它接下来要点击的位置,这样就和模型形成了一种类似3D视频互动的效果。Claude可以执行很多任务,在demo里,它能填表、浏览网站,甚至能打开各种程序,而且支持Windows、Linux和Mac等各种操作系统。我们看到Replit已经在这些系统上做了各种demo。

因为模型能力越来越强,我们必须要认真思考如何安全地使用这些能力,防止被滥用,在模型的这些能力还比较有限的时候就发布它,可以帮我们做好这方面的准备。

LexFridman:ComputeUse的应用场景真的非常广,未来要让这个功能更好地运作,在pre-train基础之上还需要做哪些工作?比如进一步做post-training、RLHF、supervisedfine-tuning或者围绕agent场景做syntheticdata等等?

DarioAmodei:从highlevel的层面来讲,我们会继续在模型性能提升上做投入。以前模型在基准测试的表现可能只有6%的成功率,现在我们的模型已经可以做到14%甚至22%,我们的目标是让模型达到人类可靠的水平,也就是80%甚至90%。模型现在的发展曲线和在SWE-bench上的表现类似。我预计再过一年左右,模型的可靠性会非常高。

LexFridman:要让模型达到90%的人类水平,是延续现有的训练方法,还是需要为了ComputerUse这个功能专门进行训练

DarioAmodei:要看如何定义「专门训练」。但总的来说,我认为我们用于训练当前模型的技术,比如代码、模型、图像输入以及语音等技术,只要在同样的方向上深入探索,就能帮我们继续scaleup。

LexFridman:Computeuse赋予了Claude任务执行的能力,虽然模型能实现很多强大的功能,但也可能会带来很多风险?

DarioAmodei:是的,我们非常清楚这一点。从我的角度来看,ComputerUse并不是一种全新的能力,它更多是在帮助模型发挥和应用它已有的能力。从我们的RSP框架来看,模型目前做的这些事情本身并没有增加任何风险。

但随着模型变得越来越强大,在它达到ASL-3或ASL-4级别、具备更高的认知能力时,可能会不受限制,更加让人担忧,所以我们未来会继续在RSP中测试这种交互模式。我认为最好是在模型能力还不足够强大的时候就开始了解和探索这个功能,而不是等到它真的很强大的时候再来处理。

是的,我们也确实考虑过类似垃圾信息、验证码绕过等问题。因为新技术刚出来的时候,最常见的滥用形式往往是一些简单的骗局和诈骗。

LexFridman:你们怎么看sandboxing这个思路?沙盒环境下的任务难度有多大?

DarioAmodei:我们在训练过程中是有沙盒环境的,比如训练时我们不会让模型直接接触互联网。这种做法是为了避免模型在训练期间意外影响现实世界。实际部署时是否需要沙盒环境,通常取决于具体的应用。在实际部署模型的时候,需要根据具体应用来决定。有时候我们希望模型能在现实世界中做一些事情。但当然我们会在外部设置一些保护措施,比如不允许模型从电脑或网络服务器上移动任何数据。

不过如果模型达到ASL-4级别,这些预防措施可能就不太适用了。在ASL-4阶段,我们要担心的是模型可能聪明到能突破沙盒的限制。在这种情况下,我们就需要依赖机制可解释性。如果我们要设置一个沙盒,它需要是数学上可证明的。这与我们今天处理的模型是完全不同的世界。

只是构建一个ASL-4级别的AI系统很难逃脱的沙盒不是唯一的方法。我与其想方设法避免模型突破限制,不如从设计上就把模型设计好。我们可以建立一个循环,通过观察模型内部来验证它的特性,然后进行迭代并改进。

我们在这个过程中肯定犯了很多错误。不存在什么完美的组织,Anthropic从员工到管理层都有不完美的地方,但不完美并不意味着就要放弃。

DarioAmodei:首先,这一点我们自己也没法精确判断。当我们看到一个模型的能力很出色的时候,通常很难判断这是pre-train还是post-trainin的结果,即便我们开发了一些方法做出一些区分,但这些方法还不够完善。

其次,我认为Anthropic的优势之一就是RL,我们的RL可能是做得最好的,当然这只是我个人的判断,我之所以这样说不是因为我们有什么别人没有的秘方,而是因为我们在一些环节做得更好,比如改进infra、获取更高质量的数据、数据筛选做得更好,或者是更好地结合了这些方法。

所以说到底都是些没什么特别的实践和技术积累,所以如果要我回答「怎么能训出更好的模型」这个问题时,我更倾向于把它类比成设计飞机或汽车的过程,这件事不是说有了图纸就能造出下一代飞机这么简单。也许有了图纸可以让我们造出下一代飞机,但在整个过程中,我们的形成思维方式、以及这种思维方式的传承,比我们能发明的某个具体组件更关键。

LexFridman:回到具体的技术,在你看来为什么RLHF的效果会这么好?

DarioAmodei:Scalinglaw的一个推论是,如果针对某个目标投入足够的算力进行训练,就能达到目标。从这个角度看,RLHF很擅长让模型做人类想要它做的事,或者更准确地说,是让模型做出那些符合人类审查者认为的更好的表现。这种方法从能力和安全角度来看都不够完美,因为人类可能不能准确地判断出模型的真实意图,而且人类当下的偏好也不一定就代表长远的需求。

这里面有很多细节,但模型确实很擅长满足人类表层的需求。而且实际上不需要投入太多算力,这要归功于另一个特点:一个强大的预训练模型就相当于我们已经走完了一半的路程。有了预训练模型,就拥有了足够的表征,可以引导模型朝着目标方向发展。

LexFridman:你认为RLHF是从本质上让模型更聪明了,还是说只是让人类觉得模型更聪明了?

DarioAmodei:我觉得RLHF并没有真正意义上模型变得更聪明,但也代表这是停留在表面上的聪明。RLHF更像是填补了搭建人类和模型之间沟通的鸿沟,就像我们身边总会有一些聪明但不善于表达的人一样,一个聪明的系统如果无法有效沟通也是不行的,RLHF就是在填补这个鸿沟。

当然,RLHF并不是唯一在用的RL方式,未来还会有更多的RL的方式。RL很有可能让模型变得更聪明、推理能力更强、运行更高效,甚至培养出新的技能。在某些情况下也可以借助人类反馈来实现。不过,虽然我们正在快速向这个方向发展,但是当前的RLHF还达不到这种水平。

LexFridman:如果从「有用性」的角度来看,RLHF确实提升了模型的有用性?

LexFridman:从成本角度,pre-training是最贵的部分吗?未来post-training的成本占比会不会超过pre-training

DarioAmodei:我觉得只靠人类很难提高模型质量。任何需要大量算力且依赖人类的方法,最终都需要依靠某种更scalable的监督方法,比如辩论(debate)或者迭代放大(iteratedamplification)。

DarioAmodei:不只是Claude,几乎每个大公司的foundationmodels都收到过类似的抱怨,包括GPT-4和GPT-4Turbo。背后的原因有几点:

第一,模型的weights也就是大脑是不会随意改变的,除非我们推出一个全新的模型,从技术上来说,随意更换模型版本是不现实的。

其次,从inference(推理)的角度来看,修改模型的weights带来的后果其实很难控制。比如说,早期的Sonnet往往会输出很多「certainly」这样的词,如果我想通过fine-tune减少模型用这个词的频率,这个过程就有可能同时改变其他100处模型的表现。

所以我们如果我们要对模型作出调整,其实是一整套复杂过程,包括大量测试以及早期用户反馈。我们也从来不会在不通知用户的情况下调整模型的weights,在目前的架构下这么做也没有必要。

用户对于「模型变笨」的感受也并不是说用户的感受是错觉,如果从模型角度其实并没有太大的变动的话,那么带来这种使用体验的原因可能是因为模型太复杂了、影响它表现的因素太多了。比如,「执行X任务」和「可以执行X任务吗?」这两个问题,模型的回答可能就不一样。在跟模型互动时,如果稍微改变一下措辞,这样的细微的变化都可能得到很不一样的结果。

这其实也说明我们和其他模型公司都还存在不足,因为模型对措辞的细微变化太敏感了,而我们对这些模型的工作原理还缺乏深入理解。如果我今天用一种方法跟模型对话,第二天稍微换个说法,得到的结果可能就会不一样。

LexFridman:Reddit上还有个问题是对Claude性格的抱怨,比如「Claude像一个道德感超强长辈,把它的世界观强加给付费用户」、「为什么要把Claude设计得这么爱道歉」等。

DarioAmodei:关于这个问题,我的想法是,首先,人们在Reddit和X上发布的内容,和我们从统计数据上显示的用户真正关心并促使他们使用这些模型的实际需求之间存在很大差偏差。

大多数用户其实更关心模型coding的问题,比如模型没有写出完整代码,或者即使是最头部的模型写的代码还是不够好。但也确实有一部分用户会对模型的一些行为感到不满,比如不该拒绝回答的时候拒绝、过分道歉、以及一些让人烦的语言习惯等等。

第二点我想强调的是,所有这些现象其实都只是因为我们目前很难在所有情况下都控制好模型的行为。要想让模型少道歉,并不是简单调整一下模型就可以做到的,虽然我们可以在训练环节中加入「少道歉」这种指令,但这样一来模型在某些情境下可能会变得过于粗鲁或自信,从而可能会误导用户。

模型很容易走向极端,而且这个问题涉及多个维度。我认为,塑造模型性格的这个问题很难解决,虽然我们已经是所有AI公司里做得最好的了,但离做到完美还很远。

如果我们能在当前这个可控的环境下处理好这些问题,减少误报(FalsePositive)和漏报(FalseNegative),那么未来在面对更大的挑战时就能做得更好。到那时,我们面临的问题是:这些模型会变得高度自主吗?会不会制造出非常危险的东西?会不会自主建立公司,这些公司是否合规?所以我认为虽然现在我们面对的问题很棘手,但也是为未来做准备的好机会。

LexFridman:如果要大规模地收集用户反馈,了解用户痛点最好的办法是什么?是内部测试,还是特定的群体测试、A/B测试等?

所以我们设置了这个「certainly」评估来检测模型说「certainly」的频率。但还是类似打地鼠,因为模型可能会把「certainly」换成「definitely」。

所以每次在增加新的评估标准时,之前的所有内容也还会继续评估。现在这样的评估已经有几百个了,但我们发现没有什么能替代真人测试。

这一点和普通的产品开发流程一样,除了内部测试,还会进行外部的A/B测试,有时也会外包给测试人员来和模型互动并进行测试。但即使做了这么多测试,模型还是不完美,依然会有一些不太理想的行为,比如它还是会在不该拒绝的地方拒绝用户。

我们在试着解决这个问题,避免让模型做出公认的坏事。比如,每个人都同意模型应该拒绝回答虐待儿童等不当的内容,但我们也希望它不会用一种又蠢又笨的方法来拒绝。要尽可能划分精确这个界限仍然是个挑战,这个问题确实很复杂,未来想要控制更强大的模型就会面临更大的挑战。

DarioAmodei:Anthropic提出过一个叫做「RacetotheTop」的理论,目的是通过树立榜样来推动其他参与者朝正确的方向努力,要创造一个环境,让所有人都能成为好人。

举几个例子,Anthropic创立初期,我们认为机制可解释性(mechanisticinterpretability,MechInterp)可以帮我们理解AI模型内部的运作情况、进而对模型的安全性和可解释性很有帮助,所以我们的一个联合创始人ChrisOlah带领了团队投入到这个领域。

这个研究在前面3-4年里完全没有任何商业化的应用,甚至到现在也还没有。我们目前已经做了一些早期的beta测试,未来可能会有实际应用,但整个周期非常长。

有意思的是,在我们做了这个研究之后,其他公司也开始跟进了。有些是受到了我们的启发,有些是担心如果其他公司这样做看起来会更负责任,他们也想成为看起来负责任的公司,毕竟没有人想成为一个不负责任的角色,所以他们就都开始了这项研究。对那些来Anthropic应聘的人来说,可解释性往往是吸引他们的一个点,我会鼓励他们告诉别的公司他们选择Anthropic的理由。

很快其他公司也成立了可解释性团队,因为其他公司也在做同样的事情,这会削弱我们的竞争优势,但这对整个行业是有利的,所以我们必须找到一些新的东西,尝试做一些别人没有做过的事。这么做的目标大体上就是强调「dotherightthing」这一点。

LexFridman:你怎么看机制可解释性和可能带来的影响?

DarioAmodei:我觉得就能力来说,我们还处在很早期的阶段,但我们已经能深入系统内部,理解内部的情况。

ScalingLaw给人的感觉像是有某种规律在推动这些模型不断提升性能,但机制可解释性是和scalinglaw不一样,从系统内部来看,模型设计的初衷并不是为了让我们理解,而是和人类大脑或者生化一样能够运行并且完成任务。模型设计出来并不是为了让人类可以打开看看系统内部是什么样的,然后理解它们是怎么运作的。但我们在打开往里看的时候,确实发现了一些意想不到的有意思的东西。

我们曾经发布过一个GoldenGateBridgeClaude的实验。原因是我们发现在Claude的神经网络中,其中一层的一个方向和金门大桥有关。于是我们调高了这个方向的强度,把GoldenGateBridgeClaude作为demo发布了出去。这个demo只推出了几天,带点开玩笑的性质,但也展示了我们的研究方法。

我们可以问这个demo任何问题,不管问它什么,它都会和金门大桥挂上钩。比如问它「你今天过得怎么样」,它可能会回答:「我感觉很放松,就像金门大桥的拱门一样宽广」。

DarioAmodei:每过一个月,我都会发现我的这个观点越来越重要。我们可以做一个思维实验。假设你有一家公司,有两种方案:第一种是你有一个100人的团队,每个人都非常聪明有动力,认同公司的使命,第二种是你有一个1000人的团队,其中有200人和第一种团队的人才素质相当,另外800人就是从大科技公司随机挑选的员工。你会选择哪一种?

从人才规模上来看,1000人的团队拥有的顶尖人才更多,但人才密度就要低很多。这里的区别在于,如果每个优秀的人才身边都有同样优秀且专注的同事,就能给整个团队定下基调,团队中的每个人都会因此受到鼓舞,彼此信任。就像SteveJobs说的,A级的人才想要看到周围同样都是A级人才。

相反,如果一个团队有1000人或1万人,但因为没有严格的人才筛选机制,而是随机招人,因而就需要设置大量流程和规则,因为人们之间缺乏充分信任,并且还存在很多办公室政治需要调解,这些都会降低组织的运转效率。

Anthropic现在有将近1000人,我们一直在努力让尽可能多的员工都具备顶尖的才能和技能。这也是我们最近几个月放慢招聘速度的其中原因之一。Anthropic的员工从今年初到7、8月增加了500人,从300人增长到了800人,但最近3个月只增加了100多人左右。我觉得1000人是个拐点,我们需要更谨慎地考虑团队增长。

从创立初期开始,我们就持续招聘了很多物理学家,理论物理学家的学习能力特别强。即便是最近,我们在招聘researcher和softwareengineer时都保持着很高的bar,筛选过程非常严格。我们已经招聘了很多资深人才,其中有些来自这个领域的其他公司,如果不注意确保所有人都有统一的目标,在我们从100人增长到1000人,再到1万人的这个过程中,很容易出现失控。

LexFridman:在你的经验中,如何成为一位优秀的AIresearcher或者AI工程师?

DarioAmodei:Dosomethingnew,thinkinsomenewdirection,在coding和research领域,尤其是在research方面,最重要的品质就是保持开放的心态。

我认为我在AI研究早期与众不同的地方在于,我愿意用新的视角看问题。当人们说他们还没有合适的算法,还没找到正确的方法时,我会想,这个神经网络有3000万参数,如果给它5000万参数会怎样?我会画些图表看看。这是一种基本的科学思维方式,如果我看到一个可以改变的变量,我会想如果它改变会发生什么,会想尝试不同的方案并绘制图表。改变参数数量并不需要PhD水平的实验设计才能做,这件事情很简单。

对于感兴趣AI的人来说,直接上手玩模型很重要。放在3年前人们会从读最新的RL论文开始,但现在随着模型和API的普及,越来越多的人会直接去实践,我认为这种实践经验很重要。这些模型是全新的,没人真正理解,所以获得使用经验很重要。

我认为longhorizonlearning和longhorizontasks也还有很多工作要做。在评估方面,特别是对于在现实世界中运行的动态系统的评估,我们仍然处于早期阶段,在multi-agent领域也有一些工作要做。

DarioAmodei:RLHF的基本原理是,让模型先生成两个不同的回答,然后让人类根据「你更喜欢哪个回答」或者「请按照1到7的评分标准评价这个回答」来对这两个答案进行比较。这个方法的问题在于,因为需要让非常多的人类参与进来,并且这些反馈相反主观,所以可能导致的结果是,我们可能并不清楚自己想要模型做什么,最终只是知道了这1000个人中大家想要模型做什么的平均意图是什么。

所以接下来我们就产生了2个问题:

1)能不能让AI系统自己判断哪个回答更好?也就是向AI展示两个回答,让它进行评价?

2)AI应该用什么标准来判断?

于是就有了ConstitutionalAI的概念。可以理解为,我们有一份文档,上面列出了模型应该遵循的原则,也就是「constitution」,AI系统会先阅读读这些原则,同时也会对理解具体的环境和回答,在此基础上,对AI模型的表现作出判断。AI作出的判断又会被输入到所谓的偏好模型(preferencemodel)中,偏好模型又会再反过来指导模型变得更好。这本质上是一种self-play,用模型训练它自己。

Constitution里面的原则人和AI都可以理解,具有很好的可解释性(translatability)和对称性(symmetry)。在实践中,我们会同时使用ConstitutionalAI、RLHF和其他方法。所以ConstitutionAI已经成为了我们提升模型的工具套件之一,既减少了我们对RLHF的依赖,还提高了每个RLHF数据点的利用率。并且还能与未来的推理RL方法产生很有意思的交互。所以虽然它我们训模型会使用的工具之一,但我认为是非常重要的一个。

LexFridman:ConstitutionAI逻辑下,AI需要遵守的原则由谁来制定?

DarioAmodei:我可以从实操和更highlevel抽象的角度回答这个问题。

在实操上,因为模型会被各种用户使用,所以我们可以允许模型拥有一些专门的规则或原则,除了在用户看不见的地对模型层面进行一些定制化的fine-tuning、符合特定需求之外,我们也讨论过「更明显的方法」,比如人们能够明确地把特定的原则植入模型。所以从这个角度上,「谁来制定原则」这个问题的答案因人而异,比如客服人员和律师的行为准则就很不一样。

但从更深层次来说,模型必须遵守一些基本原则,很多原则是普适性的,比如没有人希望模型带来CBRN(化学、生物、放射和核)风险,还有一些社会基本原则等,但除此之外,其他情况就很不确定了,我们的目标是让模型尽量保持中立,不表达特定立场,而是作为明智的agent或者advisor帮助用户思考问题,提供各种可能的考虑因素,而不表达强烈或具体的观点。

LexFridman:OpenAI提出过「ModelSpec」这个概念,明确定义了模型的一些目标,并用A/B测试等具体例子说明模型应该如何表现,你怎么看?JohnSchulman在加入Anthropic前也参与了这项工作,未来Anthropic也会发布类似的东西吗?有价值的方向吗?Anthropic也会发布类似的modelspec吗?

DarioAmodei:我觉得这是个很有价值的方向,modelspec和ConstitutionalAI有很多共同点,这也是一个racetothetop的例子。我们发现了一个更好、更负责任的做事方式,这开始是一个竞争优势,然后其他人发现了这种方法的优点,也开始采用。

每家公司实现这些理念的方式都不一样。OpenAI的modelspec中有一些ConstitutionalAI没有的内容,我们可以学习借鉴这些内容。总体来说,这是我们希望看到的行业健康发展的模式。

DarioAmodei:虽然我在MachinesofLovingGrace中觉得我对于模型的未来充满期待,但这件事不影响我持续担心这些模型的风险,模型能力越来越强的时候,就更应该讨论它可能的风险。

第一类我把它叫做catastrophicmisuse,即在网络安全、生物学、放射性、核武器等领域滥用模型,如果真的出问题,可能会对数千人、甚至上百万人的生命造成威胁。这类风险是我们优先防范的风险。其实,如果观察一下历史上曾经做过坏事的人,会发现「聪明又受过高等教育的人」和「想要做极端恶行的人」这两类人之间的重叠度很小,比如很少会出现一个绝顶聪明的PhD,有很好的工作、社会地位但决定冒险去做坏事的情况。但如果AI成了更智能的agent,有可能会打破这种现状。

虽然我对此很担忧,我相信这些担忧是可以预防的。但我想强调的是,和MachinesofLovingGrace描绘出的图景不一样,这些重大的风险依然是存在的。

第二类是autonomyrisks,随着我们给模型越来越多的自主权,尤其是让它们监督更广泛的任务,比如编写整个代码库,甚至未来某一天可能实际运营整个公司,它们的自由度会越来越大。问题是它们真的在按我们的意愿做事吗?

想要完全理解它们在做什么都很难,更别说控制它们了。就像我说的,我们现在已经发要精确划分模型该做什么不该做什么其实很难。如果偏向一边,模型会做出一些惹人烦又没有用的行为;如果偏向另一边,又会出现其他问题。每次一个问题解决了,其他问题又会随之出现。

不过我们在解决这些问题上正在不断进步,我不认为这个问题无解,就像飞机安全、汽车安全或药品安全一样是一门科学,我们并没有遗漏什么重要的东西,只是需要提高对这些模型的控制能力。

这就是我最担心的两类风险。

我们的responsiblescaling计划主要针对的就是前面这两类风险。每当我们开发新模型时,都会测试它存不存在这两种潜在的风险。

现在我们面对的情况是,AI系统还没有强大到能造成灾难性后果,我不确定它们未来会不会达到这种程度,有可能永远都不会达到,这还是未知数。但是值得注意的是,现在的风险已经足够高了,我们应该立即采取行动,因为模型发展的速度实在太快了。

在最近发布的最新版的RSP(ResponsibleScalingPolicy)中,我们提出,如果AI能够自主进行AI研究,它就真正具备了自主性,这是一个重要的门槛,可以帮我们测试AI模型的自主性风险。

如果真的测试出了风险,我们应该怎么办呢?基于这些测试,我们开发了一个if-then的框架:当模型达到特定能力水平时,就会触发相应的安全要求。

今天的模型位于ASL-2级别。

今天的AI系统处在ASL-2级别。根据我们的测试,这些系统还不够智能,不能自主复制或执行复杂任务,它们提供的有关CBRN风险以及制造CBRN武器的信息并不比Google搜索更深入。虽然有时候它们确实能提供一些搜索引擎提供不了的信息,但这些信息还不足以拼凑在一起构成实质性威胁。

ASL-3级别的模型可能会涉及到网络安全、生物、核这些危险能力,模型自主性也会提升,即模型本身存在可能做坏事的风险。

ASL-4级别意味着模型本身也可能成为实施危险行为的主要工具。在自主性方面,这个级别的模型可能会加速AI模型做AI研究的发展。

ASL-5级别的是那些真正超越人类能力的模型。

要怎么应对这些风险是个很棘手的问题,我们的方案就是通过if-then触发机制,最大限度地减少负担和虚假警报,同时又能在危险真正出现时,做出适当的反应。

LexFridman:你觉得模型什么时候能达到ASL-3级别,什么时候能达到ASL-4级别?

如果是ASL-3级别的模型,难度主要在于部署时要针对一些特定的领域加强安全性和筛查机制。因为ASL-3级别的模型还没有完全实现自主,不需要担心模型在内部运行时会做出不好的行为,所以ASL-3阶段的应对措施,虽然不会那么轻松,但相对来说还比较好把握。

一旦模型达到ASL-4级别,我们就要担心模型可能聪明到能欺骗测试,隐瞒自身实际能力。已经有研究发现了有潜伏性质的agent,最近也有研究结果显示,模型可能会伪装自己的能力,假装自己的水平不够高。所以在ASL-4阶段,除了直接和模型互动之外,我们也需要借助其他手段。

比如我们可以用可解释性分析或者隐藏的chainofthought来深入观察模型,通过一些不容易被模型干扰的机制来验证模型的特性。

ASL-3阶段,负面角色其实是人类,而在ASL-4阶段,人类和模型都有可能成为负面角色。

当然也可以考虑把机制可解释性直接应用到模型身上,但这样一来就不能再把这种方法当作是一种判断模型状态的可靠的指标了。

还有其他一些不太常见的方法也会让机制可解释性不再可靠,比如模型聪明到能跨计算机读取那些监控它内部状态的代码。我们也考虑过这些情况,虽然相对不太常见,但也有对应的缓解措施。总的来说,我们希望能够让可解释性分析作为独立于模型训练过程的验证手段。

在生物学领域,根据我的经验,最大的问题是我们看不到生物体内部的情况,我们的观察能力很有限,也没什么能力进行干预。我们只能从有限的信息中推断,比如每个细胞里都有30亿个DNA碱基对,它们按照遗传密码排列。细胞内的各种过程一直在进行,但普通人几乎无法干预。健康的细胞分裂的过程有时也会出错,由此会带来癌症,这个过程中也会出现细胞老化、皮肤变色、皱纹等,这些都由内部过程决定,包括蛋白质的生产、运输以及相互结合过程。

在生物学研究的初期,我们甚至不知道细胞的存在,后来发明了显微镜才观察到了细胞,发明了更强大的显微镜才看到了分子层面的结构,通过X射线晶体学才观察到了DNA,又通过基因测序得以读取DNA。现在我们有了蛋白质折叠技术可以预测它们如何折叠和结合,12年前我们开始用CRISPR技术来编辑DNA。一部生物学的发展史,很大一部分就是我们不断提升观察和理解能力、有选择地改变这些过程的能力的过程。我认为在这方面还有很大的提升空间。

虽然现在我们有了CRISPR,但要在全身范围内精准编辑特定类型的细胞,同时要求错误靶向率极低,仍然是个难题,也是人们正在研究的问题,某些疾病基因治疗可能需要这种技术,而且这种技术还涉及基因测序、用新型纳米材料观察细胞内部变化、抗体药物偶联物等等。

这些都可能是AI系统的着力点。在生物学历史中,这样的发明可能只有几十、几百个。但如果有上百万个AI系统一起工作,它们可能很快就会发现成千上万个这样的突破,带来更大的杠杆效用。

LexFridman:第二个问题,未来科学家与AI系统一起工作会是什么场景?

DarioAmodei:我认为在早期阶段,AI会像研究生一样,被分配到具体的项目,科学家会告诉它,自己是经验丰富的生物学家,已经设置好了实验室,现在要研究某个问题,比如生物学教授或者研究生可能要研究「AI系统可以做什么」这个问题,而AI系统拥有所有工具,可以查阅所有文献来决定下一步行动、查看所有设备、并且访问网站订购新设备。

比如AI可能可以去ThermoFisher或者其他主要的实验室设备公司订购新设备,运行实验,写实验报告,检查图像污染情况,决定下一个实验,编写代码进行统计分析等等,所有研究生会做的事情,都可以由一台配备AI的计算机来完成,教授只需要偶尔和它交流一下,告诉它一天的任务是什么。

AI系统会提出问题,在需要操作实验设备时,它可能会有一些限制,可能需要雇佣lab的人类助手来做实验并解释如何操作,或者利用过去十年开发的实验室自动化技术,这些技术还会继续发展。

所以,未来的场景可能是一个人类教授带领1000个AI研究生,这些AI研究生甚至会比获得诺贝尔奖的生物学家还聪明。到某个时点,生物学家和AI的关系会翻转,AI系统会成为项目负责人,指导人类或其他AI系统工作,我认为研究方面会是这样运作的。

比如,能不能改进统计设计,让原本需要5000人、耗时一年、花费1亿美元的临床试验,现在只需要500人、两个月就能完成?这才应该是我们的起点。另外,我们能不能在动物试验中完成原本需要临床试验才能完成的工作,在模拟中完成原本需要动物试验的工作,以此来提高临床试验的成功率?当然我们不可能完全依赖simulation,但我们至少可以根本性地改变这个行业的曲线?这是我对AI和生物领域结合的设想。

DarioAmodei:一种极端的观点是,从进化史来看,人类文明发展是一个加速的过程,数十万年里世界上只有单细胞生物,然后出现了哺乳动物,再后来是类人猿。这个过程突然加速到人类出现,人类又迅速建立了工业文明。按这种观点,未来还会继续加速,而且人类水平是没有极限的。

一旦模型变得比人类聪明得多,它们就能更好地构建下一代模型。如果用简单的微分方程来描述,这就是一个指数增长过程,模型会构建更快的模型,这些模型又会构建还要快的模型。它们会制造纳米机器人来接管世界,产生比现有方式多得多的能量。如果按这个抽象的微分方程推演,那么在我们构建出第一个超越人类的AI后的五天内,世界就会被这些AI填满,所有可能的技术都会被发明出来。

复杂性也是一个问题。很多人会说,我们可以建立生物系统的模型,这些模型能完全模拟生物系统,但在我看来,虽然计算建模能做很多事,我也在生物学领域做过很多计算建模的工作,但有很多东西是无法预测的,它们太复杂了,不管AI有多聪明,直接做实验会比任何建模都更有效。建模本身就很难,而且要让模型与现实世界匹配也很难。

虽然计算机智能可以指数级提升,但预测能力只能线性增长。生物分子的相互作用也是一样,我们不知道一个复杂的系统受到干扰时会发生什么。就算足够聪明,也只能找到其中简单的部分。

从另一个角度来看,我其实更认同这样一种观点:我们之前也经历过重大的生产力提升,经济学家们已经深入研究了计算机革命和互联网革命带来的生产力提升。但这些提升往往不如人们想象的那么显著。就像RobertSolow说的那句名言:「计算机时代的影响随处可见,唯独在生产力统计数据中看不到」。

虽然仅凭这些少数人还不足以在大组织中取得成功,但随着技术开始落地,在那些愿意率先采用的领域取得成功后,竞争压力会给他们助力。他们会在组织内部指出已经有其他人已经在这么做了。比如,传统银行会发现,新兴对冲基金正在做这件事,会抢走他们的市场。在美国,我们担心中国会在这场竞争中领先。

我已经看到过很多次这种情况,阻碍确实会存在,比如对进步的障碍、复杂性、不知道如何使用和部署模型等。一开始这些障碍似乎永远不会消失,改变迟迟不会发生。但最终变革总会到来,而且往往源于少数人的推动。

这让我想起当初在AI领域推广scalinglaw时的经历,那时候感觉好像永远没人会理解,就像我们掌握了一个几乎没人知道的秘密。但仅仅几年后,所有人都知道了这个秘密。我认为AI在世界范围内的部署也会经历类似的过程,阻碍会逐渐消失,然后突然间我们就会实现全面突破。

THE END
1.游戏测试工程师工作的基本职责范文(2篇)20241213.docx游戏测试工程师工作的基本职责范文1. 制定并执行测试策略游戏测试工程师需依据项目需求和规格文档制定测试计划。这包括深入分析游戏功能,确定测试点和方法,编写详细的测试用例,涵盖预期结果和执行步骤,并确保所有测试用例有效执行,以验证游戏功能的正https://www.renrendoc.com/paper/369036485.html
2.企业人才测评题及答案我来帮你搞定这份关键文件接下来,让我们看看一个简单的人才测评题目集: 专业技能 你最擅长使用哪些软件工具?(选项A: Microsoft Office;选项B: Adobe Creative Suite) 在过去的一年里,你参与了哪些项目?每个项目你担任什么角色? 你如何处理日常任务时遇到的困难? 工作态度 你如何看待工作与生活的平衡? https://www.ntedbrknu.cn/zhi-neng-shu-song-dong-tai/561728.html
3.史上最全软件测试工程师常见的面试题总结(四)多测师史上最全软件测试工程师常见的面试题总结【杭州多测师】【面试题】【杭州多测师_王sir】 面试:神州数码 1.介绍你下你项目中一个自动化实现的流程==>看这篇https://www.cnblogs.com/xiaoshubass/p/12373820.html 2.你觉得做自动化的意义在哪里==>需要对之前已经实现的功能进行回归测试、保证当前版本更新的内容https://www.cnblogs.com/xiaoshubass/p/12865319.html
4.职业方向报告(精选8篇)5.单片机工程师/硬件开发工程师: 一定的通信、网络设备及产品的研发或测试相关工作经验;具备编制产品硬件测试方案及测试用例的能力;具备良好的语言表达能力。热爱硬件测试工作,可以胜任重复性工作,工作细致认真,有耐心; 岗位职责:针对通信设备或网络设备(如路由器、交换机等)编写测试方案及测试用例,并对测试进行分析;向https://www.360wenmi.com/f/fileqb29haw7.html
5.如果你工作感到迷茫,请做这个测试!讨厌一板一眼的工作环境,讨厌没有自由发挥和创新空间的工作环境,如果让你循规蹈矩按部就班的生活,即使是现在最热门的公务员,也会让你的内心憋屈得难受。 喜欢有挑战的工作,喜欢尊重员工个性,鼓励员工能提出不同声音的工作环境。 你善于事务性工作。可以优先考虑发挥你创意的工作,特别是那些要求具备艺术修养、创造https://www.douban.com/group/topic/14816807/?cid=169094411
6.普通话考试命题(合集)在商品经济的大潮中,我们每天被广告包围,被商品包围.如果我们买了东西,被别人欺骗,那会是一种怎样的感觉呢? 前几天,我上街购物,发现有一家鞋店门边上写着“全市最平”,于是进去看看,发现一双式样新潮中看的皮鞋,鞋前一张红纸写着:“厂价直销,真牛皮鞋,原价200元,现价150元."我见有此好处,一番斟酌后,讨https://www.qunzou.com/yanjianggao/putonghua/1837534.html
7.职业发展规划学习管理的理念是非常重要的,其实管理更多一种思维和做事的方式,这门学问很深入,也不像技术,会不会是那么的显著,因此,建议多看多学,取长补短,并努力形成自己的做事风格。高级软件测试工程师,测试组长等,都是不错的含有技术特征的管理职位,此时的你应该能够胜任于此。https://www.wenshubang.com/zhiyeguihuafanwen/4550498.html
8.mbti职业性格测试(最完整版)如果同分的话,选择后面的那一组,即I、N、F、P。对四对组合都作一比较后,您会得到一个由4个字母组成的优势类型,如ENFP、ISTJ等等,把它写出下面的横线上。 问卷所揭示的优势类型是: 在MBTI性格类型测试问卷结果分析中有对四个纬度八种偏好的详细描述,认真地自我评估一下,究竟对哪种偏好的描述更接近你自己,https://www.360doc.cn/mip/988352530.html
9.大学职业生涯规划在现在的社会,只有真正的人才才能称的上是真正锋利闪亮的尖刀,想成为人才应该是每个年轻人的理想。但是混混噩噩的度日子是做不到这点的,只有做一份适合自己的人生规划,正确的准确评价个人的特点和强项才能定准职业方向,重新认识自己的价值并且通过不断的学习使之递增,为自己提供前进的动力并在职业中发挥个人优势。https://www.yjbys.com/qiuzhizhinan/show-597948.html
10.方与圆第五篇谋略之道在线免费阅读·第一章·处逸世亦方,处乱世亦圆 乱世之中,你争我斗,尔虞我诈,如果不懂得圆融,自然没办法生存;盛世之中,安逸的环境最容易抹杀勤俭的本性,也最容易让人忘记进取,此时,唯有坚守方正,才能居安思危,永保明智。 留一只冷眼观“盛世” 《易经》六十四卦,几乎都是盛极而衰、物极必反的道理。细思量之,确实是https://fanqienovel.com/reader/6959131620301343785
11.c/c++笔试题5$分$f&而我d问:(这是一个复杂度模型吧) 一种代码复杂度的衡量标准,中文名称叫做圈复杂度。圈复杂度“用来衡量一个模块判定结构的复杂程度,数量上表现为独立现行路径条数,即合理的预防错误所需测试的最少路径条数,圈复杂度大说明程序代码可能质量低且难于测试和维护,根据经验,程序的可能错误和高的圈复杂度有着很大关系”。 https://blog.csdn.net/china_video_expert/article/details/7213530
12.大学生职业规划模板成品通用大学生职业规划最新模板范文“大学生职业规划模板成品”这个词的意思是:一个已经完成的大学生职业规划模板,这个模板已经具备了完整的格式和内容,可以直接使用。它通常包括自我评估、职业目标设定、职业发展策略、职业技能培养计划、时间安排等部分,并且已经按照一定的格式排版好,可以直接用于大学生的职业规划。以下是有关于大学生职业规划模板成品的有https://www.puchedu.cn/ziyuan/149000.html
13.软件测试工程师面试经验总结8篇(全文)软件测试工程师面试经验总结 第1篇 首先说明我算上找实习的时候的面试总共就经历了不到5次,没有多少经验,就在网上和书上摘录了些我认为比较重要的,分享给大家,希望各位都能找到一份适合自己的好工作。1.笔试题 对于笔试,有的公司笔试题是不区分开发和测试岗位的,测试人员除了要掌握好测试的基本知识外最好也是有https://www.99xueshu.com/w/filebf0fxmy7.html
14.计算机的实习报告范文15篇在日常生活和工作中,越来越多的事务都会使用到报告,报告具有双向沟通性的特点。相信很多朋友都对写报告感到非常苦恼吧,下面是小编帮大家整理的计算机的实习报告范文,仅供参考,大家一起来看看吧。 计算机的实习报告范文1 一、实习目的: 1、练习和巩固识别计算机部件的方法,并能在一定的条件下判断计算机部件的好坏与优劣https://www.ruiwen.com/gongwen/baogao/1356472.html
15.普通话考试命题说话范文我的愿望(通用50篇)还要去奥斯玛和外星人沟通一下,和外星人一起拍一张照片做为纪念品。我还要成为全宇宙伟大的人物让外星人知道地球中国是多么伟大的,让外星人知道地球有一个国家名字叫中国的地方。我还要和杨利伟叔叔一起拍一张照片让别人知道我和杨利伟叔叔拍过照片,我真想有一个四维空间袋可以去宇宙玩个痛快。https://www.oh100.com/kaoshi/putonghua/336701.html
16.认知实习总结(通用13篇)本次实习为期一周,实习的主要目的是激发和提高学生土木工程和交通工程专业的热情和兴趣。实习包括课堂讲解和实地考察两部分。在课堂中,导师简单讲解实习 内容及各种地质相关内容,在现场根据具体情况姚老师深入分析,精心讲解,不仅使我们掌握了野外实习的基本要领,还使我们对课程理论知识有了感性认识并加以 巩固和深化。 https://www.diyifanwen.com/fanwen/shixizongjie/12537114.html
17.结构工程师工作总结12篇总结在一个时期、一个年度、一个阶段对学习和工作生活等情况加以回顾和分析的一种书面材料,它可以使我们更有效率,让我们抽出时间写写总结吧。那么总结要注意有什么内容呢?下面是小编为大家整理的结构工程师工作总结,仅供参考,欢迎大家阅读。 结构工程师工作总结1 https://www.gdyjs.com/shiyongwen/gongzuozongjie/466106.html
18.元气骑士骑士三持介绍游戏问答小明小红有两种攻击模式,第一种是远程而另一种是近战。远程攻击为手持两把刀,轮流投掷出去,伤害为4https://www.9game.cn/wenda/510543.html
19.《菲尼克斯》hrwcaine^第7章^最新更新:200511阿伦娜一边对镜描画眉毛一边想。 这要感谢那位早早故去的老绅士。安德尔不知道吗?律师保证过那些钱她可以自由支配。他其实大可不必如此畏惧家族。干脆和亲戚们一刀两断就更好了。然后他们结伴去漫游世界,选一个最迷人的世外桃源定居——也许那个地方还从来没人涉足呢!要不,找一座南太平洋的无名小岛?炎热的太阳,https://www.jjwxc.net/onebook.php?novelid=3204&chapterid=7