对话 MiniMax 闫俊杰:AGI 不是大杀器,是普通人每天用的产品 “我们选的技术路线也是上限最高的,几乎没有退路。”文丨程曼祺编辑丨宋玮在热闹的中国大模型创业圈,MiniMax 的创始人... 

“我们选的技术路线也是上限最高的,几乎没有退路。”

文丨程曼祺编辑丨宋玮

在热闹的中国大模型创业圈,MiniMax的创始人闫俊杰可能是最神秘的一个。他从未公开露面,也没有接受过任何采访,即便公司估值已经25亿美元了,他依然沉默。

在高中生和大学生中流行着Glow、星野等产品,他们在上面玩恋爱养成游戏,和虚拟人对话,撰写发疯文学,甚至建一座城市,但没多少人知道,它们背后都是MiniMax。

今年35岁的闫俊杰是一位说话声音很轻、总是面带笑容的管理者,投资人描述他是一个很好的倾听者,善于让对谈者放松,但当对方放松时,他会不动声色地抛出尖锐观点。

创立MiniMax,闫俊杰表现得完全不像一个创业新手,他看起来很敢赌。

2023年下半年,大部分中国同行还在继续迭代稠密模型(densemodel),它能更稳健地提升大模型性能。闫俊杰则把几乎全部研发和算力资源都投到了一件更不确定的事情上——MoE(混合专家系统)模型。他的判断是,如果未来要服务千万级乃至亿级的用户,必须做MoE,否则“生成token的成本和延时我接受不了,很快会崩溃”。

大模型还没热起来时,MiniMax曾以相对便宜的价格找字节火山引擎租了大量GPU算力,获取了弹药;但MiniMax又不购买任何GPU,闫俊杰认为持有资产只会使动作变形。

“我选的技术路线是上限最高的,几乎没有退路,选的算力方式也激进。”闫俊杰说。

李彦宏认为“双轮驱动”,即同时做模型和应用,对创业公司不是好模式,但闫俊杰创业第一天就认为,大模型创业公司要想独立做大做强,技术和产品,两个都要做好。

闫俊杰认为创业公司要想独立发展只有一条路:在技术快速进化的窗口关闭前,做出用户量巨大的2C产品。

“如果没有产品承接,即使你有一个技术进展,它最终也不是你的。”闫俊杰说。

中国市场已有6家大模型独角兽(MiniMax、月之暗面、智谱AI、百川智能、零一万物、阶跃星辰),模型总数更是超过100个。它们正在一边以更少的资源追赶一年前发布的GPT-4,一边应对激烈的竞争。

一些人追求先活下来,另一些人信奉“Gobigorgohome”,不想处在中间状态。闫俊杰是后者。

以下是《晚点LatePost》与MiniMax创始人闫俊杰的对话。

“每件事都是做到极致才会好”

《晚点》:一位OpenAI的工程师告诉我们,他判断一位人工智能创业者到底有没有真正的AGI信仰,就看这个人是在ChatGPT发布之前创业还是在这之后。

《晚点》:有人认为你们最开始是做元宇宙的,大模型火了后才说做AGI。你们在出发时到底有多相信AGI?

闫俊杰:我们是在ChatGPT出来之前成立的,大部分公司是在那之后,这是核心的区别。

ChatGPT之前,很多事情没有参考,你不得不做更多尝试,但最内核的还是技术进步,不确定的是产品方向。

我们最开始对AI产品的想象是一个同时有声音、形象、文字能力的智能体,我们做过一版有3D形象的东西,有点像元宇宙里的数字人,但它的语言、语音等能力还是用大模型驱动的。

《晚点》:你认为AGI到底是什么,假设有一天AGI真的实现,我们如何知道它已经到来?

闫俊杰:那时候我们有个模糊的定义,现在也几乎没变,就是什么时候大家认为AI不是AI,那一天大概就到来了。

就像我们今天谈到抖音,你不会觉得它是一个基于推荐系统的内容分发软件,你只会觉得抖音就是抖音。

《晚点》:MiniMax是国内第一个说AI2C的公司,为什么?

当时整个人工智能行业遇到困境,而取得真正成功的行业又是另一种做法,结论几乎只有一个——要做出足够产品化、能服务大众的人工智能技术和产品,而不是服务少数大客户的项目。

所以我一直不认为AGI会像一个原子弹、一个大杀器,它就是普通人每天会用的一个产品、一个服务——这也是我们最坚持的。

而且AGI也不应该是一家公司自己做出来,它要靠这家公司和它的用户一起做出来。

《晚点》:今年1月你们是国内第一个推出MoE大模型的,其它公司去年主要在迭代dense(稠密)模型,因为进展更快、更确定。做MoE是一场豪赌吗?

闫俊杰:一开始我也认为我们在赌,那几个月别人都在快速进步,走在更稳的路上,而我们在赌一个更难的东西。

我们当时放了80%以上的算力和研发资源做MoE,而且没有PlanB。

《晚点》:MoE是2023年夏天开始研发的,为什么当时一定要做这个?

闫俊杰:第一,我们知道自己有多少基本资源和数据,基于这些计算资源和数据,当时只有MoE能训完,相当于从你能训练的上限来说,必须得是MoE。

第二,我们当时已经有很多用户,有2B、2C的产品,很多模型每天在处理大量token,我们发现如果继续做dense模型,生成token的成本和延时是接受不了的,很快会崩溃,所以只能做MoE。

当然现在这可能是行业共识了,就是如果要做万亿模型,你不可能做一个dense。

《晚点》:最后是怎么搞定的?

闫俊杰:过程很痛苦,失败了两次。因为我们本来就有很多不确定性,做新东西又增加了不确定性,它就应该遇到挑战。

比如模型训了半个月,发现一些指标离前期估测的越来越远。就像你发了一个火箭,本来以为它可以到三万米,但它偏航了。你就开始想哪个地方错了,把问题解完之后,发现还没有回到一个好的状态,又失败了。但你得到了很多经验,把经验汇聚起来,再来一次。

我后来发现其实这也不是赌,因为很多挑战不是MoE本身带来的,而是更多底层的东西:比如对实验方法、网络和数据结构的探索等等。

后面解决问题也不是因为解决了MoE,而是找到了过去的不足,让整个研发团队变得效率更高、更科学了。

《晚点》:一个接触过你的人评价你很有工程化思维,你追求在一个约束条件下达到最好的目标。

闫俊杰:其实都是算出来的,我们公司大部分决策都是基于要优化某些东西计算的,我们就是在解方程。

《晚点》:现在各公司的资源也就是约束条件都变得很快,你计算时会倾向保守还是冒险?

闫俊杰:我们基本上都选最冒险的那种,因为做每件事都是做到极致才会好。

我选的技术路线也是上限最高的,几乎没有退路,选的算力方式也比较激进。

《晚点》:我听说你们不买GPU,只租卡。

闫俊杰:我们没有一块GPU,虽然我们应该是中国公司里实际用GPU数量最多的创业公司。

因为持有资产会使动作变形。如果我有很多GPU,在商业上变得更好的方式就是对外租GPU。我还是想让公司更简单。

《晚点》:去年10月你们遇到过算力紧缺,怎么避免类似的风险?

闫俊杰:成为市场上最大的客户。

对中国创业公司来说,更好的方式是同时思考技术和产品

《晚点》:李彦宏说创业公司做“双轮驱动”不是好模式,但你们第一天就要做产品,是怎么决策的?

闫俊杰:一开始创业其实没资格想这些事,因为你既没有技术又没有产品也没有用户。前六七个月只是把最原始的模型做出来,才有了后面的产品。

假设你所有东西都是free的,假设你有一个无限强的组织,那对你来说,技术好是最重要的,因为你的用户、流量、商业化能力都具备了,可以很快试很多产品。

但对创业公司不是这样,如果没有足够好的产品能力来承接,即使你有了一些技术进展,这些东西最终也不是你的。一个独立发展的创业公司一定要考虑产品。

《晚点》:OpenAI也是在做出GPT-3.5后才开始做ChatGPT这个杀手级应用。之前OpenAI没那么重视产品。

闫俊杰:那是因为OpenAI的技术、人才、数据积累都有数量级的领先,导致它有一个长达一年的创业窗口期。我不认为世界上还有什么公司,能再有一个这么独特的的窗口期。

这就推出来,对创业公司,至少对中国的创业公司来说,更好的方式是同时思考技术和产品。

《晚点》:有投资人认为你们现在做产品有些太早,“在黑莓手机上做不出抖音”。

闫俊杰:按照这个观点,现在也不需要做技术,现在的技术也不是五年后的技术。

但显然大家都认为现在需要做技术:只有通过做出现在的技术,才能更深刻理解它,才可能做出未来三年、五年的技术。

《晚点》:技术发展是渐进式的,产品也是吗?这个时代的产品跟上个时代的产品完全不同。

这不是我说的,是我的一个朋友总结的。

《晚点》:那你们为什么不干脆只专注做产品?现在有很多开源大模型。

闫俊杰:核心原因在于,对模型的理解基本上等同于对产品的理解。产品越往下做,对模型理解肯定要越深。

一个现实是,去年很多产品是用GPT-4做的,为什么没人做出一个媲美ChatGPT的体验?

《晚点》:同样做产品,有人是主做一个,你们却同时做很多,包括Glow、星野、海螺AI等。为什么要做产品组,而不是专注做一两款产品?

闫俊杰:OpenAI在ChatGPT之后的产品也没那么成功,OpenAI做产品都会失败,说明现在产品对技术的理解,和技术本身能实现的东西之间有gap。

核心就是,即使用最好的技术,最好的产品,都会不匹配。

如果你承认这个gap,客观规律就是:你该多尝试、多失败,找到真正能成功的东西。

《晚点》:感觉有点像字节跳动做产品的方式。

闫俊杰:我们还没有资格按照字节跳动的方法做事。

每个公司都会选择最合适自己的形态。比如对字节来说,最重要的是技术资源,因为它所有产品都是ready的,且产品资源无限多,所以尝试越多对它越有利。而且每次投入,即使产品失败,也会带来更多经验和认知,这对他们的提升是巨大的。

我们也一样。而且相比模型研发的投入,产品投入的资源占比没那么大。基于我们公司目前的现状,可以算出来这样成功率最高。

《晚点》:技术重要,产品也重要,你们纠结过到底哪个更重要吗?

闫俊杰:之前纠结过,但现在不纠结了。

2022年下半年我们做Glow,有一个经历非常惨痛。当时团队都感染了新冠,导致2022年底最后一次发版里出现了一个bug,它把用户的对话体验拉低了15%左右,我们元旦三天DAU直接掉了40%。后来实在受不了,终于在放假最后一天找到了这个bug,其实就是非常小的一行算法,把它改了,用户量很快就回来了。

这样的事我们经历了好几次,你可以做很多产品feature,但你会发现,几乎所有大的提升都来自模型本身的进步。

《晚点》:同时做大模型和这么多产品,最大的挑战是什么?

闫俊杰:技术不够好,这是最本质的。我们的技术迭代速度已经很快了,但离全球顶尖的模型仍有差距。

十倍的ScalingLaws

《晚点》:欧洲头部人工智能公司Mistral已经开源了MoE模型,行业普遍认为OpenAI的GPT-4也是MoE,MoE会是今年大模型领域的一个赛点吗?

闫俊杰:MoE只是其中一个环节,还有很多其他环节。如果一个东西能写在一篇论文里,你基本可以认为它不是个绝对壁垒。

《晚点》:在这场技术竞赛中,MiniMax有什么非共识的判断吗?

闫俊杰:这个行业如果有什么非共识,6-9个月内,很快也会变成共识。

现在有三个大家都能看到的东西:一是ScalingLaws;二是实现同样精度的模型,需要的算力和资金投入可能每年降几倍,因为算法和学术界公开的东西越来越多,很多人会做自由探索;三是把精力放在提高数据质量上,现阶段收益更大。

所以从这三点来看——ScalingLaws、同样精度模型的成本下降、数据质量提升的重要性——基本可以推出来我们和其他公司的一些决策,我觉得是比较简单的。

《晚点》:你怎么理解ScalingLaws(规模定律)?它让你看到了什么可能性?

闫俊杰:ScalingLaws就是一条曲线,你可以信仰原始的ScalingLaws,也可以信仰十倍快,甚至百倍快的ScalingLaws。

2020年最初提出大模型ScalingLaws的论文“ScalingLawsforNeuralLanguageModels”认为影响模型性能的最重要变量是算力、数据量和参数,并给出了这些变量间的数字关系:C≈6ND,C是计算量(Compute)、D是数据量(Dataset)、N是模型参数量(Parameters);而模型结构和层数等因素对性能影响没那么大。

它更多是提供一个方法论:即你可以通过更小规模的实验来预测更大实验的结果。第二是它能让行业对齐目标,因为这件事需要数据、算力、芯片、算法和产品等多个环节的分工协作,ScalingLaws可以让大家有相对一致的预期。

至于那篇论文里的那个公式和一些结论,现在看也不一定对,比如它认为层数、结构等没那么重要,至少有几个变量现在看是重要的。

《晚点》:比如呢?什么变量让你有可能实现十倍、百倍的ScalingLaws?

闫俊杰:比如网络结构本身也重要。我们做MoE,最开始认为好的MoE结构和好的dense结构类似,后面发现不是,MoE本身也能加速ScalingLaws。

还有提升数据质量;还有算力的分配,你可以把算力分配到训练上,也可以分配到数据处理上。不同选择都可能加速ScalingLaws。

《晚点》:ScalingLaws的力量来自它够简洁,当你引入更多变量,就破坏了它。

闫俊杰:提升数据质量、优化算法和优化训练方法都没有尽头,持续做就会持续好。

真正的取舍是,它们对ScalingLaws的效率提升在不同周期不一样快。但你可以通过小规模实验来预测哪些变量在什么阶段更重要,这其实还是ScalingLaws的方法论。

为什么在中国一定要做几倍的ScalingLaws?当算力充足,你可以优化原始的ScalingLaws;算力不充足时,你必须优化一个几倍的ScalingLaws,去达到相似效果。

《晚点》:现在被讨论很多的长文本(LongContext)会成为大模型竞赛中的一个差异化路线吗?

闫俊杰:好的大模型默认就应该支持长文本。我们一直都有长文本,我们没在产品里强调这个功能,主要还是因为计算成本。

《晚点》:实现更长文本处理能力的技术方法是什么?

闫俊杰:标准Transformer里之前用的是非线性attention;而过去一年多,很多人在研究线性的attention,这就能帮助长文本。

线性attention的好处是,当文本非常长时,它的计算复杂度会是线性增长,而不是平方增长。但实际上token在20万、30万量级时,线性和非线性效果差不多,因为二次函数在前期时近似线性函数。差别在80万到100万token时才特别明显。

所以长文本解决的不是20万或30万量级的问题,而是100万再往上的量级。

《晚点》:100万token近似于能处理100万字,你觉得多少人有这个需求?

闫俊杰:用户需求和你提供的能力是相互发生的,一个远超大家预期的模型放在这,慢慢会引起很多人的需求。

比如ChatGPT没有语音通话前,没人会说自己的需求是语音通话,但放上去之后,很多人会用语音通话。

我们做的语音对话产品——海螺AI的通话功能也很受欢迎。我阿公80岁,第一次用这个产品就和它讨论了四五十分钟的历史人物,我之前想不到有人会这么来用它。

《晚点》:看起来你们是在产品里先强调了语音等多模态能力,而不是长文本。怎么判断先优化什么技术能力?

闫俊杰:我们有一句话,Intelligencewitheveryone,我们并不是这个技术的owner,这是我们最核心的信仰。

去年人工智能非常火,但全世界用过AI产品的人可能只有1到2亿,重度用户只有几千万。因为提出一个好的问题以及连续追问,门槛非常高,真正愿意打字的可能就是在座的这些人。更多人还是习惯用语音。

越到后期,用户的价值越高

《晚点》:你们推出的第一个产品Glow,让用户和自己定制的AI角色交流,类似乙女游戏(恋爱角色扮演),在二次元圈子很流行,当时怎么想到做这个方向的?

闫俊杰:我们早期做产品冷启动时,针对性地找了不少年轻群体,比如AI爱好者、二次元人群,根据他们的体验和反馈做了前几版的迭代。

起量后,我们每天都盯着社媒用户咋用的。我们做产品早期没做过ABtesting,都是观察用户看用户反馈,再看数据验证和迭代。

《晚点》:做产品踩过什么坑?

闫俊杰:最早我们做智能体,当时对它的想象是同时具有声音、形象和文字的能力,这也是为什么公司刚成立就做了三个模型——语言、语音、视觉。

很快我们放弃了3D形象,因为它不能规模化,之前用3D的大行业只有游戏和电影,研发周期都是几年;同时,我意识到用深度学习来做3D这件事不对。

在目前的载体——手机上,如果一个3D人一直看着你,这本身就很奇怪。大部分情况下,交互其实不需要有一个真的形象。

《晚点》:是上线后通过某些数据看出来的?

闫俊杰:不是数据。当时做第一版形象,找了两个模特去拍。当把3D放进手机的那个瞬间,我们就知道这件事是不对的。

《晚点》:你们第一个模型还没做出来,就招了产品经理,当时你如何向他描述你想要一个怎样的产品?

闫俊杰:不知道。

《晚点》:你说不知道?

我们能确定的是,模型最重要是服务大众,那它一定会是一个产品。所以我们最早就找了产品经理。

《晚点》:用户有很多需求,满足什么不满足什么?

闫俊杰:我们的取舍到后面变得简单,看这个需求是否符合技术发展的趋势,是否能对这类用户的体验带来10倍以上的变化。

《晚点》:产品审美上,你认为怎样的产品是好产品?你们现在的产品玩法很多,有点复杂。

闫俊杰:坦白说,我们现在还没有做出来,所以没有答案。

ChatGPT大概3000万DAU,似乎很难再增加。我的结论是,一个偏简单的AGI产品,在目前的技术阶段,上限可能也就是这样,但最终我相信会有很简单的交互形态满足更广泛的需求。

《晚点》:Sora(OpenAI发布的文生视频大模型)的出现对你有什么启发?

闫俊杰:如果Sora的响应速度未来能变得非常快,生成一个1分钟的视频不是像现在这样要花20分钟,而是可以实时生成,这会是很大的变化。

那它到底会是一个更好的生成视频工具,还是一个更好的生成视频的社区呢?

《晚点》:生成视频的社区,再往下一步不就是超级内容平台?

《晚点》:你认为未来用户量最大的AI产品可能会是什么?

闫俊杰:我们只做出了日活百万的产品,还没有做出千万级或者十亿级的产品,坦白说不知道。我觉得可能还是信息的交换和处理,它的价值是巨大的。

《晚点》:MiniMax产品的日活已接近Character.AI(美国AI独角兽开发的一个可以和各种AI角色聊天、互动的应用),使用时长甚至更长。但有人质疑你们数据好不是因为技术好,而是因为软色情。

闫俊杰:我们做过分析,真正让用户留下来的东西绝不是所谓软色情。比如我们的产品星野,它的核心是给用户提供一个能够发挥创造力和想象力的平台。

《晚点》:技术提升能对产品带来多大提升?你们在星野上用了MiniMax自研的MoE模型,效果怎样?

闫俊杰:上线当天的消息量涨了40%。响应更快了,之前响应要4秒,现在是1秒,这不光是因为MoE,还有一些其它推理优化。

《晚点》:技术提升速度越快,和用户量越大,是因果关系吗?

闫俊杰:这非常tricky。如果你是行业第一名,是OpenAI,那它大概率是因果关系;如果你不是第一名,那就不是因果关系。

过去一年中国很多大模型公司没有很多用户,技术也会提升,因为你只要学第一名就可以进步。但长期看,如果你认为自己的模型可以接近最好的模型,那用户的权重和价值会越来越高。

这个就像算力,拥有更多的算力就能做出更好的模型吗?不一定,提升数据质量可能是ROI更高的事。但长期看,你有更多的算力,一定可以做出更好的模型。所以要看周期。

目前的产品方法还是技术driven,而非产品driven。

《晚点》:你们的产品功能现在已经比较细,比如海螺AI经常有消息推送,吸引用户点开,你们实际上做了比较多产品优化?

闫俊杰:最近我们也在在反思,产品功能点太全面,也许是一个偏负向的事,说明你在最核心的功能上没有花最多的精力。

《晚点》:今年给团队什么目标?

闫俊杰:技术上如何达到GPT-4,产品上如何把用户规模翻十倍,单个产品能突破千万DAU。

《晚点》:10倍增长,这么大。

靠融资打不死别人

《晚点》:你觉得以中国目前整个市场的钱和资源,能够支撑几家做AGI的创业公司?

闫俊杰:不会只有一家,总资源量是够的。

《晚点》:今天很多投资人已经不看大模型了,他们认为做大模型,创业公司没机会。

闫俊杰:我经历过靠融资堆起来的上一个AI的发展阶段。假设一家公司需要靠不停融资来发展,那这个公司真正的优化,可能会变成怎样说服投资人给它更多的钱。

我自己内心的路径是,通过慢慢服务用户,产生一些合理的商业化。当然因为有巨大的研发投入,这件事短期很难实现,但我认为应该探索这条路。

闫俊杰:你疯狂的融钱,别人都会融不到钱——我认为这是不对的,靠融资是打不死其他人的。

因为排在前面的中国创业公司,没有谁的资源能比别人多一个量级。拐点只可能来自于技术、产品或者是商业化效率的领先。

《晚点》:那算力怎么解决?算力资源也很稀缺。

闫俊杰:中国现在有算力,比之前多。另外还是回到ScalingLaws,算力不充足时,要找一种方法优化几倍的ScalingLaws,达到相似的效果。

《晚点》:怎么评判你们和OpenAI的差距?

闫俊杰:我们自己有一个指标,可以叫“开箱可用率”,就是看客户或开发者接一个大模型API,能不能较快完成一个复杂需求。

从我们自己的开放平台看,几乎所有需求GPT-4都可以跑通。比如去年遇到的一个需求是,用户提供一本小说,让模型生成分角色、带语气的有声剧。

非常精细地使用GPT-4可以做到,而我们自己的模型当时不行,但现在可以做到了。

《晚点》:那你们和中国同行的差距呢?

闫俊杰:没有都测。因为测与不测,不会改变我们做的事。

《晚点》:2024年,中国大模型行业会发生什么?

闫俊杰:中国公司会做出类似GPT-4的东西,并且不止一家。但更应该思考的是,再往后该怎么办?

把公司当函数

《晚点》:你刚才说写在论文里的东西都不是壁垒,那这个领域真正的壁垒是什么?

大成与小成的区别是,大成的公司都做了组织创新,这让它们能持续做出越来越强的东西。

《晚点》:壁垒难道不是写出论文的人吗?

闫俊杰:我说一个非常恐怖的观点,对大模型这个领域贡献前20,甚至前50的人,可能没有一个人在中国公司工作。

我们现在靠天才路径不work。目前唯一的方式就是聚拢一些基本素质足够优秀的人,做一个比较好的成长型组织,不断一起突破挑战,让大家高速成长起来。希望三年之后,对这个领域贡献前20、前50的人能来自中国公司。

《晚点》:想怎么打造这个组织?

闫俊杰:我觉得是在优化一个函数,这个函数没有解析解,本质是寻找梯度下降最快的方向。

《晚点》:举个例子?怎么找到梯度下降最快的方向?

闫俊杰:比如在提升技术进步速度上,就是学习OpenAI,因为它是最确定的。

不是指把模型参数搞成和它一样,而是学习怎么让实验方法更科学;怎么更快试错,更高效迭代;怎么把问题定义得更清晰、简洁。

《晚点》:追求梯度下降可能陷入局部最优,但脱靶长期目标,怎么避免呢?

闫俊杰:我们自己的变化是,从非常含糊地看数据,到非常深入地看数据,再到意识到光看数据还不够,需要加上更好的insight。

很多insight其实来自面向长期的思考。举例来说,如果只看产品短期数据,就不会意识到要做一个新的多模态模型。

《晚点》:可是优化函数的方法能处理人性问题吗?比如技术和产品团队间的拉扯。

闫俊杰:在做实验设计或产品时,数据埋点更细,尽可能用这些埋点推测出真正的问题,而不是靠我或任何人的主观判断。

我们相信数据科学,这些东西也不是我们发明的,中国互联网公司已经做得非常到位了。

《晚点》:你之前说希望组织更轻,但你们已经300人了,其中大部分都是过去一年入职的。

闫俊杰:其实还是很简单,组织结构只有三层,我,我的-1和我-1的-1。

可以说我们只有三个部门:一个技术部门,我来负责;一个产品部门,分C端产品和开放平台,各有一个负责人;一个运营和增长部门,既做产品增长,也做公司增长,HR也在这里,有一个整体负责人。

《晚点》:你们的同行,智谱有约1000人,月之暗面有约200人,你们是300人,人数的差别背后是什么?

闫俊杰:这个东西就看你信啥了,我们不需要向其他人证明什么,我们就信我们做的事。一些不必要的岗位,我们就不太需要。我们需要做啥事,我们就招做啥事的人。

但我们要做一定规模的前端产品,所以除了算法跟应用数据人才外,我们还需要做推理系统、线上服务、开发和产品运营的人才。

《晚点》:现阶段最缺什么人才?

闫俊杰:更多算法的人才。我们现在知道怎么做实验,我们的资源也可以做很多实验,但做实验的人不够。

今年视频生成模型会变得很实用。按去年情况,第一个做出来的产品更容易取得大成功,现在很多公司都在追求成为第一个。

《晚点》:如何识别合适你们的人?

闫俊杰:他的加入能使团队整体输出变高。但这需要一些后验,有些非常强的人其实没法融入团队,而有些看起来没那么强的人却可以使整体输出变强。

闫俊杰:当你想来做管理的时候,可能就会开始走偏了。

最重要的还是怎么让大家一起做出更强的东西,超出用户期待,也超出团队自己的期待。AI现在可能是一个风口浪尖的行业,但也没那么神奇,它至少是一个科学,那就按照科学的方法做事:一是整体人才的水平高;二是整个组织有一套类似数据科学的方法,可以把有效的东西快速识别出来。

这两件事掺在一起,就是我们真正要做的事。

《晚点》:如何吸引更强的人加入你们?

闫俊杰:本质上还是组织强,能持续做一些好的事。我们也只能找到这么一条路径。

《晚点》:希望公司形成怎样的文化?

闫俊杰:第一是不走捷径,我们好多次走捷径,结果都被打得很惨;第二个是User-in-the-Loop;第三是技术驱动。

这都是我们基于此前的经验和教训总结出来的。

自己好像慢慢变成了一组基函数

闫俊杰:我觉得主要是对集中力量干大事的技术路线的自信。

还有一些反馈是刻骨铭心的,这也是为什么我希望MiniMax的组织足够简单,因为在一个组织里,大家觉得一个事不对,但又不直接说,这对所有人都是一个很大的伤害。

《晚点》:当时AGI还是非共识,你怎么就意识到了它是个方向?

我作为一个做技术的,那时每天的技术进展已经超出我的理解范围了。人的进化速度是很慢的,唯一的方式是有更好的人工智能来帮助技术发展,或者加快人的研究速度。

这就有非常大的矛盾:你相信人工智能长期对社会有价值,只有它才能让人类的技术进步速度变得更快;另一方面,你做的很多事并没有直接促成它。

《晚点》:上一代AI从业者其实很多都意识到了这个矛盾,但大家都找不到出路。

当这件事发生时,如果你真的相信人工智能,你就应该去做点什么。

《晚点》:你是如何学习的?

闫俊杰:认识比自己更强的人,这可能是创业能带给我的为数不多的短期满足,我很幸运遇到了一些非常top的人,给了我一些视角。当你从更高层面思考,很多东西反而没那么难了。其次我会看很多论文。

闫俊杰:我不觉得我是全面优秀。过去我能做很多工作,可能跟我的成长经历有关,我出生在河南一个小县城,很多东西周围没有人教,只能靠自己,这就形成了自己领悟事情的能力。我也不想这样,我是被迫变成这样。

但今天看,这个能力还是非常有用的。当我去做一个没做过的事,能快速找到一些底层逻辑。

《晚点》:你觉得自己的短板是什么?

闫俊杰:虽然做过一些技术,但我不是最top的研究者,可能只是一个二流研究者。

闫俊杰:全世界最top的那个人可能是30万。

《晚点》:你说要把公司当函数,那你觉得自己是一个什么函数?

闫俊杰:(想了很久)之前上学的时候学泰勒展开,我看到一个复杂的东西是可以用一些简单的函数组合来逼近的。

也就是说,你可以用一组基函数来逼近任意的函数。我感觉自己好像慢慢变成了一些基函数,通过一些不同权重的组合,在需要的时候变成不同的形态。

《晚点》:聊了这么久,发现还没有谈到改变世界、改变人类。

闫俊杰:真正想做的事不应该天天说。

《晚点》:那今天可以说说吗?

闫俊杰:还是“Intelligencewitheveryone”,这句话有两个解释,一是我们希望用最好的技术服务每一个人,二是我们实现AGI的过程中需要和用户一起迭代、成长。

THE END
1.从啥也不会的小白,如何成为合格的算法工程师?算法工程师之前有一个小伙伴在留言当中问我,说自己想要从事算法工程师的工作,但是不知道应该从哪里入手,请问我应该怎么办。 这其实是一个老生常谈的话题,也是一个很大的概念。我很难用三言两语告诉你究竟应该如何做,但我可以告诉你一个合格的算法工程师应该至少需要具备什么样的能力,也许可以帮助你们找到前进的方向。 基础 https://aiqicha.baidu.com/qifuknowledge/detail?id=10100085880
2.算法笔记(三)算法学习技巧总结 算法是一门数学科学院,想要学号算法即该算法是为了要解决什么问题,需要静下心来谢谢代码,与不写代码的人区别是效率比他妈呢提高了很多,算法学习还需要举一反三你,这样我们才能狗的更好。https://www.code456.com/article/3598351.html
3.提高计算能力策略(精选十篇)通过本课题的研究,分析影响小学生计算能力的各种因素,认真研究提高小学生计算能力的策略,努力提高学生计算能力,培养学生的口算、心算、估算和笔算能力,实现算法的多样化与优化的有机结合,促使学生在生动活泼、轻松愉快的学习中慢慢喜欢数学,对计算产生兴趣。从而提高学生的计算能力,为学生今后的学习奠定扎实的基础。 https://www.360wenmi.com/f/cnkeywa6jh8p.html
4.谈如何提高小学中高年级学生计算能力如何有效地提高学生的计算能力呢?尤其我长年任教中高年级数学,提高学生的计算能力一直是我数学教学中的困惑。通过对此课题的实践研究,我找到了一些提高学生计算能力的捷径,有以下肤浅的认识: 一、课堂上加强学生对算法和算理的掌握 要使学生会算,首先必须使学生明确怎样算,也就是加强法则及算理的理解。《新课程标准https://www.jycfd.cn/html/album/93/2020/06-15/211324378-17605.html
5.+编程思维四个核心:分解抽象模式识别和算法对于程序员来说,提高自己的编程能力,算是给自己定的职业发展目标之一,不过定一个成为编程大神的目标很容易,具体做起来可能就不是一件简单的事了。首先,既然决定“我要变得更好”,得先知道“更好”是什么样子的。另外,不能“想变得更好”,却没有任何具体可行的措施。 https://blog.csdn.net/weixin_46931877/article/details/116110894
6.怎样帮助孩子提高数学计算能力怎样帮助孩子提高数学计算能力?计算教学是一个长期复杂的教学过程,要提高学生的计算能力也不是一朝一夕的事。它是一个日积月累的过程,只有教师和学生的共同努力才有可能见到成效。今天,朴新小编给大家带来数学教学方法。 一、培养低年级学生养成良好的计算习惯 https://www.qinxue365.com/fangfa/450824.html
7.两三位数除以一位数笔算教案17篇(全文)2.经历探索三位数除以一位数除法的笔算的过程,明确算理,掌握算法,提高知识迁移类推能力和运算能力。 3.能利用所学的知识提出并解决简单的实际问题,感受数学与生活的联系,体验学数学、用数学的乐趣。 【教学重难点】让学生能正确计算三位数除以一位数的笔算,明确算理,掌握算法。【教学准备】多媒体课件 【教学过程】 https://www.99xueshu.com/w/filecnngr3nl.html
8.如何提升数据结构方面的算法能力数据结构知识和算法知识是我们实际解决解决问题的基元,如何提高算法能力就涉及如何将数据结构和算法应用于特定的场景,以及在实际使用中该如何选择对应算法。 算法的精髓在于分析和比较,要想清楚在什么时候,为什么使用这个算法。 比如说平衡搜索树,我们为什么要平衡呢?因为平衡可以减小树的最大深度,从而减小搜索时的最坏时http://m.hqyj.com/emb/Column/20209920.html
9.上学期教学工作计划13篇在日常生活中运用也很广,加减法各部分之间的关系,是给学生一些概括性的知识,目的是加深对加减法的理解,能够利用这些关系对加减法进行验算,提高计算的正确性,并会列出含有未知数X的等式来解答下步的加减法应用题,加减法的一些简便算法,主要教学一个数加、减接近整十、整百数的简便算法,进一步提高学生的计算能力和https://www.liuxue86.com/a/4951923.html
10.主任崔士鑫:用主流价值导向驾驭“算法”,全面提高舆论引导能力习近平总书记在中央政治局第十二次集体学习时明确要求,“探索将人工智能运用在新闻采集、生产、分发、接受、反馈中,用主流价值导向驾驭‘算法’,全面提高舆论引导能力”。这为我们在全媒体时代,充分利用好大数据、云计算、人工智能等新技术,推动主流媒体向数字化、网络化、智能化发展,实现单向式传播向互动式、服务式、https://www.thepaper.cn/newsDetail_forward_4645624
11.一年级数学《100以内数的认识》教学设计(精选10篇)【设计意图:因为有了前面的教学铺垫,这一环节更重要的是训练学生自己的表达与交流能力,同时注重对算法多样化的渗透,引导学生选择又对对快的方法。】 三、巩固提高 (一)基本练习。 1、P48的“做一做”第1题:做好后,请个别学生说出方法,提示:利用加减法的关系,可以算得又对又快。 https://www.ruiwen.com/jiaoxuesheji/2672061.html
12.如何通过刷题提高算法能力归思君如何通过刷题提高算法能力 第一步:明确题目的意思 第二步:列出所有可能的解法,寻找最优解 第三步:实操,写代码,并优化 第四步:反馈并测试解法 提醒:要理解代码的思路后再开始背写,而不是一边看题解,一边敲代码。这不是程序员,这是打字员!https://www.cnblogs.com/EthanWong/p/12465697.html
13.AppStore上的“Leaflet算法分析:算法复杂度、算法性能等。 数据结构与算法分析是计算机科学的基础,是所有计算机程序的基础。掌握数据结构与算法分析可以使程序员更加高效地编写程序,提高程序的质量和性能。 【题解】 精选了具有代表性的算法题,使用Swift语言实现相关的数据结构与算法分析 https://apps.apple.com/cn/app/id1420814118
14.提高海鸥优化算法寻优能力的改进策略及其应用从这些改进措施来看,虽然SOA算法性能有了一定程度的提升,但全局与局部搜索的协调能力有待加强。另外,局部搜索方式比较单一,缺乏灵活性,导致优化性能减弱。因此,如何提高SOA算法的寻优能力值得进一步研究。 基于上述,本文从平衡全局与局部搜索能力出发,设计了3种提高SOA算法寻优能力的改进策略。首先,改进非线性收敛因子与https://xk.sia.cn/cn/article/doi/10.13976/j.cnki.xk.2022.1438?viewType=HTML
15.高中数学教学反思15篇1、第一章的教学主要还是要把握好教学要求,围绕程序框图这一核心,以具体案例为载体,使学生在解决具体问题的过程中,学会基本逻辑结构和算法语句的用法,从中体会算法的思想,提高逻辑思维能力,不必要搞太难的算法设计,因为在其它章节中,算法思想也是要渗透的,学生有较多的机会接触算法问题.至于高中数学引入算法的理由,我https://www.fwsir.com/xinde/html/xinde_20230106112214_2205637.html
16.BiRealNet:通过改进表示能力和训练算法提高1目的是提升二值化卷积神经网络(1-bit CNN)的精度。虽然 1-bit CNN 压缩程度高,但是其当前在大数据集(如 ImageNet )上的分类精度与对应的实值 CNN 相比有较大的精度下降。本文提出的 Bi-Real-Net用 shortcut 传递网络中已有的实数值,从而提高二值化网络的表达能力,并且改进了现有的 1-bit CNN 训练方法。https://cloud.tencent.com/developer/article/1752296
17.高中数学教学反思(精选30篇)讲授重点内容,是整堂课的教学高潮。教师要通过声音、手势、板书等的变化或应用模型、投影仪等直观教具,刺激学生的大脑,使学生能够兴奋起来,适当地还可以插入与此类知识有关的笑话,对所学内容在大脑中刻下强烈的印象,激发学生的学习兴趣,提高学生对新知识的接受能力。https://www.unjs.com/fanwenwang/ziliao/473810.html
18.因果推断助力业务增长最新实践演讲介绍:图事后可解释性常因无法解决分布外泛化问题(OOD)而被诟病。针对此,本报告提出了:①一种基于对抗鲁棒性的抗 OOD 评估指标;②一种提高算法抗 OOD 能力的网络-数据联合解释范式。上述指标和范式可以极大地缓解 OOD 问题所带来的性能下降和应用限制。 https://hub.baai.ac.cn/view/31538
19.算法工程师职业规划总之,作为一名算法工程师,职业规划是非常重要的。你需要定义自己的职业目标,提高技能水平,积累项目经验,建立良好的职业关系,持续学习和成长,提高沟通能力,寻找职业发展机会。通过这些措施,你将成为一名成功的算法工程师,并取得职业生涯中的巨大成功。 【特别提示】 https://www.xycareer.com/knowledge/8907.html