算法人才vs工程人才，大模型时代谁更重要？｜对话澜舟科技|什么叫算法时代_在线学习

而在大模型热潮中，“人才”成为各大科技公司、创业团队和研究机构激烈争夺的关键。

无论是海外还是国内，当下涉足大模型的企业都在疯狂延揽人才。

李京梅，澜舟科技合伙人&首席产品官，北京大学学士、美国纽约州立大学硕士、美国宾州州立大学MBA。

曾就职于微软美国和微软亚太研发集团，阿里云等头部软件、云计算公司，在云计算、大数据、人工智能、城市大脑等领域具有丰富的产品和解决方案经验。

量子位智库：澜舟科技如何划分大模型人才？

李京梅：澜舟科技的人才体系是与面向企业客户的服务体系直接挂钩的。澜舟科技拥有自有大模型，我们的定位是大模型+ToB应用，面向金融机构、互联网公司等企业做行业应用落地。

量子位智库：有人按照模型部署中重要程度将大模型人才划分成三类：大模型核心研发人才、工程/产品人才、大模型应用人才，您怎么看这种分类方式？

就算法人才而言，L1、L2、L3各自分别有负责通用大模型、行业大模型和偏场景应用的算法负责人。在这当中，最核心的是通用大模型的算法人员，因为其他的模型都是继承自L1的通用大模型。

就工程人才而言，与传统互联网岗位划分没有区别，包括前端、后端和测试人员。

就产品经理而言，L1通用大模型的产品经理的作用是横向支撑，L2和L3的产品经理要继承通用大模型的能力，并基于金融行业或其他行业训练出大模型以及上层应用。

量子位智库：L1到L4这几类人才，哪种是相对比较稀缺的？

李京梅：通用大模型核心研发人才是最为稀缺的。像我们创始人周明老师在微软时就接触过大模型、预训练这些技术，但这样的人才很少，Transformer技术是2017年才发布的，2017年后才陆续产生大模型研发人才。

L2层跟L1层的人在能力画像上差别不大，纯从技术层面，跟L1层的技术要求一样。但L2层因为行业和领域数据不同，需要业务场景，对L2层的人才的要求是训练出面向金融行业更好的模型。

L2人才基于内部协同和分工会有更多行业认知，比如对金融行业大模型做评测时，应该如何定义十项任务，除了L2技术人员，还有面向行业解决方案的产品经理，给出行业输入，L2的人才综合能力更强一些。

预训练环节是基于无监督学习，利用海量数据去训练，我们会使用AI框架技术，比如PyTorch，目前也出现了针对大模型训练优化的框架，比如DeepSpeed、Colossal-AI、阿里云内置的框架等，我们也都会使用。

对于多模态技术，澜舟科技更多是偏重文本，但是现在文生图、文生视频、文生语音技术也变得更可行，我们会在开源的图片模型基础上进行二次训练，针对客户想要的图片风格进行可控图片生成，提高生成效率。

我们的多模态技术是在开源模型基础上，通过文字与其他模态结合，从而实现应用场景落地。

量子位智库：在训练过程中，如何应用规模化技术呢？

李京梅：ChatGPT出来前，我们走的是轻量化，轻量化是指模型参数量比较小。截至2021年7月，我们大模型参数量达到10亿，效果就已经很好。我们目前在扩大参数量，推出7B和40B的模型，如果有客户需要我们训练更大参数量的模型，比如700亿、上千亿也是可以做到的。

更大规模参数的模型依赖的是资源，使用分布式技术，像一台机器一样高效训练几百、上千张英伟达显卡，这涉及整个算力、卡、机器之间的通讯效率等，都泛指规模化技术。从最开始的10亿参数量到现在的400亿参数量，我们的规模化技术已经相对成熟了。

量子位智库：对于中间件和工具链技术是如何应用的呢？

李京梅：有些客户除了有模型的购买需求还有掌握训练技术的需求，在数据基础上做Continue-Train，想自己做微调，我们会把工具链的技术对外输出。如果要实现模型流程闭环，必须是有这些工具的。

量子位智库：推理与部署环节技术是如何应用的呢？

量子位智库：孟子大模型经历了多次升级，不同的升级过程当中会更注重哪些环节？

量子位智库：在这些环节当中会注重去配置哪些能力、哪些专业素养的人才？

李京梅：我们原来做轻量化，现在做更大参数量的大模型，所以就引进了更多在大厂实操过、跑过工程闭环的人才，这类人才更多来自成熟的互联网产业。

今年企业对训练效率、推理效率的提升需求更加明显，如何利用好有限算力就成为关键问题。这体现在商业化定价上，比如调用API接口的定价，如果训练推理的成本高，在定价上就不具备优势。如何用更少的算力，带来同样的用户体验，这就是技术降本的关键。技术不过硬，就需要更多的显卡，成本就高。我觉得这是需要AI工程人才来解决的问题。

预训练技术的好坏在于模型效果如何，但效果好并不代表效率高。效率高就依赖于AI工程人才，这些人不一定特别懂算法，但懂AI工程，很多云平台厂商的工程人才自身不做算法，但是懂算法，他们之前为千万用户到平台上训练、合作、推理提供支撑服务，为了服务好用户，平台需要帮助用户降本提效。像阿里电商，腾讯游戏等自身业务非常庞大，用户并发量都很高，都用自有模型，自己训练好自己用，也会遇到无数挑战，实验室里人才在实践方面还有待提升，很难接触到实际挑战，所以当下AI工程人才是市场所需的。

量子位智库：相比实验室的人才，AI工程人才更稀缺吗？

李京梅：不能说AI工程人才更稀缺，还是要分阶段来看。各家企业在专注训练模型时，更倾向于选择算法人才来训练模型。等现在模型纷纷都已经训练出来，大模型企业期望对外提供服务时，团队就更需要AI工程人才。

也有不少大模型厂商选择绑定平台厂商，根据其提供的工具来进行训练，也就不需要引进实验室人才或工程人才，我觉得这是看各家的选择。

李京梅：人才的学术成果、实践经验、学历背景对于澜舟科技的大模型团队而言都很重要。

而且基于我们公司注重实践的定位，也看重实践经验丰富的人才，不管是合伙人还是VP都具备实操能力。同样，我们也十分重视专利。除了实践与研发，每年团队都产出几十个核心发明专利。

我们比较综合，不刻意补充纯学术研究的人才，研究也是依赖于实践，避免只做研究、只给客户服务的这些情况。

量子位智库：刚才提到的能力要素，哪些更重要？

李京梅：我觉得要分阶段，因为大模型技术迭代非常快，现在和6个月以前相比会有很大不同。6个月前，大模型基础研究成果更加重要。如今有很多开源大模型，只做底层核心大模型对于面向企业服务的技术厂商并没有那么重要，我们公司定位就是开源技术基础之上再做大模型预训练。我们立足企业服务，所以目前实践型人才占比较高。

大模型训练的效果的好坏通过两种方式来判断，一种是榜单评测，另一种就是客户的评测反馈。客户真正使用上行业模型至少要到明年，我们还是要以实践效果为导向。

量子位智库：您觉得市面上大模型人才的薪酬水平存在过高的情况吗？之后会有所回落吗？

量子位智库：澜舟科技会选择吸纳刚毕业的人才吗？

李京梅：其实这类人才我们大多会选择自己培养。这和我们基因背景有关系，周明老师2020年底从微软出来，到李开复老师创新工场孵化，会热衷于选拔实习生，一般是硕士、博士背景，很多实习一年多转为留用的人才。

量子位智库：我理解是让这些实习生成长为大模型研发人才，培养周期需要一年到两年左右。

李京梅：其实实习生工作半年左右，我们就能看出来是不是具备大模型研发人才的潜力。比如有一位博士在2021年毕业就加入了澜舟科技，他现在成长为能够带领几位师弟的研发leader人才。

现在新技术瞬息万变，具体需要多长的培养周期我觉得要看潜力，半年到一年就能达到大模型研发要求的人才其实很多，他们可以独立完成很多事情，比如说指令微调，强化学习，还有监督微调（SFT）等，悟性强的实习生很快能掌握，但训练中间还是需要有经验的员工check，导师会带一点。

目前阶段，大模型面向企业落地其实是不容易的，但和能力素质较高的年轻人对齐模型研发训练的认知还是很快的。

量子位智库：您怎么看待“大牛带小牛”这种培养形式？

量子位智库：澜舟科技吸纳的大模型人才大部分是在自然语言方向，有没有再细分一点的研究方向？

李京梅：也有，比如机器翻译，文本生成搜索这些研究领域的人才比较多。

量子位智库：您觉得目前的大模型能够做核心研发的人才大概是在什么规模？

李京梅：乐观点的话，国内做核心研发有几千人左右，OpenAI做核心能有几十人，投入已经是非常多的。中国大厂不超过10家，做核心大模型的也没有很多，创业公司就更少了。像王小川说100天招100人，也不是全部都研发大模型，所以几千人就已经很多了。

量子位智库：您觉得未来这些核心研发人才会越来越多吗？

量子位智库：您说的这些潜在人才我们看作是大模型的储备人才，那您认为大模型核心研发人才未来会成指数级增长吗？

李京梅：我觉得不至于成指数量级增长，从我的角度来看，能做这件事的团队少而且需求在变少。以Meta的LLama2开源以后，大模型作为基座来讲已经遍地开花了，未来会出现几个巨头。国内外的很多企业也都是站在OpenAI开源的成果上，所以其实做最底层的技术人员，全球范围内的人数都不多。所以我觉得大模型核心研发人员，可能没有之前想象的需要那么顶尖的人才，如今“百模”出现，就表明大模型的基础能力已开始趋同，现在投入大模型的人才不是大家想象说的那么顶尖，必须要OpenAI、Google、Meta出的大模型，可能就会更多围绕上层行业应用去落地。

量子位智库：您认为目前大模型人才的发展阶段是处于刚刚起步、高速发展，还是相对成熟的阶段呢？

量子位智库：您觉得迈向下一个阶段的标志性事件是什么呢？

量子位智库：关于大模型人才的分布，您觉得哪些地方是比较密集的？

量子位智库：您觉得国内目前的这种培养模式可以从哪些方面进行提升？

李京梅：加强校企合作是很好的培养人才的方式，这种方式培养出来的人才在毕业时就有工程实践的积累。因为高校人才擅长做学术研究、写论文，但他们没有场景也缺乏数据。所以校企联合可以发挥自身优势，高校人才将自己的研究和实际场景结合会更有益，研究出成果也能继续发论文，对企业来说也能形成前瞻技术的沉淀。

当前一直在讨论产、学、研联动，其实现在很多企业和高校也在做这种合作，澜舟科技也和金融机构成立金融NLP联合实验室。目前适合国内的培养模式，更可能是应用和基础研究紧密结合这种方式。

量子位智库：除了实践型人才，您认为未来什么类型的大模型人才更受企业的青睐？

李京梅：我觉得是跨界人才。比如面向金融领域的大模型，就需要懂金融和大模型的人才。比如AIforscience，需要既懂制药又懂AI的人才。未来大模型往产业落地，跨界人才是非常吃香的，至于是从科学家里培养AI人才，还是从AI人才里培养懂业务的人才主要是看大家的选择。

—完—

「量子位2023人工智能年度评选」开始啦！

今年，量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项！欢迎扫码报名

THE END

算法人才vs工程人才，大模型时代谁更重要？｜对话澜舟科技

社会语境下的算法呈现与公众期待

揭开算法“黑箱”：让你上瘾的背后是什么？

刘东亮：技术性正当程序：人工智能时代程序法和算法的双重变奏

“婚恋鄙视链”背后那些喜忧参半的大数据

短视频内容算法：如何在算法推荐时代引爆短视频

尤瓦尔·赫拉利：认识你自己，不要被算法操控

算法思维

算法人才vs工程人才，大模型时代谁更重要？｜对话澜舟科技

《终极算法》

算法时代，你在看剧，他们在屏幕那头盯着你