而在大模型热潮中,“人才”成为各大科技公司、创业团队和研究机构激烈争夺的关键。
无论是海外还是国内,当下涉足大模型的企业都在疯狂延揽人才。
李京梅,澜舟科技合伙人&首席产品官,北京大学学士、美国纽约州立大学硕士、美国宾州州立大学MBA。
曾就职于微软美国和微软亚太研发集团,阿里云等头部软件、云计算公司,在云计算、大数据、人工智能、城市大脑等领域具有丰富的产品和解决方案经验。
量子位智库:澜舟科技如何划分大模型人才?
李京梅:澜舟科技的人才体系是与面向企业客户的服务体系直接挂钩的。澜舟科技拥有自有大模型,我们的定位是大模型+ToB应用,面向金融机构、互联网公司等企业做行业应用落地。
量子位智库:有人按照模型部署中重要程度将大模型人才划分成三类:大模型核心研发人才、工程/产品人才、大模型应用人才,您怎么看这种分类方式?
就算法人才而言,L1、L2、L3各自分别有负责通用大模型、行业大模型和偏场景应用的算法负责人。在这当中,最核心的是通用大模型的算法人员,因为其他的模型都是继承自L1的通用大模型。
就工程人才而言,与传统互联网岗位划分没有区别,包括前端、后端和测试人员。
就产品经理而言,L1通用大模型的产品经理的作用是横向支撑,L2和L3的产品经理要继承通用大模型的能力,并基于金融行业或其他行业训练出大模型以及上层应用。
量子位智库:L1到L4这几类人才,哪种是相对比较稀缺的?
李京梅:通用大模型核心研发人才是最为稀缺的。像我们创始人周明老师在微软时就接触过大模型、预训练这些技术,但这样的人才很少,Transformer技术是2017年才发布的,2017年后才陆续产生大模型研发人才。
L2层跟L1层的人在能力画像上差别不大,纯从技术层面,跟L1层的技术要求一样。但L2层因为行业和领域数据不同,需要业务场景,对L2层的人才的要求是训练出面向金融行业更好的模型。
L2人才基于内部协同和分工会有更多行业认知,比如对金融行业大模型做评测时,应该如何定义十项任务,除了L2技术人员,还有面向行业解决方案的产品经理,给出行业输入,L2的人才综合能力更强一些。
预训练环节是基于无监督学习,利用海量数据去训练,我们会使用AI框架技术,比如PyTorch,目前也出现了针对大模型训练优化的框架,比如DeepSpeed、Colossal-AI、阿里云内置的框架等,我们也都会使用。
对于多模态技术,澜舟科技更多是偏重文本,但是现在文生图、文生视频、文生语音技术也变得更可行,我们会在开源的图片模型基础上进行二次训练,针对客户想要的图片风格进行可控图片生成,提高生成效率。
我们的多模态技术是在开源模型基础上,通过文字与其他模态结合,从而实现应用场景落地。
量子位智库:在训练过程中,如何应用规模化技术呢?
李京梅:ChatGPT出来前,我们走的是轻量化,轻量化是指模型参数量比较小。截至2021年7月,我们大模型参数量达到10亿,效果就已经很好。我们目前在扩大参数量,推出7B和40B的模型,如果有客户需要我们训练更大参数量的模型,比如700亿、上千亿也是可以做到的。
更大规模参数的模型依赖的是资源,使用分布式技术,像一台机器一样高效训练几百、上千张英伟达显卡,这涉及整个算力、卡、机器之间的通讯效率等,都泛指规模化技术。从最开始的10亿参数量到现在的400亿参数量,我们的规模化技术已经相对成熟了。
量子位智库:对于中间件和工具链技术是如何应用的呢?
李京梅:有些客户除了有模型的购买需求还有掌握训练技术的需求,在数据基础上做Continue-Train,想自己做微调,我们会把工具链的技术对外输出。如果要实现模型流程闭环,必须是有这些工具的。
量子位智库:推理与部署环节技术是如何应用的呢?
量子位智库:孟子大模型经历了多次升级,不同的升级过程当中会更注重哪些环节?
量子位智库:在这些环节当中会注重去配置哪些能力、哪些专业素养的人才?
李京梅:我们原来做轻量化,现在做更大参数量的大模型,所以就引进了更多在大厂实操过、跑过工程闭环的人才,这类人才更多来自成熟的互联网产业。
今年企业对训练效率、推理效率的提升需求更加明显,如何利用好有限算力就成为关键问题。这体现在商业化定价上,比如调用API接口的定价,如果训练推理的成本高,在定价上就不具备优势。如何用更少的算力,带来同样的用户体验,这就是技术降本的关键。技术不过硬,就需要更多的显卡,成本就高。我觉得这是需要AI工程人才来解决的问题。
预训练技术的好坏在于模型效果如何,但效果好并不代表效率高。效率高就依赖于AI工程人才,这些人不一定特别懂算法,但懂AI工程,很多云平台厂商的工程人才自身不做算法,但是懂算法,他们之前为千万用户到平台上训练、合作、推理提供支撑服务,为了服务好用户,平台需要帮助用户降本提效。像阿里电商,腾讯游戏等自身业务非常庞大,用户并发量都很高,都用自有模型,自己训练好自己用,也会遇到无数挑战,实验室里人才在实践方面还有待提升,很难接触到实际挑战,所以当下AI工程人才是市场所需的。
量子位智库:相比实验室的人才,AI工程人才更稀缺吗?
李京梅:不能说AI工程人才更稀缺,还是要分阶段来看。各家企业在专注训练模型时,更倾向于选择算法人才来训练模型。等现在模型纷纷都已经训练出来,大模型企业期望对外提供服务时,团队就更需要AI工程人才。
也有不少大模型厂商选择绑定平台厂商,根据其提供的工具来进行训练,也就不需要引进实验室人才或工程人才,我觉得这是看各家的选择。
李京梅:人才的学术成果、实践经验、学历背景对于澜舟科技的大模型团队而言都很重要。
而且基于我们公司注重实践的定位,也看重实践经验丰富的人才,不管是合伙人还是VP都具备实操能力。同样,我们也十分重视专利。除了实践与研发,每年团队都产出几十个核心发明专利。
我们比较综合,不刻意补充纯学术研究的人才,研究也是依赖于实践,避免只做研究、只给客户服务的这些情况。
量子位智库:刚才提到的能力要素,哪些更重要?
李京梅:我觉得要分阶段,因为大模型技术迭代非常快,现在和6个月以前相比会有很大不同。6个月前,大模型基础研究成果更加重要。如今有很多开源大模型,只做底层核心大模型对于面向企业服务的技术厂商并没有那么重要,我们公司定位就是开源技术基础之上再做大模型预训练。我们立足企业服务,所以目前实践型人才占比较高。
大模型训练的效果的好坏通过两种方式来判断,一种是榜单评测,另一种就是客户的评测反馈。客户真正使用上行业模型至少要到明年,我们还是要以实践效果为导向。
量子位智库:您觉得市面上大模型人才的薪酬水平存在过高的情况吗?之后会有所回落吗?
量子位智库:澜舟科技会选择吸纳刚毕业的人才吗?
李京梅:其实这类人才我们大多会选择自己培养。这和我们基因背景有关系,周明老师2020年底从微软出来,到李开复老师创新工场孵化,会热衷于选拔实习生,一般是硕士、博士背景,很多实习一年多转为留用的人才。
量子位智库:我理解是让这些实习生成长为大模型研发人才,培养周期需要一年到两年左右。
李京梅:其实实习生工作半年左右,我们就能看出来是不是具备大模型研发人才的潜力。比如有一位博士在2021年毕业就加入了澜舟科技,他现在成长为能够带领几位师弟的研发leader人才。
现在新技术瞬息万变,具体需要多长的培养周期我觉得要看潜力,半年到一年就能达到大模型研发要求的人才其实很多,他们可以独立完成很多事情,比如说指令微调,强化学习,还有监督微调(SFT)等,悟性强的实习生很快能掌握,但训练中间还是需要有经验的员工check,导师会带一点。
目前阶段,大模型面向企业落地其实是不容易的,但和能力素质较高的年轻人对齐模型研发训练的认知还是很快的。
量子位智库:您怎么看待“大牛带小牛”这种培养形式?
量子位智库:澜舟科技吸纳的大模型人才大部分是在自然语言方向,有没有再细分一点的研究方向?
李京梅:也有,比如机器翻译,文本生成搜索这些研究领域的人才比较多。
量子位智库:您觉得目前的大模型能够做核心研发的人才大概是在什么规模?
李京梅:乐观点的话,国内做核心研发有几千人左右,OpenAI做核心能有几十人,投入已经是非常多的。中国大厂不超过10家,做核心大模型的也没有很多,创业公司就更少了。像王小川说100天招100人,也不是全部都研发大模型,所以几千人就已经很多了。
量子位智库:您觉得未来这些核心研发人才会越来越多吗?
量子位智库:您说的这些潜在人才我们看作是大模型的储备人才,那您认为大模型核心研发人才未来会成指数级增长吗?
李京梅:我觉得不至于成指数量级增长,从我的角度来看,能做这件事的团队少而且需求在变少。以Meta的LLama2开源以后,大模型作为基座来讲已经遍地开花了,未来会出现几个巨头。国内外的很多企业也都是站在OpenAI开源的成果上,所以其实做最底层的技术人员,全球范围内的人数都不多。所以我觉得大模型核心研发人员,可能没有之前想象的需要那么顶尖的人才,如今“百模”出现,就表明大模型的基础能力已开始趋同,现在投入大模型的人才不是大家想象说的那么顶尖,必须要OpenAI、Google、Meta出的大模型,可能就会更多围绕上层行业应用去落地。
量子位智库:您认为目前大模型人才的发展阶段是处于刚刚起步、高速发展,还是相对成熟的阶段呢?
量子位智库:您觉得迈向下一个阶段的标志性事件是什么呢?
量子位智库:关于大模型人才的分布,您觉得哪些地方是比较密集的?
量子位智库:您觉得国内目前的这种培养模式可以从哪些方面进行提升?
李京梅:加强校企合作是很好的培养人才的方式,这种方式培养出来的人才在毕业时就有工程实践的积累。因为高校人才擅长做学术研究、写论文,但他们没有场景也缺乏数据。所以校企联合可以发挥自身优势,高校人才将自己的研究和实际场景结合会更有益,研究出成果也能继续发论文,对企业来说也能形成前瞻技术的沉淀。
当前一直在讨论产、学、研联动,其实现在很多企业和高校也在做这种合作,澜舟科技也和金融机构成立金融NLP联合实验室。目前适合国内的培养模式,更可能是应用和基础研究紧密结合这种方式。
量子位智库:除了实践型人才,您认为未来什么类型的大模型人才更受企业的青睐?
李京梅:我觉得是跨界人才。比如面向金融领域的大模型,就需要懂金融和大模型的人才。比如AIforscience,需要既懂制药又懂AI的人才。未来大模型往产业落地,跨界人才是非常吃香的,至于是从科学家里培养AI人才,还是从AI人才里培养懂业务的人才主要是看大家的选择。
—完—
「量子位2023人工智能年度评选」开始啦!
今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名