算法人才vs工程人才,大模型时代谁更重要?|对话澜舟科技

而在大模型热潮中,“人才”成为各大科技公司、创业团队和研究机构激烈争夺的关键。

无论是海外还是国内,当下涉足大模型的企业都在疯狂延揽人才。

李京梅,澜舟科技合伙人&首席产品官,北京大学学士、美国纽约州立大学硕士、美国宾州州立大学MBA。

曾就职于微软美国和微软亚太研发集团,阿里云等头部软件、云计算公司,在云计算、大数据、人工智能、城市大脑等领域具有丰富的产品和解决方案经验。

量子位智库:澜舟科技如何划分大模型人才?

李京梅:澜舟科技的人才体系是与面向企业客户的服务体系直接挂钩的。澜舟科技拥有自有大模型,我们的定位是大模型+ToB应用,面向金融机构、互联网公司等企业做行业应用落地。

量子位智库:有人按照模型部署中重要程度将大模型人才划分成三类:大模型核心研发人才、工程/产品人才、大模型应用人才,您怎么看这种分类方式?

就算法人才而言,L1、L2、L3各自分别有负责通用大模型、行业大模型和偏场景应用的算法负责人。在这当中,最核心的是通用大模型的算法人员,因为其他的模型都是继承自L1的通用大模型。

就工程人才而言,与传统互联网岗位划分没有区别,包括前端、后端和测试人员。

就产品经理而言,L1通用大模型的产品经理的作用是横向支撑,L2和L3的产品经理要继承通用大模型的能力,并基于金融行业或其他行业训练出大模型以及上层应用。

量子位智库:L1到L4这几类人才,哪种是相对比较稀缺的?

李京梅:通用大模型核心研发人才是最为稀缺的。像我们创始人周明老师在微软时就接触过大模型、预训练这些技术,但这样的人才很少,Transformer技术是2017年才发布的,2017年后才陆续产生大模型研发人才。

L2层跟L1层的人在能力画像上差别不大,纯从技术层面,跟L1层的技术要求一样。但L2层因为行业和领域数据不同,需要业务场景,对L2层的人才的要求是训练出面向金融行业更好的模型。

L2人才基于内部协同和分工会有更多行业认知,比如对金融行业大模型做评测时,应该如何定义十项任务,除了L2技术人员,还有面向行业解决方案的产品经理,给出行业输入,L2的人才综合能力更强一些。

预训练环节是基于无监督学习,利用海量数据去训练,我们会使用AI框架技术,比如PyTorch,目前也出现了针对大模型训练优化的框架,比如DeepSpeed、Colossal-AI、阿里云内置的框架等,我们也都会使用。

对于多模态技术,澜舟科技更多是偏重文本,但是现在文生图、文生视频、文生语音技术也变得更可行,我们会在开源的图片模型基础上进行二次训练,针对客户想要的图片风格进行可控图片生成,提高生成效率。

我们的多模态技术是在开源模型基础上,通过文字与其他模态结合,从而实现应用场景落地。

量子位智库:在训练过程中,如何应用规模化技术呢?

李京梅:ChatGPT出来前,我们走的是轻量化,轻量化是指模型参数量比较小。截至2021年7月,我们大模型参数量达到10亿,效果就已经很好。我们目前在扩大参数量,推出7B和40B的模型,如果有客户需要我们训练更大参数量的模型,比如700亿、上千亿也是可以做到的。

更大规模参数的模型依赖的是资源,使用分布式技术,像一台机器一样高效训练几百、上千张英伟达显卡,这涉及整个算力、卡、机器之间的通讯效率等,都泛指规模化技术。从最开始的10亿参数量到现在的400亿参数量,我们的规模化技术已经相对成熟了。

量子位智库:对于中间件和工具链技术是如何应用的呢?

李京梅:有些客户除了有模型的购买需求还有掌握训练技术的需求,在数据基础上做Continue-Train,想自己做微调,我们会把工具链的技术对外输出。如果要实现模型流程闭环,必须是有这些工具的。

量子位智库:推理与部署环节技术是如何应用的呢?

量子位智库:孟子大模型经历了多次升级,不同的升级过程当中会更注重哪些环节?

量子位智库:在这些环节当中会注重去配置哪些能力、哪些专业素养的人才?

李京梅:我们原来做轻量化,现在做更大参数量的大模型,所以就引进了更多在大厂实操过、跑过工程闭环的人才,这类人才更多来自成熟的互联网产业。

今年企业对训练效率、推理效率的提升需求更加明显,如何利用好有限算力就成为关键问题。这体现在商业化定价上,比如调用API接口的定价,如果训练推理的成本高,在定价上就不具备优势。如何用更少的算力,带来同样的用户体验,这就是技术降本的关键。技术不过硬,就需要更多的显卡,成本就高。我觉得这是需要AI工程人才来解决的问题。

预训练技术的好坏在于模型效果如何,但效果好并不代表效率高。效率高就依赖于AI工程人才,这些人不一定特别懂算法,但懂AI工程,很多云平台厂商的工程人才自身不做算法,但是懂算法,他们之前为千万用户到平台上训练、合作、推理提供支撑服务,为了服务好用户,平台需要帮助用户降本提效。像阿里电商,腾讯游戏等自身业务非常庞大,用户并发量都很高,都用自有模型,自己训练好自己用,也会遇到无数挑战,实验室里人才在实践方面还有待提升,很难接触到实际挑战,所以当下AI工程人才是市场所需的。

量子位智库:相比实验室的人才,AI工程人才更稀缺吗?

李京梅:不能说AI工程人才更稀缺,还是要分阶段来看。各家企业在专注训练模型时,更倾向于选择算法人才来训练模型。等现在模型纷纷都已经训练出来,大模型企业期望对外提供服务时,团队就更需要AI工程人才。

也有不少大模型厂商选择绑定平台厂商,根据其提供的工具来进行训练,也就不需要引进实验室人才或工程人才,我觉得这是看各家的选择。

李京梅:人才的学术成果、实践经验、学历背景对于澜舟科技的大模型团队而言都很重要。

而且基于我们公司注重实践的定位,也看重实践经验丰富的人才,不管是合伙人还是VP都具备实操能力。同样,我们也十分重视专利。除了实践与研发,每年团队都产出几十个核心发明专利。

我们比较综合,不刻意补充纯学术研究的人才,研究也是依赖于实践,避免只做研究、只给客户服务的这些情况。

量子位智库:刚才提到的能力要素,哪些更重要?

李京梅:我觉得要分阶段,因为大模型技术迭代非常快,现在和6个月以前相比会有很大不同。6个月前,大模型基础研究成果更加重要。如今有很多开源大模型,只做底层核心大模型对于面向企业服务的技术厂商并没有那么重要,我们公司定位就是开源技术基础之上再做大模型预训练。我们立足企业服务,所以目前实践型人才占比较高。

大模型训练的效果的好坏通过两种方式来判断,一种是榜单评测,另一种就是客户的评测反馈。客户真正使用上行业模型至少要到明年,我们还是要以实践效果为导向。

量子位智库:您觉得市面上大模型人才的薪酬水平存在过高的情况吗?之后会有所回落吗?

量子位智库:澜舟科技会选择吸纳刚毕业的人才吗?

李京梅:其实这类人才我们大多会选择自己培养。这和我们基因背景有关系,周明老师2020年底从微软出来,到李开复老师创新工场孵化,会热衷于选拔实习生,一般是硕士、博士背景,很多实习一年多转为留用的人才。

量子位智库:我理解是让这些实习生成长为大模型研发人才,培养周期需要一年到两年左右。

李京梅:其实实习生工作半年左右,我们就能看出来是不是具备大模型研发人才的潜力。比如有一位博士在2021年毕业就加入了澜舟科技,他现在成长为能够带领几位师弟的研发leader人才。

现在新技术瞬息万变,具体需要多长的培养周期我觉得要看潜力,半年到一年就能达到大模型研发要求的人才其实很多,他们可以独立完成很多事情,比如说指令微调,强化学习,还有监督微调(SFT)等,悟性强的实习生很快能掌握,但训练中间还是需要有经验的员工check,导师会带一点。

目前阶段,大模型面向企业落地其实是不容易的,但和能力素质较高的年轻人对齐模型研发训练的认知还是很快的。

量子位智库:您怎么看待“大牛带小牛”这种培养形式?

量子位智库:澜舟科技吸纳的大模型人才大部分是在自然语言方向,有没有再细分一点的研究方向?

李京梅:也有,比如机器翻译,文本生成搜索这些研究领域的人才比较多。

量子位智库:您觉得目前的大模型能够做核心研发的人才大概是在什么规模?

李京梅:乐观点的话,国内做核心研发有几千人左右,OpenAI做核心能有几十人,投入已经是非常多的。中国大厂不超过10家,做核心大模型的也没有很多,创业公司就更少了。像王小川说100天招100人,也不是全部都研发大模型,所以几千人就已经很多了。

量子位智库:您觉得未来这些核心研发人才会越来越多吗?

量子位智库:您说的这些潜在人才我们看作是大模型的储备人才,那您认为大模型核心研发人才未来会成指数级增长吗?

李京梅:我觉得不至于成指数量级增长,从我的角度来看,能做这件事的团队少而且需求在变少。以Meta的LLama2开源以后,大模型作为基座来讲已经遍地开花了,未来会出现几个巨头。国内外的很多企业也都是站在OpenAI开源的成果上,所以其实做最底层的技术人员,全球范围内的人数都不多。所以我觉得大模型核心研发人员,可能没有之前想象的需要那么顶尖的人才,如今“百模”出现,就表明大模型的基础能力已开始趋同,现在投入大模型的人才不是大家想象说的那么顶尖,必须要OpenAI、Google、Meta出的大模型,可能就会更多围绕上层行业应用去落地。

量子位智库:您认为目前大模型人才的发展阶段是处于刚刚起步、高速发展,还是相对成熟的阶段呢?

量子位智库:您觉得迈向下一个阶段的标志性事件是什么呢?

量子位智库:关于大模型人才的分布,您觉得哪些地方是比较密集的?

量子位智库:您觉得国内目前的这种培养模式可以从哪些方面进行提升?

李京梅:加强校企合作是很好的培养人才的方式,这种方式培养出来的人才在毕业时就有工程实践的积累。因为高校人才擅长做学术研究、写论文,但他们没有场景也缺乏数据。所以校企联合可以发挥自身优势,高校人才将自己的研究和实际场景结合会更有益,研究出成果也能继续发论文,对企业来说也能形成前瞻技术的沉淀。

当前一直在讨论产、学、研联动,其实现在很多企业和高校也在做这种合作,澜舟科技也和金融机构成立金融NLP联合实验室。目前适合国内的培养模式,更可能是应用和基础研究紧密结合这种方式。

量子位智库:除了实践型人才,您认为未来什么类型的大模型人才更受企业的青睐?

李京梅:我觉得是跨界人才。比如面向金融领域的大模型,就需要懂金融和大模型的人才。比如AIforscience,需要既懂制药又懂AI的人才。未来大模型往产业落地,跨界人才是非常吃香的,至于是从科学家里培养AI人才,还是从AI人才里培养懂业务的人才主要是看大家的选择。

—完—

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名

THE END
1.从算法到模型:走出“技术中立”的话语误区澎湃号·政务在网络文艺中,算法能够决定用户所看到的内容,这在一定程度上塑造用户的审美趣味和文化消费习惯。在此基础上,算法可能放大或掩盖某些审美趣味、情感倾向、艺术类型或主题内容,影响用户的文化消费选择,而过度沉迷和“信息茧房”等负面作用也随之产生。批评者将这些后果归因于算法。但与此同时,还存在一种截然对立的观点。https://www.thepaper.cn/newsDetail_forward_29641793
2.智能革命人工智能三大算法与未来世界的变革机器人学与自动化时代背景下的挑战与机会 随着人工智能三大算法在各行各业得到广泛应用,我们迎来了一个全新的时代——机器人的崛起。这些先进的人造生命体可以执行各种复杂任务,如医疗诊断、制造业生产线管理甚至是家庭服务工作。然而,这也带来了对隐私保护、就业市场变化以及伦理问题等方面提出了新的挑战,同时为创造性https://www.ykngnhhi.cn/xing-ye-zi-xun/539821.html
3.算法带有偏见需关注公平性与多元化值得一提的是,乔恩·克莱因伯格在今年9月被授予2024世界顶尖科学家协会奖,以表彰他在计算机科学与社会科学交叉领域作出的开创性贡献,包括他在社会网络和算法公平性领域发挥的智识领导力。 2024年诺贝尔三大科学奖项中,物理学奖和化学奖都与人工智能研究相关。对此,乔恩·克莱因伯格表示,算法和AI系统之所以强大,是因为它https://rmydb.cnii.com.cn/html/2024/20241219/20241219_003/20241219_003_02_1272.html
4.数据算法和算力:人工智能时代的三要素工业互联网观察智能时代的三要素: 数据、算法和算力 近几年,人工智能技术和应用飞速发展,在我们生活和工作中都得到大量的普及应用,归功于推动人工智能发展的三大要素:数据、算法和算力。这三个要素缺一不可,相互促进、相互支撑,是智能技术创造价值和取得成功的必备条件。 https://www.shangyexinzhi.com/article/10565456.html
5.《繁花》时代的生意经:算法不同,人各有志(繁花)剧评之前说会给《繁花》出第二篇剧评,有朋友说,这部剧的商战有些儿戏。我的想法也正是如此,虽然商战有无数经典现实案例作为原型,但其中的bug确实也很明显。不过即便如此,我也认为《繁花》的商场逻辑、职场思维、人物塑造、时代追忆等亮点值得一聊。我并不认为这是王家卫最优秀的影视作品,但我愿称之为“王家卫转型经典https://movie.douban.com/review/15696123/
6.中国已进入财富6.0时代,很多人思维还停在1.0阶段(深度)商业6.0时代 思维——算法 这两年最火的平台当属抖音和今日头条了,它们的出现彻底颠覆了BAT的传统互联网格局,那么它们的核心优势是什么呢? 答案是两个字:算法。这两个平台有一套非常高明算法推荐机制,它们能根据你的阅读习惯识别你的标签,算出你内心深处的癖好,你越喜欢什么,就疯狂给你推送什么,这也叫Ai推送(人http://www.360doc.com/content/24/0403/06/78825344_1119276621.shtml
7.从数据来源数据生态数据技术数加平台等方面,漫谈阿里大数据目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象。我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的。 目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个https://www.51cto.com/article/516406.html
8.「什么是nlp算法工程师」智灵时代2024年nlp算法工程师岗位职责深圳市智灵时代科技有限公司于2016年在深圳前海注册成立,注册资本金1亿元人民币,目前已于广州、北京、上海成立分公司。公司是专注于场景化AI应用赋能科技金融的人工智能公司,具有全场景的服务资质与能力。 智灵时代以技术为导向,深耕于金融领域,以银行、保险、持牌消费金融公司为目标客群,打造了从AI智能外呼机器人、智能https://www.zhipin.com/job_detail/f5a68a9de92c44a41nZy2t67GVBQ.html
9.什么是算法?什么又是模型呢?什么又是大模型呢?大模型算法L1级别:AI大模型时代的华丽登场 L2级别:AI大模型API应用开发工程 L3级别:大模型应用架构进阶实践 L4级别:大模型微调与私有化部署 一般掌握到第四个级别,市场上大多数岗位都是可以胜任,但要还不是天花板,天花板级别要求更加严格,对于算法和实战是非常苛刻的。建议普通人掌握到L4级别即可。 https://blog.csdn.net/EnjoyEDU/article/details/140543619
10.深度长文人工智能过去60年沉浮史,未来60年将彻底改变人类IBM正在转型为一家认知计算公司,其背后的大逻辑是全球正在进入一个算法经济时代。自去年以来,Gartner就在多份报告中强调,算法连通了人、事物、业务及信息,将创造全新的商业价值。在未来,算法将成为企业的核心资产,代替企业把大数据转化为商业洞察、自动化业务流程以及差异化产品与服务。一句话,算法将统治世界。 https://www.iyiou.com/news/2018022766899
11.兵马未动数据先行——大数据让未来战争步入“精算时代”在未来战场上,漠视数据就是漠视生命,克劳塞维茨所谓的“战争迷雾”在科技之光的映照下,必将极大地趋向弥散化,作战较量进入相对透明的“精算时代”,乃智能化战争的大势所趋。如何看待大数据的问题,就是如何看待未来战争的问题,军事领域的数据之争,绝不仅仅是作战资源之争,更是作战方法之争,作战理念之争。https://tech.gmw.cn/mil/2018-01/06/content_27282511.htm
12.人工智能设计时代,设计师该如何自我进化?优设网新时代的技术学习,旧时代的匠人精神。 平面印刷时代要成就大师级作品没有完全不懂 Pantone,凹版凸版,柯式印刷等专业技术。同样,智能时代想提升专业水平,上一些入门概念的课,了解机器学习,神经网络算法,置信度原理。 △图8:例如Google的机器学习,吴恩达的公开课,学习入门的原理和关键词 https://www.uisdc.com/designer-evolution-in-the-era-of-ai
13.网络时代,应如何规范“算法”很多人都有过这样的经历:浏览一些网络APP,如果你曾打开一条关于健身的消息,之后经常会收到各种关于健身知识、健身产品的 广告推送……随着信息技术的迅猛发展、大数据应用的兴起,算法推荐带来的信息定制化、资讯分众化已经得到较广泛应用。 算法推荐满足了人们多元化、个性化的信息需求。通过定制化、智能化的信息传播机制,https://www.hi.jcy.gov.cn/Wap/WModule/M001/wap_view.aspx?i=433896
14.解构《东方Project》的IP化(初稿)机核GCORES4.后算法时代的东方(2020-) “东方是田园时代的东方,就像小农经济一样不可能回去了,那个时代已经死掉了,它目前的日益衰败证明了哪一代人青春的落幕,已经不需要那个模式了···原神会让我们迎接一场游戏社区的工业革命,它的进步显而易见,可能也有一些不那么如人意的部分,但既然老模式已经走不通,东方社区的前https://www.gcores.com/articles/178391
15.菜鸟网络算法专家朱礼君:物流优化问题在大数据时代被赋予新的意义菜鸟网络高级算法专家朱礼君在CCF-GAIR 2017大会上发表了演讲,主题是“大数据时代的物流优化问题”,主要讲解菜鸟网络当中的物流发展情况。朱礼君毕业于美国马里兰大学,获得物理学博士学位,先后就职于Goldman Sachs、亚马逊、Facebook等公司,于2014年回国加入阿里巴巴,领导菜鸟网络仓配供应链的算法团队。 https://www.leiphone.com/category/industrynews/X5OwMSiXHQgGqYPo.html