LinkedIn高级分析师王益:大数据时代的理想主义和现实主义图灵访谈

“再想想既然中学时能自学大学课程,当下好歹也该试着突破一下困境吧。于是从高中数学课本开始看,一直看到机器学习专业的教材。”

我看别人编程很早。自己动手是在小学五年级,那时候爸爸买了一台中华学习机,也就是中科院对AppleII的克隆。长大之后才听说当时台湾宏碁电脑公司也克隆了AppleII,取名叫“小教授”。当时我的四叔有一台“笔记本”电脑,没有显示器,但是集成了一个肥皂盒那么大的打印机——每输入一行指令,就在纸带上打印出来。这些都让我好奇和着迷。

我迷恋编程是从初三毕业后的那个暑假:用6502汇编语言和BASIC语言混合写了一个在电视上显示的“打猎”游戏。其实那时候386都已经大行其道了,而家里的电脑一直没有更新。主要原因是妈妈担心我用电脑玩游戏。高一的寒假,在邻居易金务伯伯(国防科技大学人文与社会科学学院教授)劝说下,爸妈给我买了一台486。

其实体会过编程的乐趣的人,不容易沉迷于游戏——因为前者是人设计规则,让机器照着做;后者是人跟着机器的规则动,有点儿像围栏里的牛一样——当然是前者更有意思。我从高一开始接触和自学C++语言。在高中阶段经常逃课,跑回家写程序。好几位老师很担心,多次来家访。我也很惭愧,但是抵不住编程的诱惑。

我高二的时候自学完了计算机本科专业课程,通过了“程序员”和“高级程序员”认证考试。这个经历锻炼了我的自学能力,培养了自信,逐渐摆脱了“不如邻居家孩子成绩好”的心理压力。

我在国防科技大学读的本科,计算机专业。这里是银河和天河系列超级计算机的家——每一代机器都是当时的世界顶级水平;最近一次是2013年6月天河2号夺魁世界第一超级计算机。新生入校的思想教育就是参观这些机器,绝对让人振奋。

这里有我的恩师李思昆教授——三界“银河功臣”、文职一级(相当于武职的中将)。国防科大有一个“优异生”制度——选择基础好的本科生当研究生培养。我从大二开始成为优异生,进了教研室跟李老师学习计算机图形学(computergraphics)。这比初中时那个“打猎”游戏有意思多了。当时我开发了一个浏览器插件,可以在网页里嵌入可编程的三维图形效果,并且可编程可配置性比当时各种VRML插件更高。可惜当时不知道怎么产业化,要不然说不定可以和后来人尽皆知的可编程二维图形技术Flash较量一下。

因为中学时已经自学了本科专业课程,所以那时我经常借口“教研室有任务”逃课,一天到晚泡在实验室里写程序。长沙夏天的傍晚常有暴雨。有一次我专注编程没关窗,直到飘进来的雨点把屏幕和眼镜都打湿到看不清了,才意识到。

国防科大是一所军校,体育课都是军体项目:投手榴弹、5000米跑、三级跳、单双杠三动作到六动作。我小时候体弱多病,一开始不适应。我的同学们给了我很多帮助,后来还把我拉进了我们学员队的排球队做候补。我们学员队长陈传宝(江湖人称“宝哥”)是八一体工队的专业运动员,也给了我很多鼓励。感谢他们帮我养成了锻炼身体的习惯。现在公司和家之间有一条bikingtrail,我经常下午抽一个小时在上面跑8公里;另外每天骑自行车上下班,往返共一个小时。

香港的大学的发展历程更像欧美大学,大陆大学的建设深受苏联影响,这是主要区别。前人之述备矣。对我个人而言,清华百年老校,有温和敦厚的长者气质;城大始建于上世纪80年代,有青春活泼的氛围。这可以从我的一段经历讲起:

我从小数学不好。在计算机领域选了图形学,是因为我以为这里数学简单。我的博士导师周立柱老师是数据库方面的专家,但是他“因材施教”,推荐我去微软亚洲研究院图形学组实习。但是和研究院汇聚的全国高校精英同学们比起来,我脑子反应慢,研究工作做的不够好,所以跟周老师又要了一个去城市大学学“有道理的”机器学习的机会。不料去了以后才发现身边的同学都是数学“童子功”,他们嘴里蹦出来的词儿我都闻所未闻。午饭时大家顺便聊点儿科学问题,我完全听不懂。于是陷入深深的自卑感里了,没有勇气面对困难,每天混吃等死。

可是认输又觉得对不起周老师给的那么多研究机会。再想想既然中学时能自学大学课程,当下好歹也该试着突破一下困境吧。于是从高中数学课本开始看,一直看到机器学习专业的教材。然后能看懂论文,了解最新的研究成果。随后自己找了一个把机器学习和图形学结合起来的研究方向——用多个摄像头采集人的动作,让机器学习这些动作数据,从而能自动合成三维动画。全力投入一年半之后,我重新自学了数学课,而且在这个方向上发表了10篇论文。虽然今天完全看不上当时论文的水平了,但是刘老师很高兴邀我二进香港。

周刘二位导师,一位温和敦厚,让我广泛涉猎,一位刚毅决断,激发我的潜力。他们并不替我选题和指导我在顶级会议和期刊上发表论文,而是锻炼了我给自己出题的能力。这对一个博士生来说比解题更重要。我对他们敬佩和感激终身不忘。

香港的经历勾起了我对数学和机器学习的兴趣。于是我主动推迟一年毕业,学习机器学习的主要应用——数据挖掘。数据挖掘得有数据;IBM是老牌大厂,数据应该积累丰厚,于是我投奔了清华的一位师姐刘世霞,去做实习。在IBM发表的论文,将就能让我毕业后腆着脸去敲Google的门。

但是真正值得挖掘的数据不在IBM和微软这样的软件和咨询公司,而是在互联网行业。让我意识到这一点的是我的一位师兄郭奇。他对学术研究兴趣不大,在搜狗兼职,而且兼得很凶——是搜狗输入法的首创者,也是当时搜狗搜索引擎工程架构的负责人。“输入法的语言模型训练不就是从大家的输入中总结人类语言的规律吗?”这句话引导了我后来的工作方向——从大众行为数据中归纳人类智能。在郭奇启发了我6年之后,出现了一个热词“大数据”。

“在大数据时代,先得成为出色的工程师,才能成为了不起的研究员。”

Google在亚太地区就一个研究团队,全职做研究的就两个人——张栋和我。张栋后来去百度,随后创业。他的故事很多人都了解了。当时我们俩各自做一些研究。最终获奖的是团队成果的集合。这个团队除了我们俩,还有好几位加州大学、清华、北大、MIT、浙大的实习生,以及几位非常出色的Google工程师。我负责的一项主要工作是主体模型的分布式机器学习技术。这个研究是张栋做起来的。他换了研究方向后,我换了一种技术思路接着做。这一做就是7年,跨越了我在Google和腾讯的职业历程,也影响到我目前的工作。

要说收获的话,有两点体会:(1)各种互联网服务收集了大量用户行为数据,这些大数据都是长尾分布的;但是研究领域总体仍然专注在基于指数分布构造的机器学习模型。这样的模型计算方便,但忽视了数据中长尾的部分,也就忽视了大数据中最重要的部分。(2)每一种有价值的算法,都值得拥有独到的并行计算架构。做分布式机器学习的人不可迷信特定框架,比如MapReduce、MPI或者Spark,不要试图套用这些架构来描述各种算法,而要有能力开发自己算法适用的框架。在大数据时代,先得成为出色的工程师,才能成为了不起的研究员。

这些可能都算是比较新鲜的想法,不一定大家都认同,但是没关系,我把我亲身经历的很多大数据研究工作,简要描述在《分布式机器学习的故事》这一系列博客里了。读者自有体会。

在研究之外,我的很多工作在四处出差,把研究成果应用到产品里。为此我拜访过Google分布在全球很多地方的产品团队。俗话说“是骡子是马,拉出来溜溜”。去了之后,先拿产品数据做出实际效果,给产品团队展示之后,才有机会说服他们使用。这样的工作,也是我们获奖的一个原因。

直接原因是我第一份工作在Google,Google是一个工程师文化极强的公司——这里的老牌研究员个个都是顶级工程师。而搜索引擎这样的产品的用户体验主要是技术水平决定的。Google因为有最强大的并行计算技术,所以能索引全球网页和支持精准匹配,所以用户体验第一。对技术水平的孜孜以求,不仅弱化了传统产品经理的角色,也模糊了工程师和研究员的界限——每一个追求技术突破的工程师,都自然会去读论文,追踪技术前沿,也就成了研究员。那么研究员也就别自高自大地指望自己设计了算法交给工程师去实现了。因为这个原因,Google里虽然有研究员,但是没有研究院,而且研究员的考核成绩与论文专利没有关系,主要看对产品的贡献。

Google让我见识和实践了世界一流的大数据技术,腾讯给了我了解互联网业务的机会。这是两家很伟大的公司。

最初的想法在Google工作时形成。走的时候,学术界正在研究很火的LDA模型(和Rephil的模型不同);并行化方法是MapReduce,这是Google里最有名的并行化框架。后来发下MapReduce在计算任务安排和分布式文件系统I/O上耗时比实际计算可能还要多,于是尝试使用传统的MPI。但是MPI不能很好地支持自动错误恢复。于是又改用GooglePregel。Pregel基于一种称为BSP的并行化思路,几乎和MPI一样久远。BSP虽然考虑了容错,但是容错需要cache所有进程的通信记录,往往导致内存不够。从这时起,我渐渐意识到通用的并行计算框架,很难满足主题模型的需要。同时,我也注意到Google里很多成功的大规模机器学习系统都用自己独特的并行计算框架。

2012年的国庆假期,我用Go语言写了一个尝试性版本。叫尝试性,是因为这次我换了模型。新的模型基于一种叫hierarchicalDirichletprocess(HDP)的数学方法。有此考虑是因为之前的研究经验让我意识到LDA和其他很多主体模型(包括pLSA、RBM、NMF、SVD等)都不能描述长尾数据,而是专注于从高频数据中归纳语义,得到的自然是“主流”语义。可是互联网的精髓在于服务用户的“长尾”需求。LDA即便并行化做得很成功,能归纳很多语义,但是去掉重复语义之后,结果往往就几百个主流语义。Rephil的模型可以近似描述长尾,但是复制就成了抄袭。HDP也能描述长尾,但是并行计算非常复杂,很难通过减少进程间的交互,切断数据依赖。而切断数据依赖是大规模并行计算的基础。所以我们对HDP做了修改,让它计算起来像LDA那么简单。此外,对并行计算方法也做了很大的改进。Go语言的开发效率比C++和Java都高很多,让我能在七天假期里尝试新模型和新的并行化方法。尝试结果从实验效果上看很有潜力,于是我决定开始真正开发一个大规模系统。

春节前有一次聚会,席间我回顾了这段经历。在座的百度的余凯老师表示理解,总结说:“今日中国是极端的理想主义和极端的现实主义的结合”。我甚感共鸣,其实古往今来莫非如此。

因为我一直在公司里工作,研究都是冲着产品和实用做的。在Google工作的时候,除了自己努力往GoogleOrkut、生活搜索、音乐搜索等产品里推广,同时也有其他产品(Reader、News)的同事主动尝试。此外,有些结果在开源届有应用。比如北大的实习生李浩源主导的一个分布式频繁项目挖掘的工作,后来被ApacheMahout系统采用。我和工程师白红杰开源的pLDA项目也有很多用户。后来几位实习生同学进一步改进,成了pLDA+。pLDA和pLDA+一共被200多项后来的工作引用。

“因为大家都敢于创业,所以避免了寡头垄断;而不是因为没有寡头垄断,所以更容易创业成功。”

现代互联网企业之间有很多交流和学习,在管理经验和机制上其实大同小异。当年Google中国的同事在能力上和美国的同事没有什么区别;腾讯同事的技术水平也和LinkedIn的同事没有什么区别。如果说有差异,更多是在文化上的。

在国内,人多资源少。几百年来中国的文化就强调竞争,流传下来的口号也很多,比如“吃得苦中苦,方为人上人”。为什么要做“人上人”呢?很大程度上是为了多吃多占吧。当代的中国孩子也是从小就被迫和邻居家孩子比成绩。长大之后,习惯性地和同事比较年终奖、晋级晋等。可是太过计较小节,就容易忽视了大方向。而且自己人之间的恶性竞争,削弱民族凝聚力。

资源竞争也体现在高额的房价上。房价束缚了很多年轻人——为了攒钱首付,为了能稳定的还贷,在工作中谨小慎微,不敢直言直谏,接受很多苟且和无奈,放弃了成就业务和完备自己的机会。这和二战后的日本以及我出差时见到的今日印度很像。

在美国,地多人少。即使在硅谷,由于最近几年大量中国和印度移民涌入,房价提升。但是换算到每平米单价,仍然在北京上海广州深圳之下很多。再加上平均工资水平相对较高,在这里留学和工作的年轻人买房时是不需要老父母帮助凑首付的。在国内普遍三十年还贷,在这里一般是十年之内。

在资源竞争相对宽松的环境下,西方的教育也相对宽松。强调人格的培养,而不是知识的灌输。中国有句古话“宰相肚里能撑船”,就是有多大胸怀做多大事业的意思。相对宽松的环境,给人更大的挥洒空间,从而不计小节,就像平生慷慨的班都护和万里间关的马伏波——他们自己以及我们这些后人恐怕都不在意他们是行政干部几级。我理解这是硅谷里很多人有更大的胆魄创业的重要原因——因为大家都敢于创业,所以避免了寡头垄断;而不是因为没有寡头垄断,所以更容易创业成功。

我更愿意做我喜欢做的事。如果这件事需要做技术,那就做技术;如果需要做管理,就做管理;如果需要二者兼顾,那么就累一点儿,奋力兼顾一下。

在国内的科技行业,尤其是大公司,有一种说法“三十岁之后就干不动技术了,要尽早转管理”。其实我也见过很多很早转管理,技术上不再长进,丧失了技术行业的核心竞争力,从而不得不留在大公司混派系的例子。

另一方面,我的同龄人里有很多很出色的榜样。比如最近在硅谷认识的一位朋友杨文杰——上海交大数学系本科。读书期间就创业。毕业后,为了进一步开拓视野,先后在J.P.Morgan(香港)和SummitPartners(美国)工作。一边工作一边在斯坦福读MBA以了解美国环境。做了多年准备后,现在又离开大公司在硅谷创业,用人工智能技术支持商业拓展。他这样在数学、计算机、金融、投资、管理等多个方面努力学习、融会贯通,功底是和扎实的。而为了做到这些,他每天的体能训练也很扎实。并且为了保持精神状态,每天洗冷水澡。

另一位在Google认识的大哥王欣宇,在总结自己的职业发展时有一个四字口诀“募投管退”——他选择的职业发展路线,使得他在募集资金、选择投资业务、管理团队、和公司上市四个方面都有锻炼。

我见到不少朋友给自己打个标签:技术人员或者管理人员,甚至区分工程师和研究员。其实这些标签往往是一种束缚,而人的本性其实是追寻自由成长的空间的。

我接触过的编程语言不少,因为对语言很好奇。随意数数至少包括BASIC、LOGO、6502汇编、Fortran、Pascal、C、C++、80386保护模式汇编、COBOL、Tcl、Awk、Javascript、C#、LaTeX、Maxima、Maya、EmacsLisp、Scheme、CommonLisp、Erlang、RadeonGPU汇编、Cg、Java、Python、Haskell、Objective-C、Go。其中对我影响最大的是Lisp,是我的同学王垠教我的,让我接触了一点计算的数学本质。在微软图形学组实习时学了GPU的汇编语言,后来用GPU写并行机器学习算法的时候用过Cg。我工作中用的语言主要是C++。从写Peacock开始用Go。简单的分布式数据处理用bash+ssh+awk代替MapReduce。

我很珍惜我的同事们,他们给了我很多帮助和提示;但没有刻意选择加入大牌公司。毕竟如吴军在《浪潮之巅》里说的,闪耀的牌子都在一波波的浪潮中过去了——今天毕业入行的人记得Sun的不多了,知道DEC的基本没有。

我在择业时也有很多茫然不决的时候。但是我有个好榜样,是原来Hulu.com的engineeringVP张小沛。她对择业的建议很简练:“最重要的是知道自己要的是什么”。

对话国外知名技术作者,讲述国内码农精彩人生。你听得见他们,他们也听得见你。

THE END
1.2024最全大数据学习路线(建议收藏)注意:在这个阶段,Scala 语言可以先不学,可以在学习 Spark 之前学习! 数据结构与算法:强烈推荐左神的视频,他讲的内容基本上和企业面试相关,通俗易懂。我当时看的是一个在牛客网上讲视频:其中包括算法初级和进阶。在听这个视频前,最好去了解下基本的数据结构!可以从下面百度网盘中获取视频资料和课件!看完视频后,具https://blog.csdn.net/2401_84181801/article/details/138851968
2.从零开始学大数据15让你一看就懂的数据挖掘四大经典算法上一讲,我们从流程上介绍了数据挖掘,而在整个数据挖掘实施的流程中,数据挖掘算法可能是我们的算法工程师最关注的环节。在常见的数据挖掘过程中,通常会用到什么类型的算法,不同的算法又应对什么样的问题?在实际工作中遇到的问题,该如何转化成算法可解决的问题呢?带着这些疑问,让我们开始这节课吧。 数据挖掘算法有什https://zhuanlan.zhihu.com/p/550336239
3.最全解析:大数据和机器学习有什么区别小码哥0520大数据的核心是利用数据的价值,机器学习是利用数据价值的关键技术,对于大数据而言,机器学习是不可或缺的。相反,对于机器学习而言,越多的数据会越 可能提升模型的精确性,同时,复杂的机器学习算法的计算时间也迫切需要分布式计算与内存计算这样的关键技术。因此,机器学习的兴盛也离不开大数据的帮助。 大数据与机器学习两者https://www.cnblogs.com/kylinsblog/p/7760256.html
4.经验之谈:零基础学大数据算法怎么学?六年码农告诉大家,零基础学大数据算法怎么学?零基础学大数据算法怎么学?现在学习大数据的人越来越多,如果你有编程基础,自学也是可以的。但如果你是零基础的学员,建议跟着专业老师进行系统学习,能够更快的掌握专业知识,具备足够的能力,那选择报班的帮助作用会更大。机构有专业的老师,有系统的课程安排,学起来要https://baijiahao.baidu.com/s?id=1782011330946569097&wfr=spider&for=pc
5.不懂这25个名词,好意思说你懂大数据?本文先介绍了25 个基本大数据术语,帮助你温故知新,那么开始吧~ 01 算法(Algorithm) 算法可以理解成一种数学公式或用于进行数据分析的统计学过程。那么,「算法」又是何以与大数据扯上关系的呢?要知道,尽管算法这个词是一个统称,但是在这个流行大数据分析的时代,算法也经常被提及且变得越发流行。 https://gxq.guiyang.gov.cn/zjgxq/zjgxqxyzs/zjgxqxyzsdsjqy/201710/t20171013_17120534.html
6.量子计算应对大数据挑战:中国科大首次实现量子机器学习算法中国科学技术大学潘建伟教授及其同事陆朝阳、刘乃乐等组成的研究团队在国际上首次实现量子机器学习算法。日前,国际权威物理学期刊《物理评论快报》发表了这一论文[Phys. Rev. Lett. 114, 11050https://news.ustc.edu.cn/info/1055/56642.htm
7.观点有一种说法,算法工程师的薪酬只有三档(附大数据工程师本文从当前炙手可热的算法工程师就业开始讲起,详细的和朋友们探讨一下,普通程序员如何转型成为算法工程师? 先谈钱。 有一种说法,算法工程师薪酬区间基本就是三挡: 薪酬范围人才背景能力特征 15~30W科班毕业的数学系硕士研究生或有ACM铜奖以上熟悉通用的模型,知道如何用合适的模型去做数据 https://blog.itpub.net/69903766/viewspace-2286314/
8.人工智能的深度学习算法建立在大数据的基础上目前人工智能的深度学习算法是建立在大数据的基础上的,人工智能在工作过程中首先要对大数据进行挖掘,然后再利用大数据训练人工智能模型。 对于图片数据来说,这一工作说起来好像很简单,但实际上整个工作过程并不智能,这背后隐藏着一个赚钱十分辛苦而且工作内容非常枯燥的劳动密集型的产业。 https://m.hqew.com/tech/fangan_2009016
9.大数据学习心得(通用16篇)10月23日至11月3日,我有幸参加了管理信息部主办的“20xx年大数据分析培训班”,不但重新回顾了大学时学习的统计学知识,还初学了Python、SQL和SAS等大数据分析工具,了解了农业银行大数据平台和数据挖掘平台,学习了逻辑回归、决策树和时间序列等算法,亲身感受了大数据的魅力。两周的时间,既充实、又短暂,即是对大数据知识https://www.ruiwen.com/xuexixinde/5805944.html
10.科学网—[转载]联邦学习算法综述关键词:联邦学习;算法优化;大数据;数据隐私 论文引用格式: 王健宗,孔令炜,黄章成, 等. 联邦学习算法综述[J]. 大数据, 2020, 6(6): 64-82. WANG J Z, KONG L W, HUANG Z C, et al. Research review of federated learning algorithms[J]. Big Data Research, 2020, 6(6): 64-82. https://blog.sciencenet.cn/blog-3472670-1280769.html
11.新手学大数据技术,可以按照什么样的流程来学习?很多人了解到大数据发展的前景和空间很好,适合发展自己的职业生涯,那么零基础的新手想转行学习大数据,可以按照什么样的流程来安排学习呢? 1、首先,0基础入门大数据,先从一门编程语言入手。如果你想往大数据开发方向走,学习Java,想学数据分析或者数据挖掘,那就选Python。 https://cloud.tencent.com/developer/news/596827
12.机密计算差分隐私全搞清楚了!亿信华辰同态加密是一种允许在加密之后的密文上直接进行计算,且计算结果解密后和明文的计算结果一致的加密算法。 这个特性属性对于保护信息的安全具有重要意义,利用同态加密技术可以先对多个密文进行计算之后再解密,不必对每一个密文解密而花费高昂的计算代价;利用同态加密技术可以实现无密钥方对密文的计算,密文计算无须经过密钥方https://www.esensoft.com/industry-news/dx-5995.html
13.大数据常用分聚类算法区别大数据聚类分析方法大数据常用分聚类算法区别 大数据聚类分析方法 1.聚类的基本有关概念 聚类分析:将物理或抽象对象的集合分成相似的对象类的过程称为聚类。 簇:数据对象的集合,对象与同一簇中的对象批次相似,而与其他簇中的对象相异。 无监督学习:没有事先定义好的类 典型应用:①作为获得数据集中数据分布的工具②作为其他数据挖掘https://blog.51cto.com/u_16099196/10583387
14.大数据&人工智能学习总结(一)·学习地图虽然在理论研究上没进展,但是自从有了大数据和规模运算能力之后,就对人工智能有了更具体的应用上的诉求:如何用机器对数据进行识别、提取和分析?对应到的技术就是人工智能中的一个分支叫“机器学习”,即从数据中习得学习算法,进而解决实际的应用问题。 认知4:机器学习是怎么工作的 https://www.jianshu.com/p/a77951458d43
15.深度学习高手笔记卷1:基础算法本书通过扎实、详细的内容和清晰的结构,从算法理论、算法源码、实验结果等方面对深度学习算法进行分析和介绍。本书共三篇,第一篇主要介绍深度学习在计算机视觉方向的一些卷积神经网络,从基础骨干网络、轻量级 CNN、模型架构搜索 3 个方向展开,介绍计算机视觉方向的里程碑算法;第二篇主要介绍深度学习在自然语言处理方向的https://www.epubit.com/bookDetails?id=UB7d8623610d375
16.零基础学大数据算法高清pdf完整版[98MB]电子书下载零基础学算法下载 投诉报错 书籍大小:98.2MB 书籍语言:简体中文 书籍类型:国产软件 书籍授权:免费软件 书籍类别:其它相关 应用平台:Windows平台 更新时间:2019-08-30 购买链接:京东异步社区 网友评分: 360通过腾讯通过金山通过 98.2MB 详情介绍 《零基础学大数据算法》是通俗易懂的大数据算法教程。通篇采用师生对话的https://www.jb51.net/books/690828.html
17.大数据分析建模有哪些算法帆软数字化转型知识库大数据分析建模有多种算法,包括决策树算法、支持向量机(SVM)算法、随机森林算法、K-means聚类算法、线性回归算法、逻辑回归算法、神经网络算法和贝叶斯分类算法。其中,决策树算法是一种使用树状模型对数据进行分类和回归的方法。决策树算法通过递归地将数据集分成更小的子集,同时相应地构建树结构,使其能够对未知数据进行https://www.fanruan.com/blog/article/71906/
18.干货一文读懂工业大数据的算法与模型基本知识与应用工业大数据分析面对的数据不仅包括传统统计学中的结构化数据,也包括非结构化和异型数据。 传统的统计学方法在对大规模数据进行处理时的效率较低,因此神经网络和遗传算法等机器学习和人工智能算法是工业大数据经常采用的方法。 常见算法及分类介绍 01.预测算法 https://www.evget.com/doclib/s/14/10645
19.cv算法工程师和大数据工程师有什么区别3、负责虚拟数字人驱动相关算法的研发工作,包括但不限于视频生成(动作、表情、口型)对话机器人等方向; 4、基于图形学,深度学习等技术进行模型训练以及性能优化,将前沿算法理论转换为原型并落地产品,达成业界竞争力目标。 职位要求: 1、计算机、数学、统计学或相关专业,有数字人直播方向的项目研究方向优先; 2、https://www.jobui.com/gangwei/pk/cvsuanfagongchengshi-dashujugongchengshi/
20.大数据处理的五大关键技术及其应用——CDA人工智能学院数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。 预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。 https://bbs.pinggu.org/jg/kaoyankaobo_kaoyan_8513784_1.html