LinkedIn高级分析师王益:大数据时代的理想主义和现实主义图灵访谈

“再想想既然中学时能自学大学课程,当下好歹也该试着突破一下困境吧。于是从高中数学课本开始看,一直看到机器学习专业的教材。”

我看别人编程很早。自己动手是在小学五年级,那时候爸爸买了一台中华学习机,也就是中科院对AppleII的克隆。长大之后才听说当时台湾宏碁电脑公司也克隆了AppleII,取名叫“小教授”。当时我的四叔有一台“笔记本”电脑,没有显示器,但是集成了一个肥皂盒那么大的打印机——每输入一行指令,就在纸带上打印出来。这些都让我好奇和着迷。

我迷恋编程是从初三毕业后的那个暑假:用6502汇编语言和BASIC语言混合写了一个在电视上显示的“打猎”游戏。其实那时候386都已经大行其道了,而家里的电脑一直没有更新。主要原因是妈妈担心我用电脑玩游戏。高一的寒假,在邻居易金务伯伯(国防科技大学人文与社会科学学院教授)劝说下,爸妈给我买了一台486。

其实体会过编程的乐趣的人,不容易沉迷于游戏——因为前者是人设计规则,让机器照着做;后者是人跟着机器的规则动,有点儿像围栏里的牛一样——当然是前者更有意思。我从高一开始接触和自学C++语言。在高中阶段经常逃课,跑回家写程序。好几位老师很担心,多次来家访。我也很惭愧,但是抵不住编程的诱惑。

我高二的时候自学完了计算机本科专业课程,通过了“程序员”和“高级程序员”认证考试。这个经历锻炼了我的自学能力,培养了自信,逐渐摆脱了“不如邻居家孩子成绩好”的心理压力。

我在国防科技大学读的本科,计算机专业。这里是银河和天河系列超级计算机的家——每一代机器都是当时的世界顶级水平;最近一次是2013年6月天河2号夺魁世界第一超级计算机。新生入校的思想教育就是参观这些机器,绝对让人振奋。

这里有我的恩师李思昆教授——三界“银河功臣”、文职一级(相当于武职的中将)。国防科大有一个“优异生”制度——选择基础好的本科生当研究生培养。我从大二开始成为优异生,进了教研室跟李老师学习计算机图形学(computergraphics)。这比初中时那个“打猎”游戏有意思多了。当时我开发了一个浏览器插件,可以在网页里嵌入可编程的三维图形效果,并且可编程可配置性比当时各种VRML插件更高。可惜当时不知道怎么产业化,要不然说不定可以和后来人尽皆知的可编程二维图形技术Flash较量一下。

因为中学时已经自学了本科专业课程,所以那时我经常借口“教研室有任务”逃课,一天到晚泡在实验室里写程序。长沙夏天的傍晚常有暴雨。有一次我专注编程没关窗,直到飘进来的雨点把屏幕和眼镜都打湿到看不清了,才意识到。

国防科大是一所军校,体育课都是军体项目:投手榴弹、5000米跑、三级跳、单双杠三动作到六动作。我小时候体弱多病,一开始不适应。我的同学们给了我很多帮助,后来还把我拉进了我们学员队的排球队做候补。我们学员队长陈传宝(江湖人称“宝哥”)是八一体工队的专业运动员,也给了我很多鼓励。感谢他们帮我养成了锻炼身体的习惯。现在公司和家之间有一条bikingtrail,我经常下午抽一个小时在上面跑8公里;另外每天骑自行车上下班,往返共一个小时。

香港的大学的发展历程更像欧美大学,大陆大学的建设深受苏联影响,这是主要区别。前人之述备矣。对我个人而言,清华百年老校,有温和敦厚的长者气质;城大始建于上世纪80年代,有青春活泼的氛围。这可以从我的一段经历讲起:

我从小数学不好。在计算机领域选了图形学,是因为我以为这里数学简单。我的博士导师周立柱老师是数据库方面的专家,但是他“因材施教”,推荐我去微软亚洲研究院图形学组实习。但是和研究院汇聚的全国高校精英同学们比起来,我脑子反应慢,研究工作做的不够好,所以跟周老师又要了一个去城市大学学“有道理的”机器学习的机会。不料去了以后才发现身边的同学都是数学“童子功”,他们嘴里蹦出来的词儿我都闻所未闻。午饭时大家顺便聊点儿科学问题,我完全听不懂。于是陷入深深的自卑感里了,没有勇气面对困难,每天混吃等死。

可是认输又觉得对不起周老师给的那么多研究机会。再想想既然中学时能自学大学课程,当下好歹也该试着突破一下困境吧。于是从高中数学课本开始看,一直看到机器学习专业的教材。然后能看懂论文,了解最新的研究成果。随后自己找了一个把机器学习和图形学结合起来的研究方向——用多个摄像头采集人的动作,让机器学习这些动作数据,从而能自动合成三维动画。全力投入一年半之后,我重新自学了数学课,而且在这个方向上发表了10篇论文。虽然今天完全看不上当时论文的水平了,但是刘老师很高兴邀我二进香港。

周刘二位导师,一位温和敦厚,让我广泛涉猎,一位刚毅决断,激发我的潜力。他们并不替我选题和指导我在顶级会议和期刊上发表论文,而是锻炼了我给自己出题的能力。这对一个博士生来说比解题更重要。我对他们敬佩和感激终身不忘。

香港的经历勾起了我对数学和机器学习的兴趣。于是我主动推迟一年毕业,学习机器学习的主要应用——数据挖掘。数据挖掘得有数据;IBM是老牌大厂,数据应该积累丰厚,于是我投奔了清华的一位师姐刘世霞,去做实习。在IBM发表的论文,将就能让我毕业后腆着脸去敲Google的门。

但是真正值得挖掘的数据不在IBM和微软这样的软件和咨询公司,而是在互联网行业。让我意识到这一点的是我的一位师兄郭奇。他对学术研究兴趣不大,在搜狗兼职,而且兼得很凶——是搜狗输入法的首创者,也是当时搜狗搜索引擎工程架构的负责人。“输入法的语言模型训练不就是从大家的输入中总结人类语言的规律吗?”这句话引导了我后来的工作方向——从大众行为数据中归纳人类智能。在郭奇启发了我6年之后,出现了一个热词“大数据”。

“在大数据时代,先得成为出色的工程师,才能成为了不起的研究员。”

Google在亚太地区就一个研究团队,全职做研究的就两个人——张栋和我。张栋后来去百度,随后创业。他的故事很多人都了解了。当时我们俩各自做一些研究。最终获奖的是团队成果的集合。这个团队除了我们俩,还有好几位加州大学、清华、北大、MIT、浙大的实习生,以及几位非常出色的Google工程师。我负责的一项主要工作是主体模型的分布式机器学习技术。这个研究是张栋做起来的。他换了研究方向后,我换了一种技术思路接着做。这一做就是7年,跨越了我在Google和腾讯的职业历程,也影响到我目前的工作。

要说收获的话,有两点体会:(1)各种互联网服务收集了大量用户行为数据,这些大数据都是长尾分布的;但是研究领域总体仍然专注在基于指数分布构造的机器学习模型。这样的模型计算方便,但忽视了数据中长尾的部分,也就忽视了大数据中最重要的部分。(2)每一种有价值的算法,都值得拥有独到的并行计算架构。做分布式机器学习的人不可迷信特定框架,比如MapReduce、MPI或者Spark,不要试图套用这些架构来描述各种算法,而要有能力开发自己算法适用的框架。在大数据时代,先得成为出色的工程师,才能成为了不起的研究员。

这些可能都算是比较新鲜的想法,不一定大家都认同,但是没关系,我把我亲身经历的很多大数据研究工作,简要描述在《分布式机器学习的故事》这一系列博客里了。读者自有体会。

在研究之外,我的很多工作在四处出差,把研究成果应用到产品里。为此我拜访过Google分布在全球很多地方的产品团队。俗话说“是骡子是马,拉出来溜溜”。去了之后,先拿产品数据做出实际效果,给产品团队展示之后,才有机会说服他们使用。这样的工作,也是我们获奖的一个原因。

直接原因是我第一份工作在Google,Google是一个工程师文化极强的公司——这里的老牌研究员个个都是顶级工程师。而搜索引擎这样的产品的用户体验主要是技术水平决定的。Google因为有最强大的并行计算技术,所以能索引全球网页和支持精准匹配,所以用户体验第一。对技术水平的孜孜以求,不仅弱化了传统产品经理的角色,也模糊了工程师和研究员的界限——每一个追求技术突破的工程师,都自然会去读论文,追踪技术前沿,也就成了研究员。那么研究员也就别自高自大地指望自己设计了算法交给工程师去实现了。因为这个原因,Google里虽然有研究员,但是没有研究院,而且研究员的考核成绩与论文专利没有关系,主要看对产品的贡献。

Google让我见识和实践了世界一流的大数据技术,腾讯给了我了解互联网业务的机会。这是两家很伟大的公司。

最初的想法在Google工作时形成。走的时候,学术界正在研究很火的LDA模型(和Rephil的模型不同);并行化方法是MapReduce,这是Google里最有名的并行化框架。后来发下MapReduce在计算任务安排和分布式文件系统I/O上耗时比实际计算可能还要多,于是尝试使用传统的MPI。但是MPI不能很好地支持自动错误恢复。于是又改用GooglePregel。Pregel基于一种称为BSP的并行化思路,几乎和MPI一样久远。BSP虽然考虑了容错,但是容错需要cache所有进程的通信记录,往往导致内存不够。从这时起,我渐渐意识到通用的并行计算框架,很难满足主题模型的需要。同时,我也注意到Google里很多成功的大规模机器学习系统都用自己独特的并行计算框架。

2012年的国庆假期,我用Go语言写了一个尝试性版本。叫尝试性,是因为这次我换了模型。新的模型基于一种叫hierarchicalDirichletprocess(HDP)的数学方法。有此考虑是因为之前的研究经验让我意识到LDA和其他很多主体模型(包括pLSA、RBM、NMF、SVD等)都不能描述长尾数据,而是专注于从高频数据中归纳语义,得到的自然是“主流”语义。可是互联网的精髓在于服务用户的“长尾”需求。LDA即便并行化做得很成功,能归纳很多语义,但是去掉重复语义之后,结果往往就几百个主流语义。Rephil的模型可以近似描述长尾,但是复制就成了抄袭。HDP也能描述长尾,但是并行计算非常复杂,很难通过减少进程间的交互,切断数据依赖。而切断数据依赖是大规模并行计算的基础。所以我们对HDP做了修改,让它计算起来像LDA那么简单。此外,对并行计算方法也做了很大的改进。Go语言的开发效率比C++和Java都高很多,让我能在七天假期里尝试新模型和新的并行化方法。尝试结果从实验效果上看很有潜力,于是我决定开始真正开发一个大规模系统。

春节前有一次聚会,席间我回顾了这段经历。在座的百度的余凯老师表示理解,总结说:“今日中国是极端的理想主义和极端的现实主义的结合”。我甚感共鸣,其实古往今来莫非如此。

因为我一直在公司里工作,研究都是冲着产品和实用做的。在Google工作的时候,除了自己努力往GoogleOrkut、生活搜索、音乐搜索等产品里推广,同时也有其他产品(Reader、News)的同事主动尝试。此外,有些结果在开源届有应用。比如北大的实习生李浩源主导的一个分布式频繁项目挖掘的工作,后来被ApacheMahout系统采用。我和工程师白红杰开源的pLDA项目也有很多用户。后来几位实习生同学进一步改进,成了pLDA+。pLDA和pLDA+一共被200多项后来的工作引用。

“因为大家都敢于创业,所以避免了寡头垄断;而不是因为没有寡头垄断,所以更容易创业成功。”

现代互联网企业之间有很多交流和学习,在管理经验和机制上其实大同小异。当年Google中国的同事在能力上和美国的同事没有什么区别;腾讯同事的技术水平也和LinkedIn的同事没有什么区别。如果说有差异,更多是在文化上的。

在国内,人多资源少。几百年来中国的文化就强调竞争,流传下来的口号也很多,比如“吃得苦中苦,方为人上人”。为什么要做“人上人”呢?很大程度上是为了多吃多占吧。当代的中国孩子也是从小就被迫和邻居家孩子比成绩。长大之后,习惯性地和同事比较年终奖、晋级晋等。可是太过计较小节,就容易忽视了大方向。而且自己人之间的恶性竞争,削弱民族凝聚力。

资源竞争也体现在高额的房价上。房价束缚了很多年轻人——为了攒钱首付,为了能稳定的还贷,在工作中谨小慎微,不敢直言直谏,接受很多苟且和无奈,放弃了成就业务和完备自己的机会。这和二战后的日本以及我出差时见到的今日印度很像。

在美国,地多人少。即使在硅谷,由于最近几年大量中国和印度移民涌入,房价提升。但是换算到每平米单价,仍然在北京上海广州深圳之下很多。再加上平均工资水平相对较高,在这里留学和工作的年轻人买房时是不需要老父母帮助凑首付的。在国内普遍三十年还贷,在这里一般是十年之内。

在资源竞争相对宽松的环境下,西方的教育也相对宽松。强调人格的培养,而不是知识的灌输。中国有句古话“宰相肚里能撑船”,就是有多大胸怀做多大事业的意思。相对宽松的环境,给人更大的挥洒空间,从而不计小节,就像平生慷慨的班都护和万里间关的马伏波——他们自己以及我们这些后人恐怕都不在意他们是行政干部几级。我理解这是硅谷里很多人有更大的胆魄创业的重要原因——因为大家都敢于创业,所以避免了寡头垄断;而不是因为没有寡头垄断,所以更容易创业成功。

我更愿意做我喜欢做的事。如果这件事需要做技术,那就做技术;如果需要做管理,就做管理;如果需要二者兼顾,那么就累一点儿,奋力兼顾一下。

在国内的科技行业,尤其是大公司,有一种说法“三十岁之后就干不动技术了,要尽早转管理”。其实我也见过很多很早转管理,技术上不再长进,丧失了技术行业的核心竞争力,从而不得不留在大公司混派系的例子。

另一方面,我的同龄人里有很多很出色的榜样。比如最近在硅谷认识的一位朋友杨文杰——上海交大数学系本科。读书期间就创业。毕业后,为了进一步开拓视野,先后在J.P.Morgan(香港)和SummitPartners(美国)工作。一边工作一边在斯坦福读MBA以了解美国环境。做了多年准备后,现在又离开大公司在硅谷创业,用人工智能技术支持商业拓展。他这样在数学、计算机、金融、投资、管理等多个方面努力学习、融会贯通,功底是和扎实的。而为了做到这些,他每天的体能训练也很扎实。并且为了保持精神状态,每天洗冷水澡。

另一位在Google认识的大哥王欣宇,在总结自己的职业发展时有一个四字口诀“募投管退”——他选择的职业发展路线,使得他在募集资金、选择投资业务、管理团队、和公司上市四个方面都有锻炼。

我见到不少朋友给自己打个标签:技术人员或者管理人员,甚至区分工程师和研究员。其实这些标签往往是一种束缚,而人的本性其实是追寻自由成长的空间的。

我接触过的编程语言不少,因为对语言很好奇。随意数数至少包括BASIC、LOGO、6502汇编、Fortran、Pascal、C、C++、80386保护模式汇编、COBOL、Tcl、Awk、Javascript、C#、LaTeX、Maxima、Maya、EmacsLisp、Scheme、CommonLisp、Erlang、RadeonGPU汇编、Cg、Java、Python、Haskell、Objective-C、Go。其中对我影响最大的是Lisp,是我的同学王垠教我的,让我接触了一点计算的数学本质。在微软图形学组实习时学了GPU的汇编语言,后来用GPU写并行机器学习算法的时候用过Cg。我工作中用的语言主要是C++。从写Peacock开始用Go。简单的分布式数据处理用bash+ssh+awk代替MapReduce。

我很珍惜我的同事们,他们给了我很多帮助和提示;但没有刻意选择加入大牌公司。毕竟如吴军在《浪潮之巅》里说的,闪耀的牌子都在一波波的浪潮中过去了——今天毕业入行的人记得Sun的不多了,知道DEC的基本没有。

我在择业时也有很多茫然不决的时候。但是我有个好榜样,是原来Hulu.com的engineeringVP张小沛。她对择业的建议很简练:“最重要的是知道自己要的是什么”。

对话国外知名技术作者,讲述国内码农精彩人生。你听得见他们,他们也听得见你。

THE END
1.大数据的本质是什么大数据本质上是人类社会数据积累从量变到质变的必然产物,是在信息高速公路基础上的进一步升级和深化,提升人工系统智能水平的重要途径,对人类社会的发展具有极其重大的影响和意义。 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数https://m.yyk.iask.sina.com.cn/q/87tFw2Ew9byB.html
2.什么是大数据?Oracle中国如今,随着物联网 (IoT) 的兴起,越来越多的设备接入了互联网,收集了大量的客户使用模式和产品性能数据。同时,机器学习的出现也进一步加速了数据规模的增长。 未来。大数据已经出现了很长一段时间,但直到生成式 AI和云计算在企业中的使用越来越多后,大数据的价值才开始提升。通过提供真正的弹性 / 可扩展性,它让开发https://www.oracle.com/cn/big-data/solutions/?bcid=5747226978001
3.大数据概述数据体量巨大:大数据的数据量通常达到PB(Petabyte)级别以上,远超传统数据库的处理能力。 数据类型多样:大数据包括结构化数据(如数据库中的表格数据)、半结构化数据(如日志数据)和非结构化数据(如文本、图像、音频、视频等)。 数据增长快速:随着互联网和物联网的普及,数据的产生速度越来越快,数据量呈指数级增长。 https://blog.csdn.net/2302_82020031/article/details/143435315
4.大数据是什么的数据挖掘帆软数字化转型知识库Volume(体量):数据的体量是大数据最显著的特征之一。随着互联网、物联网、社交媒体、移动设备等技术的发展,数据的生成速度和规模都达到了前所未有的程度。大数据的体量通常以PB(Petabyte),甚至ZB(Zettabyte)为单位,远远超出了传统数据管理工具的处理能力。 https://www.fanruan.com/blog/article/614516/
5.大数据的本质是什么大数据的本质是什么 陈老师 05-19 08:09 积木教育大数据的本质 大数据的本质在于其无法用常规软件工具在合理时间内进行捕捉、管理和处理的海量、高增长率和多样化的数据集合。它代表了信息技术领域在数据处理和分析方面的一次重大变革,体现了数据规模、流转速度、类型多样性和价值密度的综合特性。 首先,从数据规模来看,https://localsite.baidu.com/article-detail.html?articleId=22288940&ucid=PHfzrjnLPWf&categoryLv1=%E6%95%99%E8%82%B2%E5%9F%B9%E8%AE%AD&ch=54&srcid=10005
6.入行大数据之前,了解大数据的本质最重要的51CTO博客随着互联网时代的到来,颠覆了传统行业的盈利模式,大家都把注意力集中在了互联网上。前几年大数据时代的来临,为各行各业提供了更加开阔的数据用作分析。 百科对于大数据是这样解释的:麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的https://blog.51cto.com/u_13973070/6206612
7.吴军·信息论40讲人类在近代300年中经历了认知革命,进入了理性认知的机械时代。 牛顿等科学家确立了机械思维,使人们能够掌握规律并应用于各个领域。 然而,现代世界充满了不确定性,人们面临着跳跃式变化和各种困惑。 信息论为解决不确定性提供了方法,通过利用信息消除不确定性。 信息论被广泛应用于各个领域,如大数据思维和互联网技术。https://m.douban.com/note/860674730/
8.读大数据时代心得体会(精选13篇)大数据更像是理论与现实齐头并进,理论来创立处理非结构化数据的方法,处理结果与未来进行验证。4、分析基础。大数据是在互联网背景下数据从量变到质变的过程。笔者认为,小数据时代也即是信息时代,是大数据时代的前提,大数据时代是升华和进化,本质是相辅相成,而并非相离互斥。https://m.diyifanwen.com/fanwen/gongzuoxindetihui/9643164.html
9.“大数据”的本质是互联网智商的提升互联网“大数据”的本质是互联网智商的提升 作者:刘锋 互联网的新概念总是层出不穷,web2.0,云计算,物联网,智慧地球,3D打印,今年“大数据”(big data)开始兴起。最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而https://www.iteye.com/blog/2053251
10.著名互联网专家邬贺铨:“用‘互联网+’引领国家的创新发展”“互联网的本质是连接,连接人与人,连接人与物,连接人与整个社会” 问:互联网自诞生以来,给人类社会带来了巨大的变化。世界因互联网而更多彩,生活因互联网而更丰富。您认为互联网的本质是什么? 邬贺铨:互联网从美国1969年提出到现在已经40多年了,中国是从1994年正式接入互联网,到现在也过了20多年了。互联网的http://www.ynjjjc.gov.cn/html/2016/toutiao_1118/22864.html
11.大数据时代的互联网思维数字图书馆大数据时代的互联网思维 2009年联合国制定了“数据脉动”计划,2010年英国发起了“数据权”运动、2012年美国实施了“大数据”战略,最近新加坡等提出“大数据治国”理念, “大数据”时代的序幕由此渐渐拉开。今年7月25日,国务院总理李克强在听取浪潮云计算、大数据产业发展汇报后指出,信息化正在全球快速发展,云计算、大数据https://www.enaea.edu.cn/sztsg/ztyd/kxrwsy/dsj/hlwjtx1/2016-01-28/23378.html
12.史杰松:互联网时代下的大数据营销与应用例:工业4.0进入C2B的模式的私人订制的时代 2.移动互联网 3.云计算 4.4G网络 二、大数据的条件——大数据VS数据大 1.大数据与传统数据的区别 1)“由业务向数据提出需求”的运营模式向“以数据指导业务”的运营模式转变 2)化“数”为“据”是关键。 https://www.jiangshicn.com/a/69296.html
13.未来互联网+大数据时代,DT革命互联网大数据应用简析界面新闻未来是什么? 第一,未来是移动互联网+大数据并存的时代 如果说未来世界是万物互联的物联网,肯定是对的,但如果只是物和物的连接,没有人和人的连接,就会死气沉沉。未来应该是移动互联网+大数据并存的时代,人和人的连接,人和物的连接,物和物的连接以及人和服务的连接。 https://www.jiemian.com/article/2244921.html
14.互联网+管理学课程“互联网+”已经成为经济新常态下中国的重要发展战略。“互联网+”战略的本质就是“跨界、融合与创新”。管理学在互联网时代,传统的管理学包括它的一些经典理论,正在受到互联网的冲击挑战。本课程力求从内部打破及自我突破,自我颠覆,自我挑战,尝试以互联网思维视角为突破点,以管理学经典内容为基础。搭建一个直面互联https://higher.smartedu.cn/course/6260b1cdf29a9e60d0f2642f
15.大数据时代会计信息化12篇(全文)在当前互联网时代及大数据时代,对财务人才的要求,已经不局限于传统账务处理,更倾向于对决策相关信息数据的处理和分析。“占领市场必须先占领数据”,公司财务和经营决策的制定更多的是基于信息的决策,即“用数据说话,做理性决策”,而数据分析即是从海量的数据中提取和挖掘出对企业有价值的规律和趋势,为企业的决策提供支https://www.99xueshu.com/w/ikeyz8lssupo.html