深度盘点国内四大机器学习开源平台:PaddlePaddle,Angel

2015-2016的机器学习平台开源大潮中,美国是当之无愧的引领者:无论是谷歌、亚马逊、微软、IBM等互联网巨头,还是美国各大科研院所,为开源世界贡献了品类繁多的机器学习工具。这其中不乏华人的身影,比如开发出Caffe的贾杨清。

但在大陆这边,无论是BAT还是学界,在开源机器学习项目上始终慢了一拍,令人十分遗憾。这与我国世界最大AI研究者社区、占据AI科研领域半壁江山的江湖地位*颇为不符。让人欣喜的是,2016下半年,百度和腾讯先后发布了它们的开源平台战略。虽然姗姗来迟,但作为下半场入场的选手,它们的开源平台各自有什么意义?本文中,作为机器学习开源项目盘点的第三弹,雷锋网将与你一起看看包括百度腾讯平台在内的国内四大开源项目。

1.百度:希望获得开发者青睐的“PaddlePaddle”

2016年9月1日的百度世界大会上,百度首席科学家吴恩达宣布,该公司开发的异构分布式深度学习系统PaddlePaddle将对外开放。这标志着国内第一个机器学习开源平台的诞生。

其实,PaddlePaddle的开发与应用已经有段时日:它源自于2013年百度深度学习实验室创建的“Paddle”。当时的深度学习框架大多只支持单GPU运算,对于百度这样需要对大规模数据进行处理的机构,这显然远远不够,极大拖慢了研究速度。百度急需一种能够支持多GPU、多台机器并行计算的深度学习平台。而这就导致了Paddle的诞生。自2013年以来,Paddle一直被百度内部的研发工程师们所使用。

而Paddle的核心创始人,当年的百度深度学习实验室研究员徐伟,现在已是PaddlePaddle项目的负责人。

徐伟

对了,从“Paddle”到“PaddlePaddle”的命名还有一个小插曲:Paddle是“ParallelDistributedDeepLearning”的缩写,意为“并行分布式深度学习”。而去年9月发布时,吴恩达认为“PaddlePaddle”(英语意为划船——“让我们荡起双~昂~桨,小船儿推开波浪。。。”)其实更郎朗上口、更好记,于是就有了这么个可爱的名字。

那么,PaddlePaddle有什么特点?

相比现有深度学习框架,PaddlePaddle对开发者来说有什么优势?

首先,是易用性。

相比偏底层的谷歌TensorFlow,PaddlePaddle的特点非常明显:它能让开发者聚焦于构建深度学习模型的高层部分。项目负责人徐伟介绍:

抛开底层编码,使得TensorFlow里需要数行代码来实现的功能,可能在PaddlePaddle里只需要一两行。徐伟表示,用PaddlePaddle编写的机器翻译程序只需要“其他”深度学习工具四分之一的代码。这显然考虑到该领域广大的初入门新手,为他们降低开发机器学习模型的门槛。这带来的直接好处是,开发者使用PaddlePaddle更容易上手。

其次,是更快的速度。

另外,自诞生之日起,它就专注于充分利用GPU集群的性能,为分布式环境的并行计算进行加速。这使得在PebblePebble上,用大规模数据进行AI训练和推理可能要比TensorFlow这样的平台要快很多。

说到这里,业内对PaddlePaddle怎么看?

首先不得不提的是Caffe,许多资深开发者认为PaddlePaddle的设计理念与Caffe十分相似,怀疑是百度对标Caffe开发出的替代品。这有点类似于谷歌TensorFlow与Thano之间的替代关系。

知乎上,Caffe的创始人贾杨清对PaddlePaddle评价道:

最后,贾表示PaddlePaddle的整体架构功底很深,是下了功夫的。这方面,倒是赢得了开发者的普遍认同。

总结起来,业内对PaddlePaddle的总体评价是“设计干净、简洁,稳定,速度较快,显存占用较小”。

但是,具有这些优点,不保证PaddlePaddle就一定能在群雄割据的机器学习开源世界占有一席之地。有国外开发者表示,PaddlePaddle的最大优点是快。但是,比TensorFlow快的开源框架其实有很多:比如MXNet,NervanaSystem的Neon,以及三星的Veles,它们也都对分布式计算都很好的支持,但都不如TensorFlow普及程度高。这其中有TensorFlow庞大用户基础的原因,也得益于谷歌自家AI系统的加持。

百度的AI产品能够对普及PaddlePaddle产生多大的帮助,尚需观察。雷锋网获知,它已经应用于百度旗下的多项业务。百度表示:

最后,我们来看看对于自家推出的PaddlePaddle,李彦宏怎么说:

“经过了五六年的积累,PaddlePaddle实际上是百度深度学习算法的引擎,把源代码开放出来,让同学们、让社会上所有的年轻人能够学习,在它的基础上进行改进,我相信他们会发挥出来他们的创造力,去做到很多我们连想都没有想过的东西。”

2.腾讯:面向企业的“Angel”

2016,鹅厂在AI领域展开一系列大动作:

Angel将成为PaddlePaddle之后、BAT发布的第二个重磅开源平台。那么,它到底是什么?

简单来说,Angel是面向机器学习的分布式计算框架,由鹅厂与香港科技大学、北京大学联合研发。腾讯表示,它为企业级大规模机器学习任务提供解决方案,可与Caffe、TensorFlow和Torch等业界主流深度学习框架很好地兼容。但就雷锋网所知,它本身并不算是机器学习框架,而侧重于数据运算。

上个月18日的发布会上,腾讯首席数据专家蒋杰表示:

“面对腾讯快速增长的数据挖掘需求,我们希望开发一个面向机器学习的、能应对超大规模数据集的、高性能的计算框架,并且它要对用户足够友好,具有很低的使用门槛,就这样,Angel平台应运而生。”

这其中的关键词,一个是“大”规模数据,另一个是“低”使用门槛。

“大”方面,企鹅表示Angel支持十亿级别维度的模型训练:

“Angel采用多种业界最新技术和腾讯自主研发技术,包括SSP(StalesynchronousParallel)、异步分布式SGD、多线程参数共享模式HogWild、网络带宽流量调度算法、计算和网络请求流水化、参数更新索引和训练数据预处理方案等。这些技术使Angel性能大幅提高,达到Spark的数倍到数十倍,能在千万到十亿级的特征维度条件下运行。”

总的来讲,Angel的定位是对标Spark。蒋杰宣称,它融合了Spark和Petuum的优点。“以前Spark能跑的,现在Angel快几十倍;以前Spark跑不了的,Angel也能轻松跑出来。”

其实,Angel已经是鹅厂的第三代大数据计算平台。

但对于机器学习社区,Angel开源的意义是否如同鹅厂宣称的那样大?

对此,机器学习界的“网红”、微软研究员彭河森说道:

“对于小一点的公司和组织,Spark甚至MySQL都已经够了(为了政治正确我提一下PostgresQL);而对于大一点真的用得上Angel的企业,如阿里巴巴等,早就自主开发了自己的大数据处理平台。”

彭河森

最后,我们来看看蒋杰对Angel开源意义的官方总结:

“机器学习作为人工智能的一个重要类别,正处于发展初期,开源Angel,就是开放腾讯18年来的海量大数据处理经验和先进技术。我们连接一切连接的资源,激发更多创意,让这个好平台逐步转化成有价值的生态系统,让企业运营更有效、产品更智能、用户体验更好。”

3.阿里巴巴:犹抱琵牌半遮面的DTPAI

但凡说到平台,就不能不提阿里。

与百度比起来,阿里的AI战略布局看上去更“务实”:主要是依托阿里云计算、贴近淘宝生态圈的一系列AI工具与服务,比如阿里小蜜。而基础研究起步较晚,相对百度和鹅厂也更低调。2016年阿里AI战略的大事件是8月9日的云栖大会,马云亲自站台发布了人工智能ET,而它的前身是阿里“小Ai”。综合目前信息,阿里想要把ET打造成一个多用途AI平台:应用于语音、图像识别,城市计算(交通),企业云计算,“新制造”,医疗健康等等领域,让人不禁联想起IBMWatson。用阿里的话来说,ET将成为“全局智能”。

但是,在开源项目方面,阿里有什么布局(马云最喜欢用这样的词)?

答案有惊喜也有失望。

好消息是,阿里早在2015年就宣布了数据挖据平台DTPAI(全称:Datatechnology,thePlatformofAI,即数据技术—人工智能平台)。

坏消息是,那之后就没动静了。

当时,也就是2015年的八月,阿里宣布将为阿里云客户提供付费数据挖掘服务DTPAI。当然,对它的发布免不了大谈特谈一通“生态”、“平台”——宣称DTPAI是“中国第一个人工智能平台”。格调定得相当高。

它有什么特点?

首先,DTPAI将集成阿里巴巴核心算法库,包括特征工程、大规模机器学习、深度学习等等。其次,与百度、腾讯一样,阿里也很重视旗下产品的易用性。阿里ODPS和iDST产品经理韦啸表示,DTPAI支持鼠标拖拽的编程可视化,也支持模型可视化;并且广泛与MapReduce、Spark、DMLC、R等开源技术对接。

嗯,有关DTPAI的信息到此为止。Seriously,2015年之后它就再也没消息了。阿里云是耍猴还是在憋大招?我们只有走着瞧。

4.山世光:大陆学界硕果仅存的SeetaFace

盘点了BAT的开源平台规划,再来看一个始于学界的项目。与国外AI学界百花齐放的现状不同,大多数人从未听说过始于国内学界的机器学习开源项目,这方面几乎是空白一片——说是“几乎”,因为有中科院计算所山世光老师带领开发的人脸识别引擎SeetaFace。

山老师是我国AI界的学术大牛之一,2016年下半年已经下海创业,创业后不久就公开了SeetaFace。山老师的研究团队表示,开源SeetaFace是因为“该领域迄今尚无一套包括所有技术模块的、完全开源的基准人脸识别系统”。而SeetaFace将供学界和工业界免费使用,有望填补这一空白。

SeetaFace基于C++,不依赖于任何第三方的库函数。作为一套全自动人脸识别系统,它集成了三个核心模块,即:人脸检测模块(SeetaFaceDetection)、面部特征点定位模块(SeetaFaceAlignment)以及人脸特征提取与比对模块(SeetaFaceIdentification)。

该系统用单个英特尔i7CPU就可运行,成功降低了人脸识别的硬件门槛。它的开源,有望帮助大量有人脸识别任务需求的公司与实验室,在它们的产品服务中接入SeetaFace,大幅减少开发成本。

THE END
1.开源机器学习MicrosoftAzure首先,开源机器学习平台有助于激发创新。使用特定工具的开发人员越多,就越有可能有人提出使用或改进该工具的巧妙想法。开发人员越多,他们就越有可能捕捉到任何可能出现的 bug 或问题,从而使这些问题更快得到解决。 此外,由于开源软件可供很多人使用,因此强大的社区往往围绕不同的开源软件项目发展,这些社区也促进了开源https://azure.microsoft.com/zh-cn/resources/cloud-computing-dictionary/what-is-open-source-machine-learning
2.《机器学习实战指南:CSDN经验集成》在零售领域,机器学习技术可以用于商品推荐、库存管理、价格优化等方面,提高零售企业的销售额和利润率。此外,企业还可以利用机器学习实现招聘自动化,寻找那些没有被考虑过的求职者,提高人才匹配度。同时,企业可以使用人工智能平台构建会话接口,为下一代聊天和语音助手提供动力,提升客户服务水平。另外,机器学习还可以用于节省https://blog.csdn.net/beautifulmemory/article/details/144353490
3.机器学习平台本节课程将讲述腾讯云机器学习业务架构平台体系以及腾讯云Ti-One平台概要,帮助开发者及企业更好的使用,了解腾讯云机器学习平台https://cloud.tencent.com.cn/edu/learning/course-1401-7596
4.机器学习平台腾讯云开发者社区是一种云计算服务,用于支持机器学习模型的开发、训练和部署。它提供了一系列工具和资源,帮助开发者在云端快速构建和部署机器学习模型,无需关注底层的基础设施和复杂的配置。 机器学习平台的主要分类包括自托管https://cloud.tencent.com/developer/information/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%B9%B3%E5%8F%B0-article
5.机器学习平台面向数据科学家和数据分析人员,为传统机器学习和深度学习提供了从数据准备、数据预处理、模型训练、模型评估到在线预测的端到端数据智能平台。 关于机器学习平台 作为AI赋能工具,面向业务智能化转型的需求,通过自动机器学习、可视化拖拽实验、交互式编码等多种方式,提供从数据洞察处理 、探索性分析、建模分析、模型部署、https://cloud.inspur.com/data-cloud/data-product/machine-learning/
6.机器学习平台机器学习平台是面向机器学习应用开发者,提供开发机、自定义任务、实验管理等丰富的建模调试工具以及多框架高性能推理服务的企业级云原生机器学习平台https://www.volcengine.com/product/ml-platform
7.机器学习平台机器学习平台AI基于海量的数据及强劲的计算资源,搭载Sklearn、XGBoost等主流机器学习框架;支持Python、PySpark等多种语言,提供从模型开发到部署的一站式服务;高效的资源利用率,内核级的虚拟化,秒级启停;容器对资源需求少,单台物理机可以同时运行数千个容器;利用k8s对docker进行编排调度,实现对服务器资源管理、调度、动https://2d.ciftis.org/view/productmgr/productdetail?productId=2872
8.机器学习平台可视化建模模型部署深度学习机器学习痛点描述 :机器学习建模过程复杂,既需要深入理解算法原理,又需要对业务深入研究。算法建模流程长、门槛高,企业难以启动。 方案及特色 :机器学习平台一站式覆盖完整的模型研发及部署应用全链路,提供低门槛的可视化建模能力,支持拖拽式交互建模、AutoML自动化建模,助力企业快速建立算法研发流程。 https://sf.163.com/product/ml
9.一篇文章读懂什么是机器学习平台这个工程师想用技术减轻人工劳动,他拍摄了约7000张黄瓜照片,传到谷歌云的机器学习平台,通过TensorFlow深度学习框架,训练模型去识别黄瓜,并对黄瓜按不同特质进行分类。在此基础上,他还做了一个黄瓜分拣机,再配合上自动传送带系统,可以将每根黄瓜识别出来后再传送至程序指定的箱子。这样,降低了分拣黄瓜过程中人工参与。https://www.10100.com/article/90094
10.Dlearn机器学习平台远舢Dlearn机器学习平台,是集AI算法、模型、训练、推演于一体的“一站式”平台,通过接入模型构建与训练需要的样本数据,构建数据预处理、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力,支撑AI模型的快速构建、训练、部署和应用,实现AI模型工作流的全周期管理。 https://5gai.cctv.com/special/companies/yuanshan/p002/index.shtml
11.各个大厂的机器学习平台概述51CTO博客各个大厂的机器学习平台概述 机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。这意味着,与其显式地编写程序来执行某些任务,不如教计算机如何开发一个算法来完成任务。有三种主要类型的机器学习:监督学习、非监督学习和强化学习,所有这些都有其特定的优点和缺点。https://blog.51cto.com/davidwang456/3084674
12.笔记:什么是机器学习平台?机器学习平台算是目前数据平台新的一块必要的内容了,简单记录一下 一、机器学习平台要解决什么问题? 如https://www.douban.com/note/713103603/所说,越来越多的团队开始用机器学习解决产品中的问题,比如推荐、排序、反欺诈、图像分类 但要做到生产化的机器学习模型并不容易,比如 https://www.douban.com/note/715415956/
13.万象+数据开放平台万象+ 机器学习平台 万象+ 多方计算平台 企业自有数据不出本地,通过联邦体统的加密机制交换参数,即在不违反数据隐私法规情况下,建立一个虚拟的共有模型,实现协同训练。 旨在提供一整套从数据处理、算法开发、模型训练、洞察分析、一键发布、到在线预测的算法服务平台。专业而广泛的技术赋能,让算法开发更加高效、简洁、https://dop.jd.com/portal
14.一站式机器学习平台资源介绍于是,课后想分享一个基于Jupyter Notebook的demo,发现居然一时间找不到国内可以用于分享、协作、运行的机器学习平台。通过google找到了几个一站式的机器学习平台,它们的特点都是基于Jupyter Notebook 构建的,都能够在上面开发、调试、训练、运行、分享机器学习相关的代码集和数据集。https://www.jianshu.com/p/0966ca55b647
15.大规模机器学习平台的整体架构和实现细节(万字解析,附PPT)机器近日,第三届“国际人工智能与大数据高峰论坛”在北京国家会议中心召开,本届峰会聚焦于前沿人工智能技术与产业应用。作为人工智能行业领军人物,第四范式联合创始人、首席架构师胡时伟受邀出席大会,并以“大规模机器学习平台的技术实现”为题,发表了主题演讲。 https://www.jiqizhixin.com/articles/2017-11-03-29
16.数据科学与机器学习平台数据建模工具TempoAI是新一代人工智能分析平台,操作简单不用编写代码,即可快速完成数据挖掘建模。丰富的算法模型满足各种建模场景需求,同时还内置了丰富的行业经典案例,一键引用,快速提升AI在企业的应用落地速度。https://www.asktempo.com/product/tempoai.html
17.机器学习PAI人人都用得起的机器学习平台机器学习PAI整体介绍 阿里云机器学习PAI包含3个子产品,分别是机器学习可视化开发工具PAI-STUDIO,云端交互式代码开发工具PAI-DSW,模型在线服务PAI-EAS, 3个产品为传统机器学习和深度学习提供了从数据处理、模型训练、服务部署到预测的一站式服务。 产品优势 简单易用 https://umeng.aliyun.com/product/umengpai
18.机器学习自动化建模平台信用算力交互式机器学习平台一款端到端、可解释的交互式机器学习自动化建模平台,提供了数据预处理、数据自动清洗、模型开发与训练、规则自动探索、AutoML、自定义算法、Notebook建模等服务。解决传统黑盒模型问题及模型难以融合业务问题,帮助机构快速的进行决策分析,进而辅助业务人员更好地洞察客户。 https://www.xysl.com/jqxxzdhjmpt
19.分享7个不同领域的开源低代码平台PyCaret:机器学习平台 通过使用用户界面,它不仅吸引并迎合了开发人员,还吸引了对创建 MVP 或完全开发和部署的应用程序感兴趣的普通非开发人员。如果需要,低代码确实允许最少的手工编码,尽管应用程序的底层功能取决于用户界面下的基础设施。 什么是开源低代码开发平台? http://www.rpa-cn.com/lowcode/2023-09-28/4224.html
20.原创机器学习即服务(MLaaS):GoogleAzure和AWS如何使AI民主化AWS机器学习平台 Amazon SageMaker:它是一个解决机器学习过程中复杂性的平台,从构建到部署模型。它是一个完全托管的平台,可帮助开发人员和数据科学家快速轻松地构建、培训和部署任何规模的机器学习模型。 AWS DeepLens:它是一款完全可编程的摄像机,配有教程、代码和预训练模型,旨在扩展深度学习技能。它为提供示例项目,http://www.linkingapi.com/archives/9150
21.腾讯发布全栈机器学习平台Angel3.0腾讯首个AI开源项目Angel,正式发布一个里程碑式的版本:Angel 3.0。这是一个全栈机器学习平台,功能特性涵盖了机器学习的各个阶段,超过50万行代码,在 GitHub 上 Star 数已超过 4200,Fork 数超过 1000。 一个全栈机器学习平台,近日悄悄上线了。 8月22日,腾讯首个AI开源项目Angel正式发布一个里程碑式的版本:Angel https://imi.nankai.edu.cn/info/1044/1217.htm
22.自动机器学习平台决策类AI应用HyperCycle ML低门槛、标准化、决策类自动机器学习平台 基于库伯学习圈理论,将AI应用过程简化为“行为、反馈、学习、应用”四个步骤,大幅降低AI使用门槛,为企业规模化落地AI提供效率引擎,助力企业轻松实现智能化转型。 基于库伯学习圈理论,将AI应用过程简化为“行为、反馈、学习、应用”四个步骤,大幅降低AI使用门槛,为https://www.4paradigm.com/product/hypercycle_ml.html
23.分布式机器学习平台大比拼:SparkPMLSTensorFlowMXNet本论文从分布式系统的角度开展针对当前一些机器学习平台的研究,综述了这些平台所使用的架构设计,对这些平台在通信和控制上的瓶颈、容错性和开发难度进行分析和对比,并对分布式机器学习平台的未来研究工作提出了一些建议。文中的工作由 Murat Demirbas 教授与他的研究生 Kuo Zhang 和 Salem Alqahtani 共同完成。 https://www.robot-china.com/news/201709/12/45076.html
24.腾讯AI开放平台微软azure-机器学习 企业级机器学习服务,可用于更快地构建和部署模型 访问官网 美林数据-TempoAI 多模态多场景智能建模,助力 AI 时代数据化运营 访问官网 DataCanvasAPS机器学习平台 DataCanvas APS是面向数据科学团队的一站式机器学习平台。 访问官网 魔搭社区 https://nav.36dianping.com/site/4278.html
25.机器学习建模平台SophonMLDevSophon MLDev作为企业级一站式机器学习建模平台,集成了Sophon Data数据管理、Sophon VLab可视化建模、Sophon Discover编程式建模三大功能模块,覆盖了从数据接入、数据预处理,到模型训练、模型评估、模型迭代的机器学习建模的全生命周期流程,助力企业客户实现人工智能产https://www.transwarp.cn/subproduct/sophon-mldev
26.超集信息携手英特尔,助您轻松建立面向机器学习的开发平台通过在 AI Max 机器学习平台中集成英特尔? oneAPI 工具包,用户将能够降低机器学习任务跨平台开发与迁移的复杂性,提升机器学习模型在异构平台中运行的性能,并充分利用现有的机器学习模型,从而加速机器学习应用的开发。 英特尔? oneAPI 工具包是基于新一代标准的英特尔? 软件开发工具,用于跨各种架构构建和部署以数https://www.intel.cn/content/www/cn/zh/customer-spotlight/cases/ai-max-oneapi-flexible-performance-experience.html
27.9个最好的人工智能(AI)软件平台,建议收藏学习Google 云机器学习平台使用户能够轻松构建任何大小的任何类型数据的机器学习模型。 3、TensorFlow TensorFlow是一个开源软件库,使用数据流图进行数值计算。 4、Rainbird Rainbird是一个基于云的AI平台,使任何人都能找到相关专业方面的知识,并且推出了机器人虚拟在线专家。 https://feng.ifeng.com/c/7gJ5xDeijxB
28.kaggle热门!机器学习和数据科学社区平台Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.https://www.kaggle.com/