蚂蚁金服OceanBase冯柯:自研技术这条路很难,但我们会坚持走下去

丰富的线上&线下活动,深入探索云世界

做任务,得社区积分和周边

最真实的开发者用云体验

让每位学生受益于普惠算力

让创作激发创新

资深技术专家手把手带教

遇见技术追梦人

技术交流,直击现场

海量开发者使用工具、手册,免费下载

极速、全面、稳定、安全的开源镜像

开发手册、白皮书、案例集等实战精华

为开发者定制的Chrome浏览器插件

小蚂蚁说:

美国商务部于2018年4月16日宣布7年内禁止本国企业向中国的电信设备制造商中兴通讯公司销售零件。

消息公布后,中兴在深圳A股市场和港交所同时停牌,其被封杀遭遇的程度可以说是前所未有。

“中兴事件”的持续爆发后,让中国造基础软件的声音渐渐高涨,在这众多的声音中,笔者发现出现了一种与以往不同的声音,而且点赞支持的人还很多,——“基础软件的国产化,如果是互联网公司来做才会成功。”

虽然,这个声音可能有些理想化,但是从中也看出大家对于互联网公司的技术和自研能力是很认可的。蚂蚁金服作为现在知名的互联网公司,其技术水平也一直被大众津津乐道。

在即将召开的DTCC2018大会开幕之前,我们采访了蚂蚁金服资深总监、OceanBase首席架构师冯柯,听他讲讲他对自研技术的一些看法。

【人物介绍:】

2014年加入蚂蚁金服,入职前在数据库厂商神舟通用任CTO,浙江大学计算机应用专业博士,十五年数据库研发和产业化经验。目前在基础数据部(OceanBase团队)任架构师,参与OB1.0的设计和研发工作,主要研究领域分布式关系数据库、数据存储、性能诊断和优化。

1.技术没有好坏之分,开源OR自研均是业务驱动

之前我们在采访国产基础软件厂商时,听到了很多关于开源的声音,有人称,“开源不等于可控,创新过分依赖开源容易受制于人”,也有人说“很多厂商在开源框架上进行微创新,然后采用低价策略抢占市场,导致行业丧失做基础原创性技术创新的动力”……

凡此种种,我们看到有很多人对基于开源来做研发都抱着不太友好的态度。而冯柯则把基于开源的研发比作开吉普车,把自研技术比作造高铁,他认为技术选择没有绝对的对或错,基于开源或自主研发的选择是要看能不能真正解决业务问题。

Oceanbase是蚂蚁金服完全自主研发的数据库,为什么在技术选择的时候会选择自研而不是基于开源开发?“很大的原因是这个分布式数据库是一个全新的技术挑战,现有的开源技术中能够借鉴复用的东西很少”,冯柯这样说道,“还有一个重要原因就是技术的理想主义,我们不想被现有的开源技术框架所束缚。”

2.“我深知自研技术有多难,但自研的价值得我们这么做”

冯柯是一个扎根于软件和互联网行业十五年的老兵,他见证了中国软件收入从1998年的325亿到2017年5.5万亿的增长,同时他也清楚的知道在最核心的CPU、操作系统和数据库上,过去我们并未取得商用意义上的重大突破。基础软件的自研技术有多难,冯柯再清楚不过了,但他也坚定的认为自研技术的价值值得我们这么去做。

国内自研软件产品的发展一路走来都是波折颇多,先是被盗版商用软件掠夺,后来又被开源生态套路。基于开源能让我们技术水平快速提升,但同时也在一定程度上束缚了我们的思维,而自研技术给予了我们基础创新的源动力。

自研技术的另一个好处就是可以实现差异化价值。以Oceanbase为例,从最开始的构想就是要基于自身积累的核心金融业务场景实现差异化价值,所以在架构设计上就与Oracle、DB2完全不一样,OceanBase的分布式系统更多是通过系统架构和软件实现系统高可靠。现在,Oceanbase不仅承担了蚂蚁金服“双十一”全部核心业务的重压,还在6家商业银行落地。

3.搞自研,传统厂商的大优势可能会是大包袱,而互联网企业可以轻装上阵

冯柯在入职蚂蚁金服之前,曾在数据库厂商神舟通用任CTO。既待过传统数据库厂商,同时也在互联网企业搞研发的他,自然是这个问题的最好回答者。“老牌数据库公司,有完整的生态系统,这是巨大优势。但老牌数据库厂商的大优势,同时也是大包袱。”

过去国内做自研数据库,实际上是在走一条追赶、模仿商用数据库公司的发展道路,真正能够做出差异化的东西很少,而现在做数据库从技术思路上就发生了转变,从集中式数据库技术形态到分布式技术形态。

而这一转变,让传统厂商的生态优势反倒可能成为包袱。众所周知,传统厂商当年做数据库时PC服务器可靠性非常差,也没有最近才发展起来的高可用、高可靠的分布式架构。在这种情况下,传统厂商想要创新自研就像是大车掉头,需要兼顾的方面很多,而互联网企业则可以轻装上阵。

4.总结

自研技术的难度众所周知,但蚂蚁金服在自主研发、自主创新这条路上从不怕挑战,从支付宝担保交易,到风险识别、智能客服,再到更基础的数据库、中间件等均有技术创新。

中国数据库技术大会(简称DTCC)是国内数据库及大数据领域规模最大、最受欢迎的技术交流盛会,每年一届。

一、DTCC主论坛

1、DTCC与OceanBase共同成长,一路走来

【嘉宾介绍:阳振坤蚂蚁金服高级研究员,OceanBase自主研发数据库研发创始人】

1999年成为北京大学首批长江学者之一,曾获得国家科技进步一等奖(排名第四),是20多项发明专利的发明人。曾先后担任北京大学计算机科学技术研究所副所长、联想研究院首席研究员、微软亚洲研究院主任研究员、百度高级科学家。

2、自研技术在蚂蚁金服的发展、实践与未来

作为自主研发的金融级分布式数据库,多年来OceanBase稳定地支持了蚂蚁金服双十一峰值流量,并于2017年创造了25.6万笔支付每秒的世界纪录。作为新一代的关系数据库,OceanBase在扩展性、高可用、高性能、低成本等方面解决了一系列世界性技术难题,为上层应用提供了“不停机缩扩容”、“弹性大促”、“多地多活”等多项核心能力。今天,我们将为你一一解开OceanBase背后的“技术秘密”。

【嘉宾介绍:冯柯蚂蚁金服资深总监,OceanBase首席架构师】

二、金融级核心基础技术应用实践专场

1、OceanBase:蚂蚁金服自主研发的金融级分布式数据库

【嘉宾介绍:陈萌萌蚂蚁金服资深技术专家】

2、分布式事务:核心金融场景下的实践与演进

性能与数据一致性保证是金融交易场景中永恒的挑战。经过多年的双十一大促、新春红包等场景,蚂蚁金服对极限性能场景下的分布式事务有非常完整、深入的理论认知,自身做了很多创新,形成了一套完整分布式事务解决方案。本次演讲主要呈现蚂蚁金服分布式事务解决方案技术演进过程,其中对事务一致性、极限性能优化、容灾、平滑扩缩容、业务接入分布事务框架复杂度、方案通用性等方面的深入思考。

【嘉宾介绍:尹博学蚂蚁金服资深技术专家】

目前在蚂蚁金服负责数据中间件技术方向。此前在百度负责数据库内核及集群技术方向。在分布式事务、数据库高性能/高可靠架构、数据库内核等领域有较为深入的研究和丰富的工程实践。

3、蚂蚁数据分析平台的演进历程

【嘉宾介绍:张荣华蚂蚁金服高级技术专家】

4、大规模图计算平台GeaBase及其在蚂蚁的应用

【嘉宾介绍:付志嵩蚂蚁金服图计算及存储技术团队高级专家

2015年加入蚂蚁金服,现任蚂蚁金服图计算及存储技术团队高级专家。作为主要架构设计和研发人员参与了实时图数据库GeaBase的开发,实现了对超大规模关系网络毫秒级的复杂查询及变更。目前团队的主要职责是研发新一代的图数据库和图计算产品。本科毕业于浙江大学计算机科学系并从美国犹他大学取得博士学位。后加入美国图数据库公司BlazeGraph,领导了分布式图计算系统的设计和开发。

想要吸收更多技术干货的朋友,就亲自到DTCC2018的大会现场来聆听吧!

THE END
1.数据挖掘概念(AnalysisServices有关如何将 SQL Server 工具应用于业务方案的示例,请参阅数据挖掘基础教程。 定义问题 与以下关系图的突出显示相同,数据挖掘过程的第一步就是明确定义业务问题,并考虑解答该问题的方法。 该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。这些任务转换为下列问题: https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
2.网络资源:数据挖掘实战1(电力窃漏电用户识别)本次学习我们将使用“什么是数据挖掘”中的挖掘过程:根据实际问题定义挖掘目标、取什么样的原始数据、对原始数据的探索分析、如何对数据进行处理、建立合适的模型完成目标、评估模型完成的好不好。 问题背景:实际生活中,有很多人可能会偷别人的电用,或者计量电量的设备坏了,造成无法根据实际用电情况计价,可能导致用户多https://nonlinear.wtu.edu.cn/info/1117/1665.htm
3.艺术档案数字化民间艺术的数字化涉及信息的采集、处理和储存,这其中包含采集设备的选择、数据处理方式、储存格式和数据库技术。但是截止到目前,并没有一个全国统一的数据加工规范或标准,无论在民间艺术普查阶段还是在名录项目申过程中,都不同程度存在一些问题,具体表现在:数据资料保存很好,但标示和描述很差,以至于使潜在的用户无法了解https://www.zboao.com/cgal/8068.html
4.AI知识图谱:机器学习深度学习数据分析数据挖掘「附脑图」数据挖掘与数据分析两者紧密相连,具有循环递归的关系,数据分析结果需要进一步进行数据挖掘才能指导决策,而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。 数据量上:数据分析的数据量可能并不大,而数据挖掘的数据量极大。 约束上:数据分析是从一个假设出发,需要自行建立方程或模型来与假设吻合,而数据挖https://www.iyong.com/displaynews.html?id=2974432318981056
5.科学网—一门新的学说《逻辑结构与逻辑工程学》逻辑方程通过代入海量常量求出海量变量的值,实现海量数据方程挖掘。方程由方程项、连接符和等号组成,一个方程项就是一个逻辑函数。逻辑函数第一步把不同类型的函数项通过求指数和加权转化成同一类型,用同一类型的连接符连接,逻辑函数仍然通过求指数和加权形成方程项,用同一类型连接符连接。求逻辑变量的过程是构建逻辑https://blog.sciencenet.cn/blog-3482188-1294934.html
6.15个热门开源免费的数据挖掘数据分析数据质量管理工具数据分析旨在从海量业务数据中获得有用信息,以便更好地为决策服务。 数据分析的完整流程图 数据挖掘,顾名思义,就像从沙子中挖掘黄金。 数据挖掘全过程 数据质量含义还是比较好理解的。简单一点来说,就是对数据进行的质量检测。这个就不过多解释。 数据质量问题 https://www.51cto.com/article/777596.html
7.王树森ReinforcementLearning学习笔记(ing)(2)马尔可夫决策过程的状态转移概率和奖励函数不仅取决于智能体当前状体,还取决于智能体选取的动作。 例子:学生马尔可夫决策过程 解释:黄色字体表示学生采取的动作,框图表示MRP的状态名(避免混淆隐去),R表示奖励函数,其与学生所采取的动作有关。注意:当学生选择“去查阅文献pub”这个动作时,则将进入一个临时状态(图https://zhuanlan.zhihu.com/p/10389734563
8.深度详解:对象检测和图像分割的数据探索过程数据挖掘对于图像分割和目标检测的需要 数据探索是很多机器学习过程的关键。也就是说,当涉及到目标检测和图像分割数据集时,没有直接的方法进行系统地数据探索。 在处理常规图像数据集和分割图像数据集时,有很多东西是可以区分的: 标签被强绑定在图像上。您必须非常小心对图像所做的任何操作,因为它可能破坏图像-标签-https://www.flyai.com/article/703
9.图像分类综述医学图像数据挖掘 图像检测 遥感图像分类 1.5 图像分类的基本过程 基本操作是建立 图像内容的描述,然后利用机器学习方法学习图像类别,最后利用学习得到的模型对未知图像进行分类。 一般来说,图像分类性能主要与图像特征提取和分类方法密切相关。图像特征提取是图像分类的基础,提取的图像特征应能代表各种不同的图像属性; https://www.jianshu.com/p/dc1c81e42897
10.数据挖掘简介数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识. 数据挖掘环境可示意如下图: 数据挖掘环境框图.gif 2、数据挖掘过程图 下图描述了数据挖掘的基本过程和主要步骤 数据挖掘的基本过程和主要步骤 https://blog.csdn.net/quanzaiwoxin1/article/details/108234828
11.图挖掘算法gSpan元気森林近年来,图挖掘作为,数据挖掘的重要组成部分引起了社会各界的极大关注。图挖掘(Graph Mining)是指利用图模型从海量数据中发现和提起有用知识和信息的过程。通过图挖掘所获取的知识和信息已广泛应用于各种领域,如商务管理、市场分析、生产控制、科学探索和工程设计。 https://www.cnblogs.com/-402/p/16450309.html
12.数据挖掘原理算法及应用章(8)第8章复杂类型数据挖掘 1.空间数据来源和类型繁多,概括起来主要有以下几种类型:(1)地图数据:来源于各种类型的普通地图和专题地图,这些地图的内容丰富,图上实体间的空间关系直观,实体的类别和属性清晰,实测地形图还具有很高的精度。(2)影像数据:主要来源于卫星遥感和航空遥感,包括多平台、多层面、多种https://wenku.baidu.com/view/3328fe8c81c4bb4cf7ec4afe04a1b0717ed5b317.html
13.网络图的motif发现算法研究网络图的motif发现算法研究,图挖掘,数据挖掘,图同构,并行计算,网络图中的motif是一种连通的导出子图,并且满足在原图中出现的次数比它在随机图中出现的次数多很多。这种性质可以解释成这种子图https://wap.cnki.net/lunwen-1015559524.html
14.低代码RPA和AI,有什么区别腾讯云开发者社区头图| 下载于视觉中国 在To B领域,低代码、RPA和AI可谓是“流量担当”,它们自带To B基因,搭载快速发展的企业服务赛道,在企业级IT服务这一细分市场崭露头角。以这三者为代表的前沿理念和科技引领IT产业升级将是To B领域重要的长期趋势。 本文我们将通过对低代码、RPA、AI当下火热背后的观察,以微知著,探索企业级https://cloud.tencent.com/developer/article/2282164
15.图数据库发展综述典型的图挖掘算法包括频繁子图、三角形计数等. 频繁子图算法用于枚举在图中所有出现次数超过设定阈值的子图, 一般采用自底向上(即扩展图规模)的挖掘策略, 包括基于Apriori的Apriori-MaxGraph算法、基于FP-增长的MARGIN算法等. 该类算法缺点在于挖掘过程中需经过多次迭代及多次子图同构的判断, 且子图同构的判断属于NPhttps://c-s-a.org.cn/html/2022/8/8713.html
16.图挖掘技术在京东广告流量风控上的应用与实践目前初步设计出图挖掘算法平台的框架并在不断的进行优化和建设中,未来希望能够建设成为一个具有支持较多主流图挖掘算法的基础算法平台,能够支持 billion 量级、超大规模风控场景下的图挖掘应用需求,设计初期的图挖掘算法平台的架构(图5)。 图5:图挖掘算法平台主要包含六层,从下到上依次为数据层(由业务数据封装成的https://maimai.cn/article/detail?fid=1567807199&efid=OaWNb5R1UOE_ZaDNI3D1mg