国产数据库行业前景展望 数据库市场有望实现四年近两倍增长非关系型数据库开始崛起首先,我们观察数据库行业本身的发展 驱动力 情况。除了数据量的增长... 

数据库是用于组织、存储和管理数据的仓库,通常由数据库管理系统(DBMS)来控制。数据库管理系统具有数据定义、操作、存储与管理、维护和通信等功能,且能够允许多用户使用。

数据、数据库管理系统及关联应用一起被称为数据库。数据库向下调用底层硬件资源,向上支撑应用业务,是三大基础软件之一。

数据库可按数据模型、部署方式、架构模型和业务负载特征进行分类。按数据模型分类:关系型数据库以二维表形式存储结构化数据,非关系型存储半结构化及非结构化数据。

按业务负载特征分类:交易型数据库(OLTP)又称事务型数据库,主要进行在线实时业务处理,例如银行交易等;

分析型数据库(OLAP)擅长于处理离线分析业务,支持复杂的分析操作,侧重决策支持,并提供直观易懂的查询结果;混合负载数据库(HTAP)能够同时完成在线交易和统计分析功能。

90年代MySQL、PostgreSQL等开源数据库涌现。随着互联网、云计算的发展,影音、文档、流媒体等非结构化数据大幅度增加,非关系型数据库(NoSQL)应运而生。

数据库市场达百亿元量级

基于技术和产品的趋势理解之上,我们可以对新老市场进行市场规模的测算。数据库产品市场仍以关系型数据库为主导。关系型数据库以行和列的形式存储数据,其数据具备关联性。

非关系型数据库常用于存储非结构化的数据,可支持键值(key-value)、文档、图片等数据存储格式,相对关系型数据库使用更加灵活,应用场景广泛,但无法保证数据的完整性和安全性。

IDC数据显示,2017-2021年全球关系型数据库占据80%以上市场。2021年国内关系型数据库市场规模近200亿元,国产替代规模约为56亿元。

根据IDC数据,2021年H1、H2国内关系型数据库市场规模分别为11.9、15.8亿美元,总计约合185亿元,其中本地部署关系型数据库份额约为44.4%,公有云关系型数据库约占55.6%。

自下而上测算,国内信创数据库潜在替换空间有望超600亿元。假设1:全国公务员及事业单位人数4000万,国有企业人数4000万,其他企业人数6亿。

假设2:PC:服务器=20:1,服务器:数据库=5:1。假设3:政府、事业单位、国有企业数据库采购单价为12万元(参照2021年中央国家机关数据库软件中标企业提供的单价),其他企业采购单价为4.5万元。

数据库市场增长主要受以下因素带动:

数据量的激增将会带动数据库产品规模增长。数据库是组织、存储和管理数据的仓库,海量数据的爆发将催生数据管理的需求。

根据IDC与浪潮联合发布的最新报告显示,2020年全球大数据储量为50ZB,而到2025年将达到175ZB。

分布式、非关系型数据库增长迅猛。在面临海量数据的背景下,传统关系型数据库采用纵向扩展(scale-up)的方法,即通过增加更多的CPU、内存和硬盘来提升数据管理能力;

根据艾瑞咨询的预测,借助NewSQL、SQLonHadoop、NoSQL等新技术架构的非关系型数据库将是整个市场中增长最快的细分领域,到2025年可以实现十倍以上的扩张(同2020年相比)。

2025年我国数据库市场规模有望突破500亿元,实现4年近两倍增长。根据IDC数据,2021年中国数据库市场规模约为27.7亿美元(约合185亿人民币)。

随着数据量的爆发式增长,IDC预计到2025年76.7亿美元(约合513亿人民币),4年cagr达29%。未来四年内,市场规模有望实现4年近两倍增长。

数据库国产化进程提速

政策催化,整体进程显著提升

数据库的国产化不仅是信创整体的要求,而且有自身独特的重要性,尤其是考虑供应商的集中度(Oracle等厂商占比极高)、数据安全的紧迫性以及和其他信创产品的联结性。

2022年3月,Oracle宣布暂停俄罗斯业务,数据库自主可控重要性凸显。“十四五”规划提出要培育壮大人工智能、大数据、区块链等新兴数字产业。

金融数据库信创落地较快,未来有望向其他行业全面铺开

考虑到产品的成熟度需要一个应用、反馈、改善的迭代过程,我们认为国产数据库会经历一个从重点行业先行落地、改善,随后再普遍应用的过程。

金融等行业预计会是先行适用的重要领域。2021年金融IT投入超1800亿元,未来有望向其他行业全面铺开。自2020年完成试点后,2021年金融信创元年开启。

根据零壹智库对工信部及下属机构、地方经信委等职能部门公开的优秀信创案例情况的统计,截至2021年12月底,金融在八大行业中进展最快,落地实践率达29.55%。

根据头豹研究院的《2021年中国金融级分布式数据库市场报告》,2021年主要商业银行的IT投入高达1898亿元。

未来数据库信创将向工业、电信、能源、交通等行业全面推进,演变为带动央企及地方国资企业在信创领域的全面布局,形成最终的“2+8+N”格局。

众多银行已开启数据库国产替换。根据沙利文的测算,银行对于金融级数据库的市场需求占比较高,达78%,而非银金融为22%。同时,银行业数据库投入占比较大,占软件整体投入的60%。

数据库市场格局:国产数据库百花齐放

传统数据库多采用集中式架构,新兴数据库利用分布式“换道超车”

传统数据库多采用集中式架构,新兴数据库利用分布式“换道超车”。传统数据库以交易为核心,主要针对交易系统的渠道、产品、客户、核算及清算等业务流程,以集中式架构为主。

解决数据的采集、整理、聚合、运用等问题。在分布式数据库、云数据库、湖仓一体架构等领域,国内外厂商几乎处在相同的起跑线。

新兴数据库在高并发场景表现突出,传统数据库主要针对业务紧耦合场景。相对于传统数据库,新兴数据库具备以下优势:能够处理半结构化及非结构化数据,包括文档、图片、时序等。能够承载高并发量的业务。

分布式数据库具有弹性、业务敏捷的优势,可以支持海量数据的并发处理,更适用于高频发、大吞吐的互联网、金融等场景。而传统集中式数据库面对巨量数据时,往往不具备稳定的高并发能力。

但分布式数据库并非通用产品,需要基于客户业务的场景特点进行拆分,因而更适合具有地理分布特性的组织或机构使用。

在对分布式数据库进行设计时,数据的划分对系统的性能、响应速度、可用性有着极大的影响。因此对于业务紧耦合的场景,更适于使用集中式数据库。

新兴数据库:主要针对非关系型及高并发场景

近几年数据量快速增长、非结构化数据类型增加,传统数据库难以解决大数据“4V”问题,即规模性、高速性、多样性和价值性的问题。

数据处理需求的变化推动了数据管理软件技术的变革,带动了以分布式技术为主的大数据管理平台软件快速发展。

根据沙利文研究报告,大数据软件市场由2015年的52亿元增长至2019年的146亿元,预计2024年将达到492亿元,2019-2024年CAGR为27.5%。

公司专注于分布式和数据云技术。围绕数据的集成、存储、治理、建模、分析、挖掘和流通,星环科技提供全生命周期的基础软件及服务。

其产品包括大数据与云基础平台软件(TDH和TDC)、分布式关系型数据库(ArgoDB和KunDB)、数据开发与智能分析工具(TDS和Sophon)。

公司产品主要面向分析型和高并发型场景。TDH大数据基础平台可以处理包括关系表、文本、时空地理、图数据、文档、时序、图像等在内的多种数据格式。

TDC数据云平台是将大数据基础平台、分布式关系型数据库、智能分析工具等大数据软件以PaaS云服务的方式提供给客户。

ArgoDB是面向数据分析型业务场景的分布式闪存数据库产品,主要用于构建离线数据仓库、实时数据仓库、数据集市等数据分析系统。

KunDB是公司研发的一款面向数据操作场景的分布式交易型数据库,主要用于支持操作型业务场景(如ERP、OA、HIS等)和高并发场景(如消费者的手机APP应用、健康码查询等)的核心数据系统的构建。

搜索引擎技术是处理非结构化数据的关键,对应国内市场规模近30亿元。当前国产化替代主要在关系型数据库领域进行,非关系型数据库领域较少涉及。

非结构化数据的处理需要依赖基于全文检索的搜索引擎技术,根据IDC测算,搜索系统、内容分析和认知/AI软件平台的市场规模约80亿美元。

参照中国信通院数据,2020年中国数据库市场规模占全球比例约为5.2%,以该比例测算,国内搜索系统、内容分析和认知/AI软件平台的市场规模近30亿元。

ES自发布以来迅速占领了全文搜索引擎市场,目前很多企业已放弃自主研发,逐渐转投ES阵营。根据ES财报显示,公司在2021/2022财年的营业总收入达到8.62亿美金,其市场规模保持30%以上的年均复合增长率。

目前海贝在电子政务领域装机量已过万套,为“信用中国”提供内容发布和信用数据检索服务,服务了部级、8个省级以及16个市级平台。

海量数据:依托华为openGauss打造核心优势,高并发场景下表现优异

紧抓华为openGauss机遇,坚持“一核两翼”业务布局。海量数据在经历了产品代销阶段后转型自研数据库。在华为开放开源openGauss后,公司推出了基于openGauss的数据库产品VastbaseG100。

公司坚持“一核两翼”业务布局,“一核”即数据库核心业务,包括Vastbase海量数据库产品;“两翼”即数据计算与数据存储,包括Vastorage存储产品和Vastcube系列的服务器及数据库一体机产品。

依托华为生态打造核心优势,高并发场景下表现优异。海量数据是openGauss生态贡献仅次于华为的第二大社区贡献者,公司针对openGauss内核进行了创新优化,提升了数据库的并发性。

根据中国软件评测中心的测试结果,在两路鲲鹏服务器下,Vastbase2.0版本可以达到139万的tpmC值;Vastbase2.2版本可达到154万tpmC值。

传统数据库:重点对关系型场景进行替代

传统数据库厂商依然占据主流地位。根据DB-Engines2022年12月的排名,全球前10款最受欢迎的数据库中有7款是传统关系数据库。据信通院统计,在我国仍有60%的数据库产品属于关系型数据库。

达梦:采用全自研路线替换Oracle,党政为公司优势领域

达梦市场份额领先。达梦为中国电子信息产业集团CEC旗下基础软件企业,其大股东为中国软件,持股比例达25.21%。

根据IDC数据,2021H1及2021H2,达梦在关系型数据库(本地部署模式下)的市场份额分别5.7%和11%,在国内专注于数据库领域的厂商中份额保持第一,且逐步缩小和Oracle之间的差距。

达梦数据库采用全自研路线,可对Oracle数据库实现平滑迁移。达梦产品具有完全自主知识产权,其代码自主原创率达99.9%,在安全性方面达到了目前国产数据库最高安全级别。

达梦DSC对标OracleRAC架构,能够实现柔性替换。在源端是Oracle的情况下,达梦数据库可将多数对象(表、视图、函数、存储过程、触发器、包等)进行平滑迁移,即在业务不中断的情况下实现无感知、平滑切换。

达梦具备全栈数据产品和解决方案。DM8是公司新一代大型通用关系型数据库,在兼顾OLAP和OLTP的同时,满足HTAP混合应用场景。

达梦数据交换平台软件DMETL将传统的ETL工具(Extract、Transform、Loading)与分布式消息平台相结合,能够实现构建数据中心、数据仓库等功能,DMETL已被广泛应用于公安、信用、电力等多个行业的数据中心项目中。

达梦在党政领域优势突出。公司党政收入占据大头,根据招股说明书,2019至2021年,党政占公司收入比重分别为48%、63%、59%。

党政系统多数使用Oracle数据库,而公司基于自研技术进行研发,满足自主可控需求。

达梦数据库与Oracle的兼容程度达95%以上,能够实现平滑迁移,在党政系统具备竞争优势,承接了湖北省应急管理厅、最高人民检察院、海南社保金保信通等多个项目。

人大金仓:份额位列第二,行业覆盖广泛

根据IDC数据,2021年H1、H2公司在关系型数据库(本地部署模式下)的市场份额均为5%,在数据库厂商中排名第二。

公司主要产品涵盖通用型、分析型及HTAP分布式数据库。KingbaseES面向事务处理,适用于数据仓库、决策支持、高级分析等分析类应用场景并且能够兼顾简单分析应用;

金仓分析型数据库系统KingbaseAnalyticsDB(KADB)定位于数据分析类应用市场,适用于数据仓库、决策支持、高级分析等分析类应用场景,可以处理TB-PB级别的数据;

KSOne是人大金仓自主研发的分布式关系型数据库系统,具备企业级复杂事务混合负载能力,支持大规模横向扩展以及PB级海量数据存储。

人大金仓覆盖行业广泛。金仓数据库产品广泛服务于电子政务、国防军工、能源、运营商、金融等60余个关键行业。

南大通用:金融、运营商领域优势突出

南大通用于2004年由天津南开创元和北京宏泰安信司联合创立。公司主要数据库产品包括GBase8a分析型数据库、GBase8s共享存储的数据库集群和GBase8c多模多态的分布式数据库等,分别面向商业分析和商业智能市场、OLTP应用场景以及OLAP等场景。

公司在金融、运营商领域具备领先优势。GBase8s适用于OLTP应用场景,包括金融、电信行业的关键核心业务系统,能够提供7*24小时不间断运行处理能力,在80%以上场景中可以替代国际主流数据库。

GBase8a在电信领域取得规模化市场应用,三大运营商均为公司客户,在中国移动集团下一代数据仓库选型测试中,GBase8a排名前三,是唯一入围的国产产品。

神舟通用:具备国资背景,航天、军工及政府领域占优

神舟通用隶属于中国航天科技集团(CASC),是神舟航天软件技术股份有限公司控股子公司,神舟软件持股比例达81.08%。神通数据库套件包括数据采集、数据分析、数据存储和数据展示四部分。

其中神通T-Miner用于对文本数据进行分析和挖掘;K-Cuber能够对大型数据库进行在线数据分析,并支持对关键业务指标的快速对比和灵活预警;

K-Miner对蕴含在企业运营数据中的各类规律进行深度探索和挖掘,并抽象出对应的数学模型帮助用户进行经营策略的制定或调整。

航天、军工及政府为公司优势领域。在航天领域,公司承担了中国航天科技集团型号设计、测试、运维数据管理系统项目和中国航天科技集团综合管理信息系统项目。

在军工行业,公司搭建了全军信息化数据存储平台和基地军事训练管理信息系统。在政府领域,公司完成了公安部首个部一级的国产数据库应用。

万里开源:MySQL高覆盖率及数据库强实时性打造金融行业核心优势

公司主要数据库产品分为分布式和集中式。GreatDB分布式能够实现基于内存计算的TP与AP混合负载支撑,适用于大数据量高并发低延迟的事务型场景及轻量分析型场景和核心业务中对数据一致性要求高的场景。

GreatDB集中式提供完备的事务支持,能适用于要求苛刻的在线事务处理(OLTP)应用场景。

公司基于MySQL技术路线研发,MySQL在金融行业广泛应用。公司成立于2000年,原为MySQL中国研发中心,是创意信息的控股子公司。

2021年4月,公司创立GreatSQL开源社区,通过对MySQL技术的优化,目前已成为国内最主要的MySQL技术开源分支之一。

在开源技术路径中,MySQL占据较大份额,根据中国信通院的数据,在统计的81个关系型数据库中,有28%的数据库是基于MySQL开发的。

根据公司调研,90%的金融机构已广泛应用或试用开源软件,其中超9成金融机构应用了MySQL数据库。

工商银行、建设银行、招商银行、民生银行、中国银联和泰康保险6家金融企业的MySQL数据库投产节点规模超过1000个,其中,中国银联、工商银行、招商银行超过4000个节点。

公司事务型数据库具备强实时性和一致性,数据库在金融领域优势突出。2019年,万里数据库与光大银行基于万里数据库源码联合研发了EverDB数据库,并应用于某国有大型股份制银行的云缴费、统一支付平台等核心业务系统中。

通过两地三中心的部署方案,实现事务强一致,打破Oracle数据库垄断。

除此之外,万里数据库GreatDB还对瑞银信POS支付系统数据库进行了替换,满足了瑞银信大数据量、高并发、业务持续增长的需求,解决了扩展成本高、故障处理效率低下、运维困难等诸多问题。

THE END
1.非结构化的数据库51CTO博客已为您找到关于非结构化的数据库的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及非结构化的数据库问答内容。更多非结构化的数据库相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。https://blog.51cto.com/topic/feijiegouhuadeshujuku.html
2.哪些数据库不是全文数据库帆软数字化转型知识库关系型数据库(如MySQL、PostgreSQL)、NoSQL数据库(如MongoDB、Cassandra)、键值存储数据库(如Redis)等,虽然它们可以存储大量数据,但它们并不能像全文数据库那样支持复杂的全文检索。关系型数据库通过结构化查询语言(SQL)进行数据操作,更适用于结构化数据管理和处理,而全文数据库则擅长处理大量非结构化文本数据,并提供https://www.fanruan.com/blog/article/17694/
3.非结构化数据库包括哪些内容王利头非结构化数据库在现代数字世界中扮演着至关重要的角色,处理着大量来自各种来源的数据,从社交媒体帖子到传感器读数。与传统的关系数据库不同,非结构化数据库不使用预定义的模式或架构来组织数据。这为存储和查询大量异构数据提供了更大的灵活性。 非结构化数据库的类型 https://www.wanglitou.cn/article_26670.html
4.什么是非结构化数据和结构化数据结构化存储和非结构化存储多样性:可以包括文本文件、PDF 文档、图片、视频、社交媒体数据等。 复杂的处理方式:处理非结构化数据需要使用更复杂的技术,如自然语言处理(NLP)或图像识别技术。 无法直接使用传统数据库存储:非结构化数据通常存储在文件系统或分布式存储系统中,如 Hadoop HDFS、NoSQL 数据库等。 https://blog.csdn.net/m0_55213370/article/details/141938577
5.结构化数据与非结构化数据的区别结构化数据是指按照固定格式和规则进行组织和存储,其内容是清晰明确、易于处理的数据。而非结构化数据则指没有固定格式和规则的,没有明确定义的数据。一、两者之间的区别主要如下:1. 数据类型不同:结构化数据是具体的数据,包括数字、日期、文本等。这些数据可以轻易地映射到表格、关系型数据库或其他结构化数据https://baijiahao.baidu.com/s?id=1764923286913520482&wfr=spider&for=pc
6.大数据基础术语精粹来袭十六:非结构化数据 非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。 十七:数据库(Database) http://www.mudan.gov.cn/2c908084831c4eb30183205259ac001f/2c908084831c4eb3018320df837d0020/1669185201282129920.html
7.大数据一般用什么数据库大数据领域的数据库使用分布式计算框架来处理数据,例如Hadoop的MapReduce、Spark的RDD等,具有高效的计算能力,能够快速地处理海量数据。 4.适应非结构化数据 大数据领域的数据库采用非结构化数据模型,例如文档型数据库、键值型数据库、图形数据库等,能够更好地适应海量、高度变化的非结构化数据,而传统的关系型数据库则更https://www.linkflowtech.com/news/2745
8.数据架构:大数据数据仓库以及DataVault这里的全体数据包括与企业中各类型数据相关的所有事项。 进一步细分企业中的全体数据有很多种方式。一种细分方式(但是肯定不是唯一方式)是将全体数据划分为结构化数据和非结构化数据,如图1.1.2所示。 结构化数据是一种可预见、经常出现的数据格式。通常,结构化数据包括记录、属性、键和索引等,可以通过数据库管理系统(https://www.ituring.com.cn/book/tupubarticle/11854
9.IBMCloudObjectStorage在银行业非结构化数据存储嘲下的对象随着银行业IT技术的快速发展和业务的不断升级变革,业务应用系统产生的非结构化数据(包括文件、图片、音视频文件等)的规模也越来越大,银行业非结构化数据呈指数式爆发式增长。目前使用非结构化数据的主要系统包括内容管理平台、后督影像系统、身份验证、柜员办业务扫描件等需要用到影像图片,以及呼叫中心系统、电话客服的https://redhat.talkwithtrend.com/Article/242823
10.数据资产如何进行有效分类?数据分类的目的是为了针对不同特性的数据采取不同的管理策略,以期实现最大的投入产出比,不同的企业或组织基于不同的目的,可以从多个角度对数据进行分类,今天就来聊一聊主流的分法。 1、按照结构特征划分 可以分为结构化数据、非结构化数据及半结构化数据。 https://aidc.shisu.edu.cn/6e/59/c11041a159321/page.htm
11.GIS空间数据库特征开源地理空间基金会中文分会开放地理空间实验室摘要: GIS空间数据库特征 1.综合抽象特征 空间数据描述的是现实世界中的地物和地貌特征,非常的复杂,必须经过抽象处理。不同主题的空间数据库,人们所关心的内容也有差别。所以空间数据的抽象性还包括人为地取舍数据。 2.非结构化特性 空间数据不能满足通用关系数据库的结构 https://www.osgeo.cn/post/ca0f9
12.了解结构化数据与非结构化数据的差异结构化和非结构化数据在许多方面都有所不同。两者都使用不同的工具和方法来处理和分析信息。 下面是结构化数据与非结构化数据的简要比较表。 结构化数据非结构化数据 以特定的方式和固定的格式组织。没有组织,没有固定的格式。 存储在关系数据库或电子表格中。不适合关系数据库或电子表格的各种数据格式。 https://www.360doc.cn/article/68899713_1124424478.html
13.什么是结构化数据和非结构化数据?零代码知识中心结构化数据易于搜索和组织,机器设备可以轻松地处理。用户可以输入数据、搜索数据库、修改和使用数据,通常使用关系数据库管理系统或结构化查询语言 (SQL)。SQL 是专门为管理结构化数据而设计的编程语言。 二、什么是非结构化数据? 顾名思义,其他所有不能按照行列格式整齐排列的数据都是结构化数据,如录音、视频片段、图https://www.jiandaoyun.com/fe/gdyqhj/
14.关系型数据库与非关系型数据库的区别数据库关系型数据库和非关系型数据库各有其优势和适用场景。关系型数据库提供了结构化数据存储、强大的查询语言和事务处理能力,适合需要高数据一致性和复杂查询的应用。而非关系型数据库则以其灵活性、可扩展性和高性能在非结构化数据处理和大规模应用开发中占据一席之地。在选择数据库时,需要根据应用需求、数据特性和性能https://developer.huawei.com/home/forum/hwc/thread-02112142096582872004-1-1.html
15.非关系型数据库有哪些非关系型数据库(NoSQL)是一类用于存储和管理非结构化数据的数据库系统,它们通常使用不同的数据模型和查询语言来存储和管理数据,如键值存储、文档存储、列族存储、图形存储等,非关系型数据库具有更好的灵活性、可扩展性和高性能等优点,适用于大规模数据存储和处理、实时数据流处理、多语言和跨平台应用程序等场景。 https://www.kdun.com/ask/401641.html
16.非结构化数据怎么治理?最近遇到几个项目,都跟非结构化数据脱不开关系。老彭刚毕业的时候,做的是数据库的活儿,那都是结构化数据。后来有了hadoop技术,可以用来处理物联网、互联网的半结构化数据。真正做非结构化的场景还是比较少的,大多是在项目中选取一两个点给意思意思一下。https://www.niaogebiji.com/article-139650-1.html
17.什么是NoSQLAWSNoSQL高性能非关系数据库服务NoSQL 数据库通常提供灵活的架构,可以实现更快速、更多的迭代开发。灵活的数据模型使 NoSQL 数据库成为半结构化和非结构化数据的理想之选。 可扩展性 NoSQL 数据库通常被设计为通过使用分布式硬件集群来横向扩展,而不是通过添加昂贵和强大的服务器来纵向扩展。一些云提供商在后台将这些操作处理为完全托管服务。 http://aws.amazon.com/cn/nosql/
18.结构化数据vs非结构化数据结构化数据与非结构化数据:结构化数据由明确定义的数据类型组成,这些数据类型的模式使它们易于搜索;而非结构化数据*- “一切” -包括数据的通常是不容易搜索,包括格式,如音频,视频和社交媒体帖子。 非结构化数据与结构化数据并不表示两者之间存在任何实际冲突。客户选择一个或另一个不是基于他们的数据结构,而是基于https://www.jianshu.com/p/1ae5d687092e