10分钟带你了解数据库数据仓库数据湖数据中台的区别与联系(二)应用程序算法oltp

引言:文接上回,没有阅读第一部分的小伙伴请点击《10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)》查看,那我们就开始第二部分的内容吧,如有不准确的地方,还请希望大家进行指正。

一、数据湖

上文通过有序性与开放性分别对数据仓库与数据湖进行描述并对比,现在我们来详细地了解一下数据湖。

1.数据湖的起源

例如笔者之前在工作过程中接触的手机信令数据、GPS返回的定位数据等,这些数据实际上并没有预先定义好相应的数据结构,这就意味着可以先将数据存储起来而无需对数据进行结构化处理,也无需明确要进行什么分析,由数据从业人员在后续工作中进行探索和尝试。

上文中提到的结构化数据和非结构化数据,那什么是结构化/非结构化数据呢?下面我们就解释一下两者的区别与联系。

2.何谓结构化/非结构化数据

举个例子。

我们收集到了这样一堆文字信息:

所以结构化数据的定义:是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

非结构化数据:不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。

3.数据湖的作用

我们在上文的数据库一节描述时提到业务数据库与数据仓库的结构不同,业务数据库是为OLTP设计的,是系统的实时状态的数据,而数据仓库的数据是为OLAP的需求建设的,是为了深度的多维度分析。所以这样就会造成基于数据仓库的数据分析会产生以下的限制:

而从根本上来讲,数据湖的最主要作用是尽可能保持业务数据的可还原性。数据湖的定位和搜索引擎类似,我们可以像在搜索引擎中检索数据一样,实现按需检索,即取即用,它存取这原始的未经改变的全量数据,可以存取、处理、分析。

4.数据湖的发展

数据湖最早是2011年由Pentaho的首席技术官JamesDixon提出的一个概念,他认为诸如数据集市,数据仓库由于其有序性的特点,势必会带来数据孤岛效应,而数据湖可以由于其开放性的特点可以解决数据孤岛问题。

所以这也是为什么“数据湖”叫“湖”,而不叫数据河,数据池亦或是数据海。

首先数据要能“存”,数据要够“存”,数据要有边界地“存”。企业级的数据是需要长期积淀的,所以是“数据湖”。

同时湖水天然会进行分层,满足不同的生态系统要求,这与企业建设统一数据中心,存放管理数据的需求是一致的。热数据在上层方便流通应用,温数据、冷数据位于数据中心的不同存储介质之中,达到数据存储容量与成本的平衡。

二、数据中台

所以接下来我们从何为中台、何为数据中台、数据中台可以做什么三个方面来讲讲数据中台。

1.何为中台

当然可以,有一家连锁且超级便宜的意大利西餐连锁店“萨莉亚”,相信大部分同学都光顾过,9元的意面,24的披萨,上菜速度超快,虽然比不上传统西餐,但相比于这个价位,属实很良心了,而且目前萨莉亚在中国已经开设了将近400家(截止2019年)分店。

那么萨莉亚保持价格低廉同时上菜效率高效的原因是什么?答案很简单,就是中央厨房进行粗加工,然后门店的厨师仅需要简单地烹饪即可端上餐桌。相比于传统餐厅采购(买菜)→配菜→做菜的环节,既减少门店厨师的数量,降低人工成本的同时又加快上菜速度。

回到我们研发流程来看,采购(买菜)→配菜环节就是我们研发的后台,他们帮助我们解决“有什么”;而配菜→做菜环节就是我们的业务前台团队,他们要做的就是根据客户的“口味”来“做什么”。

而配菜,蔬菜整理这个环节,也就是萨莉亚的“中央厨房”就相当于我们的中台,仅仅需要门店的需求,中央厨房就可以快速提供对应的材料,提高业务开发效率,减少重复开发成本。

2.何为数据中台

介绍完了“中台”这一概念,数据中台相信大家也能举一反三。没错,对于采购来的“菜”就相当于数据,做出来的“菜”就相当于业务部门所以需要的数据应用。

那么配菜环节就相当于IT部门的各种数据算法,每道菜单独配菜效率慢且冗余度较高,于是“中央厨房”就对数据算法进行规范化,系统化。针对于业务部门所需要的各道菜提供粗加工的半成品,这就是“数据产品”。

这种“中央厨房”配菜的过程就相当于我们所说的“数据中台”。那么是不是每个企业都必须搭建数据中台么?数据中台在业务上能解决什么问题呢?

3.数据中台能做什么

所有企业是否都需要搭建数据中台?首先我们知道企业引进一项技术或产品,不在于是否“时髦”,不在于是否“高科技”,而在于是否适合该公司目前的发展,是否能提高公司的利润,降低公司的成本。

首先数据中台的作用通过对中台及数据中台的描述,总结以下2点:

根据以上提到数据中台的两个优势,针对一个企业是否搭建数据中台,亦或是说一个企业在一开始从零到一就要构建数据中台?笔者在此有几点自己的总结:

对于一些处于数据仓库时代的传统企业或互联网企业,由于各个部门不停无限地进行满足其业务支撑点取数要求、业务统计、看数需求,就可以尝试转型数据中台。

对初创企业,业务线单一且业务模式还经常不断变化,不断试错时,没有能力去进行数据中台的搭建,换言之就是“先活下去最重要”。

三、小结

关于数据有人说数据是新的石油资源,国家也将数据作为一种新型生产要素,与传统生产要素并列。

本文由@快乐的给予原创发布于人人都是产品经理,未经许可,禁止转载

THE END
1.结构化数据和非结构化数据区别结构化数据和非结构化数据区别 1、定义不同 结构化数据:结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。 非结构化数据:非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括https://blog.csdn.net/liudada8265/article/details/136493857
2.结构化数据与非结构化数据有何不同?结构化数据和非结构化数据是两种不同类型的数据,具有以下不同点: 数据形式 结构化数据具有固定的格式和规则,通常以表格、树状结构或关系模型的形式呈现;非结构化数据没有固定的格式和规则,可以是文本、图像、音频、视频等多种形式。 数据类型 结构化数据具有明确的数据类型和字段,可以进行数据类型转换和数据验证等操作https://cloud.tencent.com/developer/techpedia/1570/10527
3.结构化数据和非结构数据区别在数据驱动的时代,结构化数据和非结构化数据的合理使用,可以帮助企业更好地理解客户需求、预测市场走向,从而做出更明智的决策。 拓展知识: 在大数据时代,非结构化数据的处理变得越来越重要。传统的关系型数据库管理系统(RDBMS)难以有效处理非结构化数据,因此出现了专门处理非结构化数据的技术,比如NoSQL数据库、Hadoop、https://localsite.baidu.com/article-detail.html?articleId=20581977&ucid=Pj6vnHc4nWR&categoryLv1=%E6%95%99%E8%82%B2%E5%9F%B9%E8%AE%AD&ch=54&srcid=10004
4.结构化数据和非结构化数据的区别阿里云为您提供结构化数据和非结构化数据的区别相关的70498条产品文档内容及常见问题解答内容,还有等云计算产品文档及常见问题解答。如果您想了解更多云计算产品,就来阿里云帮助文档查看吧,阿里云帮助文档地址https://help.aliyun.com/。https://help.aliyun.com/wordpower/447655-1.html
5.结构化与非结构化的区别多源异构数据源半结构化数据结构化与非结构化数据的区别: ①结构化数据:指关系模型数据,即以关系数据库表形式管理的数据,结合到典型场景中更容易理解,比如企业ERP、OA、HR里的数据。 ②非结构化数据:指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。 https://www.fanruan.com/bw/doc/154297
6.解析非结构化数据与结构化数据的区别与联系非结构化数据和结构化数据是两种不同的数据形式,它们在数据的结构、处理方式、获取方式等方面存在差异。非结构化数据是指没有固定格式和明确结构的数据,它包括文本、图像、视频等类型,其组织形式相对自由灵活。而结构化数据是以表格和数据库形式组织的数据,具有明确的数据结构和规范的格式。本文将通过对非结构化数据和https://www.filez.com/news/detail/8334ba6c5eb4f79c51096083f5cb75ca.html
7.结构化数据vs非结构化数据结构化数据与非结构化数据:结构化数据由明确定义的数据类型组成,这些数据类型的模式使它们易于搜索;而非结构化数据*- “一切” -包括数据的通常是不容易搜索,包括格式,如音频,视频和社交媒体帖子。 非结构化数据与结构化数据并不表示两者之间存在任何实际冲突。客户选择一个或另一个不是基于他们的数据结构,而是基于https://www.jianshu.com/p/1ae5d687092e
8.什么是结构化半结构化和非结构化数据?①结构化数据:指关系模型数据,即以关系数据库表形式管理的数据,结合到典型场景中更容易理解,比如企业ERP、OA、HR里的数据。 ②非结构化数据:指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。 https://it.ynnu.edu.cn/info/1054/2898.htm
9.非结构化的数据库51CTO博客已为您找到关于非结构化的数据库的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及非结构化的数据库问答内容。更多非结构化的数据库相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。https://blog.51cto.com/topic/feijiegouhuadeshujuku.html
10.信息公开专栏摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇https://www.changzhi.gov.cn/xxgkml/zfxxgkml/szfgzbm/czstjj/czsrmzf/tjxx_1188/sjfxhjd/202207/t20220704_2588893.shtml
11.非结构化数据中心结构化数据与非结构化数据有企业数据进行统一存储,包含原始数据和用于报告、可视化、分析和机器学习等各种任务的转换数据。湖中的数据包括来自关系数据库的结构化数据、半结构化数据、非结构化数据和二进制数据从而形成一个集中式数据存储容纳所有形式的数据。 来自华为全球产业展望(GIV)报告显示,到2025年,全球企业应用云化率将达 来自:百科 https://www.huaweicloud.com/theme/103294-3-F
12.什么是非结构化数据(unstructureddata)?机器之心随着AI和5G时代的到来,我们对信息的渴望被极大的唤起,常规的结构化数据交互已经不能满足人们的需求,而伴随着数字化的快速发展,非结构化数据扮演起越来越重要的角色,图片、视频、语音蕴含的丰富信息将被广泛利用。然而真正能够使用并且管理非结构化数据是现在人工智能领域的一大问题。 https://www.jiqizhixin.com/articles/2020-05-20-10
13.非结构化数据怎么治理?最近遇到几个项目,都跟非结构化数据脱不开关系。老彭刚毕业的时候,做的是数据库的活儿,那都是结构化数据。后来有了hadoop技术,可以用来处理物联网、互联网的半结构化数据。真正做非结构化的场景还是比较少的,大多是在项目中选取一两个点给意思意思一下。https://www.niaogebiji.com/article-139650-1.html
14.什么是结构化数据?结构化数据完整指南Elastic通过Elastic 管理和处理结构化数据 Elastic Stack是一个搜索平台,可支持您搜索、分析和可视化从任何来源以任何格式收集的数据。Elastic Stack 由 Elasticsearch、Kibana、Beats和Logstash组成,这些部分协同工作,支持您更好地管理和处理结构化数据和非结构化数据。 https://www.elastic.co/cn/what-is/structured-data
15.关系型数据库与非关系型数据库的区别数据库关系型数据库和非关系型数据库各有其优势和适用场景。关系型数据库提供了结构化数据存储、强大的查询语言和事务处理能力,适合需要高数据一致性和复杂查询的应用。而非关系型数据库则以其灵活性、可扩展性和高性能在非结构化数据处理和大规模应用开发中占据一席之地。在选择数据库时,需要根据应用需求、数据特性和性能https://developer.huawei.com/home/forum/hwc/thread-02112142096582872004-1-1.html
16.什么是结构化数据和非结构化数据?零代码知识中心二、什么是非结构化数据? 顾名思义,其他所有不能按照行列格式整齐排列的数据都是结构化数据,如录音、视频片段、图像、社交媒体帖子、电子邮件内容、客户服务聊天记录、机器传感器数据等等。据 Gartner 估计,非结构化数据约占企业所有数据的 80%,来自其他机构的估计甚至更高。 https://www.jiandaoyun.com/fe/gdyqhj/