数据类型的多样性:结构化数据半结构化数据非结构化数据PurStar

针对不同的应用,我们采集到的数据类型丰富多样,包括表格数据、HTML网页文件、XML文件、RDF(ResourceDescriptionFramework,资源描述框架)数据、文本数据、图(社交网络)数据、多媒体数据(音频/视频/图像)等。这些数据可以划分成结构化数据、非结构化数据和半结构化数据等不同类型。

结构化数据,可以从名称中看出,是高度组织和整齐格式化的数据。结构化数据可以轻易放入表格和电子表格中的数据类型,典型的比如使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。

另一方面,结构化数据也被成为定量数据,是能够用数据或统一的结构加以表示的信息,如数字、符号。在项目中,保存和管理这些的数据一般为关系数据库,当使用结构化查询语言或SQL时,计算机程序很容易搜索这些术语。结构化数据具有的明确的关系使得这些数据运用起来十分方便,不过在商业上的可挖掘价值方面就比较差。

半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。

常见的半结构数据有XML和JSON,对于对于两个XML文件。

属性的顺序是不重要的,不同的半结构化数据的属性的个数是不一定一样的。有些人说半结构化数据是以树或者图的数据结构存储的数据,怎么理解呢?上面的例子中,标签是树的根节点,和标签是子节点。通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据)。所以,半结构化数据的扩展性是很好的。

非结构化数据,数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。本质上是结构化数据之外的一切数据,其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。它不符合任何预定义的模型,因此它存储在非关系数据库中,并使用NoSQL进行查询。它可能是文本的或非文本的,也可能是人为的或机器生成的。简单的说,非结构化数据就是字段可变的的数据。

非结构化数据不是那么容易组织或格式化的。收集,处理和分析非结构化数据也是一项重大挑战。这产生了一些问题,因为非结构化数据构成了网络上绝大多数可用数据,并且它每年都在增长。随着更多信息在网络上可用,并且大部分信息都是非结构化的,找到使用它的方法已成为许多企业的重要战略。更传统的数据分析工具和方法还不足以完成工作。

除了存储在关系数据库和存储非关系数据库之外的明显区别之外,最大的区别在于分析结构化数据与非结构化数据的便利性。针对结构化数据存在成熟的分析工具,但用于挖掘非结构化数据的分析工具正处于萌芽和发展阶段。

并且非结构化数据要比结构化数据多得多。非结构化数据占企业数据的80%以上,并且以每年55%~65%的速度增长。如果没有工具来分析这些海量数据,企业数据的巨大价值都将无法发挥。

随着储存成本的下降,以及新兴技术的发展,行业对非结构化数据的重视程度得到提高。比如物联网、工业4.0、视频直播产生了更多的非结构化数据,而人工智能、机器学习、语义分析、图像识别等技术方向则更需要大量的非结构化数据来开展工作。

(1)结构化、半结构化、非结构化其实是按照数据格式分类。

(2)严格讲,结构化与半结构化数据都是有基本固定结构模式的数据

(3)半结构与非结构化数据与目前流行的大数据之间只是有领域重叠的关系,本质讲两者并无必然联系。

(4)业界有将大数据认同为半结构/非结构化数据,是因为大数据技术最初是在半结构化数据领域发挥作用,其本质是将数据处理技术与数据格式混淆,是不正确的。

结构化数据,关系模型数据,即以关系数据库表形式管理的数据。定义为关系模型最为妥善,因为它准确的代表了我们传统上最熟悉的企业业务数据。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

非结构化数据,没有固定模式的数据,包括视频、音频、图片、图像、文档、文本等形式。具体到典型案例中,像是医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用,这些行业对于存储需求包括数据存储、数据备份以及数据共享等。

半结构化数据,非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、Email等。包括邮件、HTML、报表、资源库等等,典型场景如邮件系统、WEB集群、教学资源库、数据挖掘系统、档案系统等等。这些应用对于数据存储、数据备份、数据共享以及数据归档等基本存储需求。

数据科学交流群,群号:189158789,欢迎各位对数据科学感兴趣的小伙伴的加入!

THE END
1.用机器学习解决非结构化数据问题随着非结构化数据变得越来越普遍并且与日常业务决策和运营更加相关,基于 ML 的质量控制可提供急需的保证,确保您的数据相关、准确且有用。当您不关心数据质量时,您可以专注于使用数据来推动业务发展。 想想当您控制数据时出现的可能性——或者更好的是,让 ML 为您处理工作。https://zhuanlan.zhihu.com/p/591740592
2.软件系统架构黄金法则13:非结构化数据存储架构法则随着数据的增长和复杂性,非结构化数据存储技术变得越来越重要。非结构化数据包括文本、图像、音频、视频和其他不符合结构化数据库的数据。传统的结构化数据库无法有效地存储和管理非结构化数据,因此需要一种新的存储架构来处理这些数据。 本文将涉及非结构化数据存储架构的核心概念、算法原理、最佳实践、实际应用场景和工https://blog.csdn.net/universsky2015/article/details/135778787
3.什么是非结构化数据?我们所处理的数据分为三类,分别是规格化数据、半结构化数据以及非结构化数据,其中非结构化数据的定义为:呈现出不规则且无明显结构特征的数据。 -规格化数据:数据与字段相对应,数据以表格和数据集形式存在。 -半结构化数据:这种数据形态介于规格化数据和非结构化数据之间,方法是结合不明晰的规则来补足规格化数据的缺陷。https://www.filez.com/news/detail/faee08ab6bdc85c2d6216e4773bcc01f.html
4.数据中台的技术架构有哪些帆软数字化转型知识库数据中台的技术架构包括:数据接入层、数据存储层、数据处理层、数据服务层、数据安全层、数据运营层。数据接入层是数据中台技术架构中的第一步,其主要功能是从各种数据源中采集和接入数据,包括结构化数据、半结构化数据和非结构化数据。通过数据接入层,企业能够将不同来源的数据统一接入到数据中台,确保数据的全面性和https://www.fanruan.com/blog/article/639918/
5.HitachiVantara吴卫平:以非结构化数据存储管理解决方案,推动企业在非结构化数据存储管理上,Hitachi Vantara并非仅是推出一个单一的产品,而是结合Hitachi Vantara的技术和运营经验,为用户提供一个整体的框架;同时,结合Hitachi在IT领域长期的数据采集、分析能力,使得平台+业务构成为一个完整的解决方案,帮助用户实现业务重构,推动企业的数字化转型。这即是Hitachi Vantara的宏大愿景。 https://www.51cto.com/article/625502.html
6.软考高级——信息系统项目管理师(第4版)思维导图模板越来越多的产品中嵌入了智能化元器件,使产品具有越来越强的信息处理功能 产业信息化指农业、工业、服务业等传统产业广泛利用信息技术,大力开发和利用信息资源,建立各种类型的产业互联网平台和网络,实现产业内各种资源、要素的优化与重组,从而实现产业的升级。 https://www.processon.com/view/654c455f8f11b40fe56ece43
7.大数据技术原理与应用期末复习知识点全总结(林子雨版2.数据存储和管理层面 功能:利用分布式文件系统、数据仓库、关系数据库、NoSQL 数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理 3.数据处理与分析层面 功能:利用分布或并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好https://developer.aliyun.com/article/1418435
8.《华为数据之道》读书笔记:第5章面向“联接共享”的数据底座建设1 支撑非数字原生企业数字化转型的数据底座建设框架 华为公司通过建设数据底座,将公司内外部的数据汇聚在一起,对数据进行重新组织和联接,让数据有清晰的定义和统一的结构,并在尊重数据安全与隐私的前提下,让数据更易获取,最终打破数据孤岛和垄断。 ? 通过数据底座,主要可以实现如下目标: https://xie.infoq.cn/article/ca685bfdce0341b1280fb71b0
9.Milvus旨在帮助用户实现海量非结构化数据的近向量搜索引擎 Milvus 旨在帮助用户实现海量非结构化数据的近似检索和分析。单个 Milvus 实例可处理十亿级数据规模,而对于百亿或者千亿规模数据的需求,则需要一个 Milvus 集群实例,该实例对于上层应用可以像单机实例一样使用,同时满足海量数据低延迟、高并发业务需求。集群内部处理请求转发、读写分离、水平扩展、动态扩容,https://juejin.cn/post/6844904105672966158
10.非结构化数据提取技术在统计工作中的应用摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html
11.如何把非结构化的数据转结构化?2. 非结构化数据转化成结构化数据 3. 构建知识图谱、构建搜索及推荐引擎 2.如何建立全息档案? 建立全息档案的技术框架包括 Web 索引层、知识图谱层和应用层三部分。 Web 索引层是我们逐步做出的一个「搜索引擎」,每天不断爬取互联网中的网页,留下可能与我们感兴趣的机构——我们称为种子机构——相关的部分,经过https://www.jianshu.com/p/d41516910ce2
12.了解结构化数据与非结构化数据的差异数据用途广泛,有多种形式,并且可以通过多种方式进行组织。一种常见的分类是结构化或非结构化数据,具有不同的存储、处理和分析方法。了解这些差异有助于从任何数据集中提取有价值的见解。 结构化数据与非结构化数据:主要区别 结构化和非结构化数据在许多方面都有所不同。两者都使用不同的工具和方法来处理和分析信息https://www.360doc.cn/article/68899713_1124424478.html
13.干货!非结构化数据分析的10个步骤腾讯云开发者社区4. 存储数据准备 数据准备意味着要处理在数据中删除所有的空白,格式化等问题。现在,当企业拥有所有的数据时,不管是否对业务有用,一旦准备好数据,就可以开始整理一堆有用的数据,并索引非结构化数据。 5.采用数据堆栈和存储技术 消除无用的数据后,堆叠数据是理想的下一步。请务必使用最新的技术来保存和堆叠数据,以便https://cloud.tencent.com/developer/article/1008189