打造精细化标签体系,DATRIX驾驭非结构化数据管理

早在1700年,欧洲印制出了用在药品和布匹上作为商品识别的第一批标签。所以,现在的标签是用来标志您的产品目标和分类或内容,像是给目标确定的关键字词,便于自己和他人查找和定位自己目标的工具。

为什么要给内容打标签?

因为,我们要找一切我们认为有用的东西。

1)快速识别

2)便捷检索

分类和标签的联系与区别

1)建立联系的方式不同

分类是自上而下的,也就是先有分类,而后才有内容。标签是自下而上的,一定是先有内容,才有标签。分类自上而下的特性,有助于“重聚”关键词相同的内容。这就决定了它们的维度不同「分类是抽象化,大纲级别;标签是实例化,关键词级别」。

2)描述的类型不同

分类描述的是属性,故名“分门别类”。花是花,树是树。标签描述的是内容特征,所以叫做“打标签”,有点像“扣帽子”。

数据管理为什么需要标签体系?

传统企业的信息化使用更多的是分类体系,而标签体系是互联网企业的“致胜法宝”。

随着数字化时代的到来,大数据&人工智能等技术掀起了传统企业数字化转型的浪潮。从技术侧来看,转型就是拥抱互联网,战略性地使用数据和IT。

如果将数据管理平台定位成一个存储和管理数据的技术平台,那或许有“分类体系”就可以了。但如果数据管理平台的定位是企业数字化转型的运营中枢系统,要实现对前端业务的支持和赋能,那“标签体系”就是数据管理平台的标配。

分类是自上而下的规划,侧重标准化,标签是自下而上的倒推,注重业务场景。

“数字转型,场景为王”,在“技术+业务”双驱模式的数据管理平台中,标签体系、数据萃取将助力企业运营转型升级。

德拓信息自研的DATRIX智能数据管理平台作为一站式数据平台,提供从数据汇聚、数据存储、管理、搜索、转码、AI处理、发布应用、到归档备份的数据全流程生命周期管理,实现组织数据资源的统一管理与共享交换。

DATRIX目前已在多行业有大量的项目案例,今天,小拓将以以苏州广播电视台为例,来谈谈标签体系在非结构化数据管理中的重要性。

项目需求

随着信息化时代的发展,数据量越来越大,数据的时效越来越急迫。在面对各类业务生产的需求时,作为领先的媒体平台,苏州台对于各类视频、音频、图片文档等非结构化数据管理具有更高的要求。

目前国内大多数电视现有的传统媒体库,在进行素材编辑时,无法对部分素材进行统一的存储,台内素材编辑人员与部门缺少数据共享、归档的意识,导致各类数据利用率低,共享困难。

基于这些需求和痛点,德拓信息为苏州台在DATRIX的基础上定制化打造了影像素材智能管理平台,通过AI智能技术、知识图谱、标签体系等技术对生产资源实现更多层次更细节化的管理,以满足各类业务的生产需求,拓展更多智能化的生产方式。

在管理层面,用从内容信息维度的管理原始级精品素材的方式将取代现在分类式的素材管理模式;

在协同共享层面,通过部门空间应用,加强素材在部门内容有效协同共享;

在服务层面,采用标签检索和图谱等技术,提高素材检索精度,为内容生产系统服务。

标签体系的具体应用

/应用一/

文件标记

通过标签树,分类标签管理功能,实现即时&上传完成后打标签,且提供标签层级关系,极大方便用户后期的文件管理。

1)利用标签树,实现有层级的标签管理,增强t标签的关联性:

(标签树管理)

2)后台设定不同类型文件对应的必填标签,支持即时&上传完成后打标签,极大方便后期的文件管理。

(分类标签管理)

(即时上传完成后打标签)

/应用二/

数据推荐

(基于标签的文件推荐)

/应用三/

智能检索

利用标签树,实现标签推荐:即用户在搜索关键词时,如果该关键词存在于标签树中,那么在搜索页面可为用户推荐搜索词的上级、平级、下级标签,提升搜索的逻辑深度,为用户尽可能找到所需文件。

(搜索标签推荐)

如上图所示,当用户搜索‘姑苏区’时,搜索结果为元数据信息中包含‘姑苏区’的所有文件。同时‘姑苏区’存在于标签树中,故此处推荐标签为‘苏州市’(上级标签)、‘吴中区/吴江区/相城区’(平级标签)。当用户点击推荐标签后,即视为以该标签继续搜索对应文件。

标签检索:DATRIX支持多维度的文件信息检索,其中标签是重要的维度之一。

(文件搜索)

如上图所示,在搜索‘吴中区’时,出现四个搜索结果,此外,标签推荐继续推出关联标签。第一个文件的标签与搜索关键词直接匹配,列为第一,可见标签在文件检索中有着至关重要的地位。

/应用四/

基于德拓AI引擎,给文件自动打标签

在后续版本升级中,DATRIX将支持基于Ai引擎,给不同类型文件自动打标签,例如:针对新闻视频中出现的多人会议/主持人/飞机/汽车等文件,通过转码和Ai引擎处理,自动给该文件打上‘会议’、‘主持’、‘飞机’、‘汽车’等标签,极大提升文件管理及使用效率,帮助用户深入挖掘数据价值。

DATRIX作为德拓信息十年的拳头产品,在媒体、教育、金融、医疗等多个行业沉淀了大量经典案例,目前已服务于CCTV、SMG、复旦大学、中国医科大学、四川大学华西医院、联想之星等单位。

用户场景虽不尽相同,但在各个案例中,标签体系均扮演着极其重要的角色。德拓信息DATRIX产品也将坚定不移的持续优化标签体系在各行业领域的具体落地场景,帮助用户最大程度发掘数据价值,更高效的管理和使用数据。

THE END
1.非结构化数据的定义及处理方法结构化数据指有完整规则的数据模型定义,高度组织格式化,可用统一的结构逻辑表达的数据。如:日期、电话号码等。 非结构化数据指数据定义不完整或不规则,没有预定义的数据模型,无法用数据库二维表结构来逻辑表达的数据。简单来说就是字段可变的数据。常见的非结构化数据有文档、图片、音频、视频等。 https://blog.csdn.net/weixin_52189060/article/details/115489159
2.了解结构化数据与非结构化数据的差异有多种工具可用于处理和分析非结构化数据。这些工具有助于从各种数据格式中提取信息。突出显示处理非结构化数据的工具的最简单方法是根据它们处理的数据类型。 介绍 数据用途广泛,有多种形式,并且可以通过多种方式进行组织。一种常见的分类是结构化或非结构化数据,具有不同的存储、处理和分析方法。了解这些差异有助于https://www.51cto.com/article/789229.html
3.非结构数据怎么分析帆软数字化转型知识库非结构数据指的是不符合特定数据模型的数据类型,这些数据通常包括文本、图像、音频、视频等。与结构化数据不同,非结构数据没有预定义的数据模型,因此在存储、处理和分析时会面临更多的挑战。例如,文本数据需要进行分词和语义理解,图像数据需要进行特征提取和分类,视频数据需要进行帧处理和对象识别。 https://www.fanruan.com/blog/article/644632/
4.非结构化数据包括哪些内容视频数据:视频数据是包含图像和音频的复合数据类型,其处理和分析通常涉及视频识别、行为分析、情感识别等。 社交媒体数据:社交媒体数据是一种特殊的非结构化数据,包括来自社交媒体平台的用户生成内容,如帖子、评论、分享等。 三、非结构化数据的应用 非结构化数据的应用非常广泛,几乎涵盖了所有需要处理和分析大量文本、https://www.zhuflow.cn/news/information/1358.html
5.AnyShare内容数据湖:海量非结构化数据存储与处理的基石·可支持 EB 级的海量非结构化数据和元数据处理,高达 99.999% 的可靠性更强大的方案,更智能的体验 多样化的元数据管理 内容即时分析(Analysis-on-the-Fly) 内容统一检索 内容安全治理 文档管理需要多样的属性表达 ·海量非结构化数据难以描述,难以形成结构化的属性信息以提升识别、理解、查找、利用效率 业务系https://www.aishu.cn/cn/feature/content-lake
6.1+X大数据财务分析职业技能等级标准3.4 结构化数据 structured data 一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都 是一致的并且可以使用关系模型予以有效描述。 3[GB/T 35295-2017,定义02.02.13] 3.5 非结构化数据 unstructured data 不具有预定义模型或未以预定义方式组织的数据。 https://www.scsw.edu.cn/kjx/info/1014/1054.htm
7.墨奇科技宣布完成2.5亿元B轮融资美通社PR图像、视频、音频等非结构化数据在大数据中占比巨大,而现有的方式往往针对特定类型数据来做训练,得到的模型并不通用。如何以统一的方式处理非结构化数据成为AI 未来发展的关键挑战。 墨奇科技开创性地发展了新型AI 知识数据库来解决这一问题。同时,墨奇科技将新型 AI 知识数据库的关键技术首先应用于生物识别这一行业,https://www.prnasia.com/story/319423-1.shtml
8.探索非结构化数据入湖方式及相关技术的最佳实践数字经济观察网数据转换:将非结构化数据转换为结构化格式,如将文本数据进行分词、标记化,将图像数据进行特征提取,将音频数据进行转录等。然后,将转换后的结构化数据导入数据湖中。 智能算法提取:自然语言处理(NLP)和计算机视觉(CV)等人工智能技术可以对文本和图像等非结构化数据进行语义理解、情感分析、图像识别和目标检测等处理,从而https://www.szw.org.cn/20230817/62871.html
9.人工智能技术在群聊类数据分析中的探索5.其他非结构化数据 如表情符号、红包等,也是群聊中常见的交流形式。 二、人工智能技术应用 为了有效处理群聊数据的碎片化、多样化等特性,人工智能技术发挥了重要作用,主要包括: 1.自然语言处理 通过NLP技术,我们能够对群聊中的文字数据进行多种处理,包括分词、词性标注、命名实体识别等。这些处理步骤可以帮助我们更好http://www.51testing.com/mobile/view.php?itemid=7800371
10.2022年中国知识图谱行业研究报告澎湃号·湃客澎湃新闻互联网的海量信息带有碎片化与非架构化特征。新兴互联网应用的蓬勃发展,让完整信息被分类分解为信息片段,信息被大量简化,从而导致信息本身不全面、内在逻辑不完整。同时,文本、图片、各类报表和音频、视频、HTML等非结构化数据广泛存在于互联网中。互联网企业需要在现有的存量业务中,收集碎片化信息,处理非结构化数据,挖掘https://www.thepaper.cn/newsDetail_forward_19458208
11.人工智能区块链算法这30个大数据热词你知道吗?非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。 十七.数据清洗 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据https://cloud.tencent.com/developer/article/1047249
12.如何将非结构化数据转化为结构化数据?将非结构化数据转化为结构化数据的过程通常称为数据抽取(data extraction),其目的是将非结构化数据中的有用信息提取出来,并按照预定的数据模型组织成结构化的数据格式。下面介绍一些常见的数据抽取方法: 自然语言处理(NLP):NLP是一种将自然语言转换为计算机可处理形式的技术,可以通过分词、词性标注、实体识别等技术将文https://www.gokuai.com/press/a189
13.中信证券非结构化数据处理平台建设实践中信证券综合应用OCR、NLP、RPA、搜索引擎、知识图谱等AI技术,在非结构化数据识别解析、自然语言理解与结构化处理、非结构化知识存储与检索等方面,开展公司级非结构化数据处理平台建设。 作者 中信证券股份有限公司信息技术中心 岳丰 王哲 刘殊玥 余怡然 方兴 https://www.secrss.com/articles/53891
14.非结构化数据提取技术在统计工作中的应用摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html
15.非结构化数据管理专家典型应用场景---非结构化数据中台,业务数据共享 ●解决业务系统数据“烟囱割裂”,孤岛数据难以支撑数字化时代业务需求。 ●解决应用系统海量数据存储、扩容、备份困难,以及数据安全等挑战。 ●为应用系统提供多样内容计算能力,诸如格式管理、内容安全、内容检索、内容识别等能力,为应用赋能。 https://www.linkapp.cn/products/42/0
16.数据架构:大数据数据仓库以及DataVault相反,非结构化数据是不可预见的,而且没有可以被计算机识别的结构。访问非结构化数据通常很不方便,想要查找给定的数据单元,就必须顺序搜索(解析)长串的数据。非结构化数据有很多种形式和变体。最常见的非结构化数据的表现形式也许就是文本了。然而无论如何,文本都不是非结构化数据的唯一形式。 https://www.ituring.com.cn/book/tupubarticle/11854
17.非结构化数据中心结构化数据与非结构化数据批处理计算框架MapReduce; 2. 海量数据存储层HDFS/HBase。 来自:百科 查看更多 → 上传数据至OBS及授权给ModelArts使用 对象存储服务(Object Storage Service)是一款稳定、安全、高效、易用的云存储服务,具备标准Restful API接口,可存储任意数量和形式的非结构化数据。 产品详情立即注册一元 域名华为 云桌面 [https://www.huaweicloud.com/theme/103294-3-F