基于python的非结构化数据提取匹配技术在项目运营管理审计中的应用

随着近几年计算机应用技术的迅速发展,以自然语言处理和图像匹配识别算法为代表的人工智能技术正取得较大突破,同时python技术的应用又极大地提升了处理分析的工作效率。在项目运营管理审计中,常常会遇到类型较为固定但数量较多的非结构化、半结构化数据,如长达数年的工作日志、系统运行监测数据、运维台账记录、现场工作照片等。上规模的非结构化、半结构化数据往往包含较为繁杂的信息但价值密度相对较低,使用传统的分析方式难以高效提取全部有价值信息。通过使用基于python的非结构化数据提取技术,对非结构化、半结构化数据进行完整提取并转换为结构化数据,能够保证高价值数据信息不被遗失,根据审计需求可以开展有针对性的匹配分析。本文以2022年度S县本级部门预算执行和决算草案审计项目中延伸的某无线城市WiFi项目运营管理绩效审计为例,探讨基于python的非结构化数据提取匹配技术在项目运营管理审计中的应用。

一、应用背景

经过前期了解及实地查看部分现场点位,审计组将重点确定在核查运维保障期间各点位日常巡检总体工作是否到位,是否有效保障民众使用等方面。考虑到本项目中电子数据形式特点,如果采用人工方式采集运维报告数据,不仅耗时耗力而且难以保证全部有价值数据被完全采集,容易造成“返工”。通过对运维报告数据形式结构分析,发现运维报告形式上较为统一,结构上可进行组件拆分。根据项目实际需求,使用python批量采集文档数据,包括段落文本、内嵌的包括系统正常运行监测数据、日常巡检数据、排除故障数据表格以及现场图像在内的全部非结构化、半结构化数据,完成采集后再应用匹配识别技术查找运维报告中的数据疑点。

?

图1—文档数据批量采集示意图

二、应用过程

经过初步测试,确定使用python的python-docx、opencv、fuzzywuzzy等库实现非结构化数据提取、图像匹配识别、文本匹配识别等功能,实现非结构化数据提取匹配,便于批量筛查运维报告中的数据疑点。其中,使用python-docx库读取Word结构与内部数据,opencv库进行图像匹配识别处理,fuzzywuzzy库用于字符串模糊匹配。

(一)非结构化数据提取

使用python中的os库获取运维报告文档路径列表,依次遍历读取Word文档,根据“文档—组件—数据”的关系对Word文档进行拆分,拆分为段落文本、系统正常运行监测数据表格、巡检排障数据表格、图像数据等子组件。通过python-docx库的doc.paragraphs提取文档中段落文本,使用doc.tables提取文档中表格数据,使用doc.part._rels提取图像,完成后将图像保存到指定路径,对文本数据、表格数据、图像路径数据等数据分别进行处理,依次导入到SQLServer数据库中。

图2—非结构化数据提取步骤流程图

(二)图像匹配识别

针对已经完成采集的图像数据,根据每次巡检排障采集图像数量的记录形成采集图像数量表,将其通过采集图像的年月周字段与巡检维护表进行关联,生成点位图像对应表,将该表存入SQLServer数据库中,该表指定某一时刻点位对应哪几张图像的名称。

对采集图像进行遍历,生成待匹配图像组。通过opencv图像处理库的imread方法读取待匹配图像组中两张图像,存储为Mat矩阵格式的数据,使用感知哈希算法进行图像匹配识别,通过对待匹配的两张图像进行“缩小尺寸(resize)-简化色彩(cvtColor)-计算平均值(avg)-比较像素灰度(compare)-计算哈希值(append)”的操作,获取两张图像的指纹字符串,再对两张图像的指纹字符串进行比对,计算两字符串不相同的位数,即汉明距离,汉明距离越低就表明两张图像的相似度越高,经过实验确定阈值为3,即两张图像指纹字符串的汉明距离小于3时认定为图像匹配成功,高于3认定为图像匹配失败。完成遍历计算后,将待匹配图像组汉明距离计算结果数据导入到SQLServer数据库中。

图3—图像匹配识别步骤流程图

(三)文本匹配识别

图4—文本匹配相似度计算流程图

(四)SQL筛选匹配结果

首先使用SQL语句筛选文本相似度超过阈值90%的匹配文本组和图像汉明距离在3以内的匹配图像组,再将两个匹配中间表进行关联,使用JOIN筛选出图像、文本相似度均实现匹配的巡检维护记录,先按“匹配日期、待匹配日期、点位、待匹配点位”唯一的方式清除重复项,再按“匹配日期升序、待匹配日期升序”的方式进行排序,得到最终筛选匹配数据.

图5—最终筛选出匹配数据示意图

三、应用成效

审计人员对该项目2019年-2021年的运维报告,综合运用非结构化数据提取、图像匹配识别、文本匹配识别、SQL筛选匹配结果的技术方法,将运维报告中的非结构化、半结构化数据提取出来,并运用匹配识别技术筛查出运维报告中的问题疑点。

THE END
1.有哪些非结构化数据导读:非结构化数据包括哪些 非结构化数据包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等。这些数据格式多样、标准多样,不方便用数据 非结构化数据包括哪些 非结构化数据包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等。这些数据格式多样、标准多样,不方便https://www.xz3.com.cn/rjjc/pno617yn7.html
2.非结构化数据挖掘技术应用领域有哪些在现代数据分析的背景下,非结构化数据的挖掘成为一个热门话题。非结构化数据指的是没有预先定义的数据格式的数据,比如社交媒体帖子、视频、音频和图像等。这些数据蕴含着丰富的信息,挖掘这些数据的潜力巨大。本篇文章旨在帮助初学者理解非结构化数据挖掘的技术应用领域及其实现流程。 https://blog.51cto.com/u_16213418/12796230
3.如何高效处理非结构化数据:挑战与解决方案完善的安全保障:够快云库采用了多重安全保障措施,包括数据加密、访问控制、备份恢复等,确保非结构化数据的安全性和完整性。 够快云库非结构化数据管理解决方案为企业提供了高效、智能、安全的非结构化数据处理能力,有助于企业更好地利用这些数据资源,提升业务竞争力和创新能力。https://www.gokuai.com/press/a683
4.一文了解非结构化数据治理在大数据时代,数据已经成为企业决策和竞争的重要资源。然而,随着数据量的不断增加,非结构化数据的处理和管理成为了一项重要的挑战。本文将深入浅出地介绍非结构化数据的定义、治理方法、存在的问题以及解决方案,并为读者提供好的非结构化数据治理应用的建议及方法。 http://www.360doc.com/content/23/0821/23/48115167_1093378988.shtml
5.Python实战:非结构化数据分析非结构化数据处理非结构化数据分析是指对文本、图像、声音、视频等非结构化数据进行处理和分析的技术。在当今大数据时代,非结构化数据无处不在,包括社交媒体、电子邮件、网络日志、视频监控数据等。Python作为一种强大的编程语言,提供了丰富的库和框架,用于处理和分析非结构化数据。本文将详细介绍Python在非结构化数据分析中的关键技术,https://blog.csdn.net/oandy0/article/details/137567962
6.真实世界研究非结构化数据处理真实世界研究(Real-Word Studies, RWS)是指以参与者在日常临床实践中遇到的真实情况为基础的研究。要得到精准的研究结果,往往需要高质量的结构化数据。面对海量的文本数据,我们如何得到高质量的结构化数据呢,今天就给大家分享一个简单高效的数据处理方法。 https://zhuanlan.zhihu.com/p/624400400
7.非结构化数据的处理?非结构化数据处理概述?自然语言处理技术概述?自然语言处理的基本技术 什么是非结构化数据 相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像https://wenku.baidu.com/view/c0b0cb190440be1e650e52ea551810a6f524c89c.html
8.深度学习中如何处理非结构化数据问答在深度学习中处理非结构化数据通常需要将其转换为结构化数据或者通过一些特定的方法进行处理。以下是一些常见的处理非结构化数据的方法:1. 文本数据处理:对于文本数据,可以使用自然语言处理技术来进行处理https://www.yisu.com/ask/76665145.html
9.“平民化”非结构数据处理腾讯云开发者社区在全球信息产业高速发展的背景下,IDC预测,2018 到 2025 年之间,全球产生的数据量将会从 33 ZB 增长到 175 ZB, 复合增长率27%,其中超过 80%的数据都会是处理难度较大的非结构化数据,如文档、文本、图形、图像、音频、视频等。非结构化数据在大数据时代的重要地位已成为共识。近些年,伴随着大数据存储、人工智能(https://cloud.tencent.com/developer/article/2214210
10.非结构化数据管理专家深圳市连用科技有限公司(Shenzhen LinkAPP Technology Co., Ltd 简称LinkAPP)成立于2008年,是一家专注于非结构化数据管理和应用的国家认定高新技术企业和深圳市政府重点扶持的软件企业,总部位于深圳,在北京、上海、广州、海口等多地均设立有办事机构,建立了辐射全国的https://www.linkapp.cn/products/42/0
11.AnyShare内容数据湖:海量非结构化数据存储与处理的基石·可支持 EB 级的海量非结构化数据和元数据处理,高达 99.999% 的可靠性更强大的方案,更智能的体验 多样化的元数据管理 内容即时分析(Analysis-on-the-Fly) 内容统一检索 内容安全治理 文档管理需要多样的属性表达 ·海量非结构化数据难以描述,难以形成结构化的属性信息以提升识别、理解、查找、利用效率 业务系https://www.aishu.cn/cn/feature/content-lake
12.非结构化数据如何挖掘帆软数字化转型知识库非结构化数据的挖掘可以通过多种方法实现,包括自然语言处理(NLP)、机器学习、文本挖掘、图像和视频分析。自然语言处理是一种广泛应用的方法,通过分析和理解文本数据的语义结构来提取有用的信息。NLP可以帮助企业从大量的文本数据中获取有价值的洞察,例如用户评论、社交媒体帖子和电子邮件。通过使用NLP技术,企业可以识别情感https://www.fanruan.com/blog/article/611442/
13.为什么我们称文本为“非结构化”?有趣的问题之一是:如果计算机不能有效地处理非结构化数据,那么非结构化数据可以转换为结构化格式吗?您可以使用文本歧义消除来摄取原始的非结构化文本,并将非结构化文本的重要部分转换为结构化格式,同时保持非结构化数据的本质,这就像骑着自行车穿过横跨尼亚加拉大瀑布的钢丝,而杂耍的猴子飞奔而过,不是为了胆小的人。 https://www.chinacpda.com/data/detail/?id=1951
14.Zilliz@阿里云:大模型时代下向量数据库处理非结构化数据的最佳实践为探讨这些问题,近日,阿里云联合 Zilliz 和 Doris 举办了一场以《大模型时代下的数据存储与分析》为主题的技术沙龙,其中,阿里云对象存储 OSS 上拥有海量的非结构化数据,Milvus(Zilliz)作为全球最有影响力的开源向量数据库项目 、Doris(飞轮科技)作为热门的数据分析项目,都积累了丰富的非结构化数据处理和分析的最佳实践https://tech.china.com/article/20230923/092023_1412989.html
15.IBMCloudObjectStorage在银行业非结构化数据存储嘲下的对象NAS存储的优势是适用于文件共享,无需调整接口,通过标准的NFS或CIFS接口给业务应用提供数据访问的接口。缺点是在处理多级目录和海量非结构化文件同样遇到问题。NAS存在卷容量受限、弹性扩容能力下降、文件数量受限、单位容量成本升高等问题,目前针对海量数据文件的存储均通过多个NAS卷存储、历史数据及时归档等方法临时性地https://redhat.talkwithtrend.com/Article/242823
16.什么是非结构化数据?非结构化数据完整指南Elastic定义非结构化数据并探索数据示例以理解它与结构化数据有哪些不同。了解如何分析非结构化数据,非结构化数据的优点和带来的挑战。https://www.elastic.co/cn/what-is/unstructured-data
17.什么是非结构化数据?我们所处理的数据分为三类,分别是规格化数据、半结构化数据以及非结构化数据,其中非结构化数据的定义为:呈现出不规则且无明显结构特征的数据。 -规格化数据:数据与字段相对应,数据以表格和数据集形式存在。 -半结构化数据:这种数据形态介于规格化数据和非结构化数据之间,方法是结合不明晰的规则来补足规格化数据的缺陷。https://www.filez.com/news/detail/faee08ab6bdc85c2d6216e4773bcc01f.html
18.人工智能技术在群聊类数据分析中的探索5.其他非结构化数据 如表情符号、红包等,也是群聊中常见的交流形式。 二、人工智能技术应用 为了有效处理群聊数据的碎片化、多样化等特性,人工智能技术发挥了重要作用,主要包括: 1.自然语言处理 通过NLP技术,我们能够对群聊中的文字数据进行多种处理,包括分词、词性标注、命名实体识别等。这些处理步骤可以帮助我们更好http://www.51testing.com/mobile/view.php?itemid=7800371
19.适用于非结构化数据的戴尔科技云平台存储解决方案Dell中国适用于 AWS 的 APEX File Storage 可将 PowerScale OneFS 扩展到 AWS 环境,为客户提供强大的软件定义的文件存储解决方案,以满足数据密集型工作负载的需求。 阅读博客 相关产品/服务 戴尔AI 就绪型数据平台 高效处理 EB 级非结构化数据,为 AI 和分析提供支持 https://www.dell.com/zh-cn/dt/solutions/cloud/powerscale-for-google-cloud.htm
20.非结构化数据怎么治理?最近遇到几个项目,都跟非结构化数据脱不开关系。老彭刚毕业的时候,做的是数据库的活儿,那都是结构化数据。后来有了hadoop技术,可以用来处理物联网、互联网的半结构化数据。真正做非结构化的场景还是比较少的,大多是在项目中选取一两个点给意思意思一下。https://www.niaogebiji.com/article-139650-1.html
21.审计观察非结构化文本数据的自然语言分析在政策跟踪审计中的应用针对文本类非结构化数据,可以使用大数据自然语言分析技术进行加工处理。通过文本对比分析,从大量政策中选择优先关注的政策领域、精准识别关键问题,准确高效确定审计重点,并通过语义智能分析和文本关联研判,考察下级传达上级政策的情况,为审计下级是否落实上级政策提供参考依据。https://www.thepaper.cn/newsDetail_forward_18036594
22.非结构化数据(UnstructuredData)数据采集名词优点:非结构化数据通常包含丰富的信息,可以提供有关用户情感、趋势和情境的深刻见解。非结构化数据以多种形式存在,可用于多种用途,从文本和图像到音频和视频。 缺陷:非结构化数据处理通常比结构化数据复杂,需要先进的技术和工具。数据来源不同、质量不一致,导致数据清洗和标准化困难。涉及用户生成内容的数据可能涉及隐https://www.houyicaiji.com/?type=post&pid=12136