程序员发掘非结构化数据价值:AI在文档理解领域的现状与未来IDP技术干货

幸运的是,AI领域正在悄然孕育一场革命性变革,它将帮助我们攻克长期以来困扰非结构化数据处理的种种困难。

作者|AnthonyAlcaraz

编译|岳扬

然而,在更专业的人工智能领域——文档理解,也在悄然发生着同样深刻的变化,尽管这种变化并不那么轰动。这一领域的最新进展有望实现自动推理非结构化企业数据中的大量信息,或将进一步推动人类生产力的发展、提质。

据估计,超过80%的潜在可用业务信息存储在扫描文档、表格、合同、电子邮件和其他非结构化数据源(unstructureddatasources)中。这是一笔惊人的知识财富。然而,计算机在处理这些信息时,缺乏人类所具备的直觉和对细节的理解能力。

当今最优秀的人工智能系统能够以相当高的准确率识别日期、名称和金额等信息。但是,对于概念之间层次关系的深层语义把握、基于证据进行逻辑推理,以及其他处理非结构化数据时将会面临的复杂情况和难题,目前仍然是一大挑战,需要进一步突破。

能够最终破解这些难题的关键创新技术已经问世——这些模型将强大的处理自然语言的神经网络模型(neurallanguagefoundations)与利用Graphicalandspatialencoding(译者注:这种方法用于将文档结构和内容以图形化或空间化的方式编码成计算机可以理解和处理的形式。)理解文档结构的能力相结合。

语言模型对文本媒介(textualmediums)的掌握,再与处理图像和音频的架构进步相结合,为文档分析(documentanalysis)领域的突破性应用奠定了基础,这些应用有望极大地提高人类的生产效率。

GeneratedbyDall-E-3

文档理解的主要挑战在于,与结构化数据不同,文档中既包含了复杂的视觉元素,如表格、图表等,又包含了自然语言的文字描述,且文字排列方式灵活自然,不受严格的结构限制。人类的推理能力可以轻松地处理这些错综复杂的信息,但计算机却很难复制人类这种能力。

与纯文本不同,文档使用诸如表格、图表、页眉和页脚之类的视觉结构来传达信息之间的联系。要推理出这些关系,就需要分析页面上各元素的positioning(译者注:元素在页面上的位置)、proximity(译者注:元素之间的接近程度或距离)和boundingboxes(译者注:围绕元素的边界框,用于确定元素在页面上的位置和范围),而不仅仅是单独处理文本。

文档中语言表达的自由性和灵活性会给理解和处理文档带来挑战。复杂的语法、双重否定、讽刺、零散的文本、领域术语等都需要根据上下文进行理解。

预训练语言模型已经可以很好地理解语言中存在的细微差别。但是,要可靠地解释合同、财务报告或医疗记录中的独特语言模式,针对特定领域的文档进行微调是必不可少的。

可供学习的资料:

DocLLM和DocGraphLM(来自摩根大通)都建立在先进的神经语言模型之上,利用其丰富的语言知识和文本理解能力。

具体而言,DocLLM通过将文档的空间布局结构信息融入自注意力机制的计算过程中,对基于标准Transformer架构的大语言模型进行了扩展和增强。

与此同时,DocGraphLM将图神经网络(graphneuralnetworks)与预训练的语言模型嵌入相融合,实现了对文本语义和结构语义的统一表征和建模。

因此,它们既保留了基础模型的语义分析优势,同时通过对模型进行增强或改进,使其能够更好地适应文档处理的需求和特点。

这些模型的一个主要区别在于,它们各自采用了不同的技术方案来处理文档中的组织结构、排版布局、段落安排等视觉结构信息:

DocLLM引入了一种解耦的空间注意力机制(disentangledspatialattentionmechanism),允许在Transformer框架中对文本内容和文档空间布局结构信息这两种不同的数据模态并行建模。

另一方面,DocGraphLM则以图的形式清晰地表示文档的结构和内容,将文本段落映射为图的节点,并捕获它们之间的空间关系。

因此,一个模型采用了Transformer方法,另一个模型使用了图形化方式来表示或呈现语义信息——两种方法都被证明是有效的。

这两个模型都使用适用于文档的自监督学习目标(Self-supervisedobjectives)进行预训练:

DocLLM的训练任务包括填充和屏蔽文本块,以便在generativemodeling(生成式模型的构建)过程中处理不规则的文档布局。

DocGraphLM通过学习如何预测缺失的连接以重构完整的图形结构,以将文档结构转换成一个向量或者一种表示形式,以便模型能够更好地理解文档的组织结构和关系。

预训练推动了多模态文档理解能力的发展。

语言模型对文本媒介的强大理解和处理能力,加上多模态理解方面的架构进步,为文档分析领域的突破性应用奠定了基础:

在大多数企业中,通过人力进行信息提取仍然是主流做法。但人工智能有望通过检测文档中的实体、实体之间的关系和文档中可能存在的层次结构(entities,relationshipsandhierarchies),自动完成高达50-60%的标注工作。这将极大地提升分析师的生产力,并推动下游的分析工作。

将文档理解功能直接嵌入到BI系统中,可以使某些信息得以被发现或理解。销售报告可以将交易记录联系起来,展现的竞争对手情报可以将市场份额的变化与产品发布等联系起来。

分析法律合同实现合规风险的评估,为财务审计中某个论断或主张提供可信的证据或支持并协助调查等,这些都是BI能够为法律团队和合规团队带来较大帮助的领域。

虽然RAG核心系统专注于检索和生成这一机制,但还可以集成额外的后处理模块,以实现自动化任务(automatedtask)的完成。这有助于RAG模型在实际业务工作流程中的运用。

通过将RAG系统置于具有对话管理的对话框架(conversationalframework)中,它们可以成为企业助手,实现文档理解的自动化。该Agent负责处理交互——理解用户的意图、对信息传递过程进行引导或管理,并在整个对话过程中保持上下文(context)。

为了优化与RAG系统进行交互的自动化Agents,可以使用强化学习逐步改进决策策略,以便根据文档理解结果采取行动。Agents可学习如何采取一系列有效的行动,以达到特定的业务目标或实现某些任务。

它预示着一场通过即时获取信息和利用技术或工具自动执行日常性的智力任务来提高人类生产力的革命即将到来。但是,负责任的发展要求在进步速度加快的同时,也要确保决策和行为的公平性、透明度和责任性。

因此,虽然生成模型的进步不断登上媒体头条,但变革性的变化往往在静谧的角落中悄然酝酿,然后爆发出来。而documentAI可能很快就会从那星星之火转变为熊熊烈火,照亮人工智能下一个时代的道路。

Thanksforreading!

————

AnthonyAlcaraz

ChiefAIOfficer&Architect:BuilderofNeuro-SymbolicAISystems@FriblenhancedGenAIforHR

END

原文链接:

IDP是AI训推云平台,旨在为企业和机构提供算力资源、模型构建与模型应用于一体的平台解决方案,帮助企业高效快速构建专属AI及大模型。

THE END
1.大数据时代的非结构化数据处理技术随着大数据时代的到来,数据呈现爆发式增长,其中非结构化数据占据了大部分。非结构化数据包括文本、图像、视频、音频、社交媒体内容等,由于其多样性、无规则的格式和分散性,传统的数据处理工具难以应对。为了从这些海量数据中提取价值,非结构化数据处理技术应运而生,成为企业提升效率和竞争力的关键工具。 https://www.gokuai.com/press/a1165
2.非结构化数据提取技术在统计工作中的应用摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html
3.非结构化数据分析技术非结构化数据主要包括6 非结构性数据预处理 非结构化数据是数据结构不规则或者说是不完整,没有预设的数据模型或者结构,不便使用数据库、模型及标准的数据接口表现的数据,包括所有格式的文本、图片、各类报表、图像、音频、视频数据等。 计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据的形式非常多样,标准也具有多样性https://blog.51cto.com/u_16099165/6757640
4.非结构化数据分析为什么要关注欺诈识别和预防领域的非结构化数据分析 // 149 非结构化数据分析的好处 // 153 欺诈领域的非结构化数据分析是什么 // 157 非结构化数据分析如何在欺诈识别和预防中发挥作用 // 159 用于欺诈识别和预防的非结构化数据分析框架:保险 // 162 主要的欺诈识别和预防技术 // 165 使用非结构化数据分析https://baike.baidu.com/item/%E9%9D%9E%E7%BB%93%E6%9E%84%E5%8C%96%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/60021270
5.结构化与非结构化的区别多源异构数据源半结构化数据结构化与非结构化数据的区别?这里有答案!? 当代,高新技术发展迅速,大数据作为新兴潜力股也发展迅猛,人们不断探索数据分析、数据处理以及数据可视化等的深度,那么,活在这个时代的你,对结构化与非结构化数据了解多少?对多源异构数据源又多少了解?下面让我们一起来详细学习一下吧。https://www.fanruan.com/bw/doc/154297
6.IBMCloudObjectStorage在银行业非结构化数据存储嘲下的对象随着银行业IT技术的快速发展和业务的不断升级变革,业务应用系统产生的非结构化数据(包括文件、图片、音视频文件等)的规模也越来越大,银行业非结构化数据呈指数式爆发式增长。目前使用非结构化数据的主要系统包括内容管理平台、后督影像系统、身份验证、柜员办业务扫描件等需要用到影像图片,以及呼叫中心系统、电话客服的https://redhat.talkwithtrend.com/Article/242823
7.探索非结构化数据入湖方式及相关技术的最佳实践数字经济观察网伴随着人工智能的兴起和数据湖的广泛应用,非结构化数据入湖变得尤为重要。非结构化数据,如文本、图像、音频和视频等,包含了丰富的信息,但由于其复杂性和多样性,传统的数据管理和分析方法往往无法充分利用这些数据的潜力。然而,结合人工智能和数据湖的技术和方法,可以有效地处理和分析非结构化数据,从中挖掘出有价值的https://www.szw.org.cn/20230817/62871.html
8.大数据技术原理与应用期末复习知识点全总结(林子雨版内容:随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等 第二阶段:成熟期 时间:21世纪前10年 内容:Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式https://developer.aliyun.com/article/1418435
9.行政管理论文15篇这势必导致学生处理社会现实问题和交往能力的技能很难有所提升,他们的知识结构、能力结构和素质明显存在不平衡,很难适应信息社会高速发展的需要。操作性和实践性教学严重薄弱。虽然目前我国高校《行政管理学》课程内容体系一般都设置了教学实习、实训等实践环节,但由于其时间短、任务重,而且管理松散,缺乏常态化和规范化,https://www.ruiwen.com/lunwen/6220159.html
10.engineering):利用领域知识和现有数据,创造出新的特征,用于具体涵盖了结构化与非结构化、定量与定性数据的区分,数据清洗中的数据对齐、缺失值处理、异常值处理等方法,特征构造中的统计量构造、周期值、数据分桶、特征组合,特征选择的三种形式及多种具体方法,特征变换的标准化、归一化、区间缩放、非线性变换等,还讨论了离散变量处理和降维的多种方法,并在最后进行了总结。https://juejin.cn/post/6874516288149028872
11.“平民化”非结构数据处理腾讯云开发者社区在全球信息产业高速发展的背景下,IDC预测,2018 到 2025 年之间,全球产生的数据量将会从 33 ZB 增长到 175 ZB, 复合增长率27%,其中超过 80%的数据都会是处理难度较大的非结构化数据,如文档、文本、图形、图像、音频、视频等。非结构化数据在大数据时代的重要地位已成为共识。近些年,伴随着大数据存储、人工智能(https://cloud.tencent.com/developer/article/2214210
12.结构化半结构化和非结构化数据都有哪些非结构化数据是指没有预定义数据模型的数据,这使得它难以通过传统的数据库和数据模型进行处理和分析。 举例: 文本文件:如新闻文章、报告、电子邮件正文等。 媒体文件:如图片、音频和视频文件。 社交媒体内容:如微博、博客文章、评论等。 每种数据类型都有其特定的存储、管理和分析技术。在大数据和数据科学领域,处理https://www.jianshu.com/p/7018b1bef624