知识图谱技术:工程化视角下的知识图谱特性及支撑应用总结刘焕勇

目前,各大知名公司也陆续推出了自己的知识图谱产品,如百度知心、搜狗知立方、阿里巴巴的商品知识图谱、微软的概念知识图谱、Facebook的社交知识图谱等,初级阶段的行业知识图谱也开始落地,如金融领域中的知识图谱查询平台企查查、情报领域在抓捕本拉登时斩获战功的palantir(虽然技术细节弄不清楚)。

不过,从这些应用中,我们发现,一项成功的应用,是要解决一个特定场景下的特定问题的,而特定问题的解决对解决的手段有严格的定义和约束,知识图谱也是一样。它的应用场景肯定是与知识图谱自身的技术特征相匹配的。

本文主要从工程化的视角谈谈知识图谱与语义网络、语义网的区别,并归纳出知识图谱的技术特性,以及各技术特性所支撑的应用形态,以增强对该技术的理解。

一、再谈知识图谱的工程化理解

知识图谱本质上是一个语义网络,是当下大数据以及应用驱动的综合性结果。

语义网络提出得最早,在1960年代提出,这是为了描述人类知识而采用的一种图结构表示方法,这种表示方法与语义网、知识图谱在表现形式上基本一致;

进入21世纪,互联网开始萌芽,为了实现万物互联,对网络上的资源进行统一标记,语义网在语义网表达方式的基础上引入了基于本体的语义层次化组件,对资源的类型、构成以及表示方式都进行了严格的定义,但这样的结果就是过于“学术”,知识表达过重,而无法进行快速工程化以及满足行业知识处理的需求。

进入2010年后,随着软硬件的发展以及互联网的大规模普及,各行各业都积累了大量的数据,进入“信息过载”时代,因此,如何进行知识简化,并支持工程化应用的知识图谱对“语义网络”和“语义网”有了更高的要求。

下表对三者之间的区别进行了对比:

我们可以看到:

语义网是与语义网络不同的概念,语义网络的出发点不是为了描述人类知识,而是为了表示web资源,属于web资源的一种描述框架,为了“共享”、“标准”设计了一些十分繁重的规范标准。

与语义网中所描述的以网络资源作为唯一实体不同,知识图谱中的节点是以实体作为表示,在本体表示上是对语义网的一个简化版本,对语义表示这块的约束进一步弱化,在逻辑的语义表达方面降低了要求,并突出以事实型知识为主的重要性。

如,Freebase知识表示框架只包含对象-Object,事实-Facts,类型-Types和属性-Properties,一般的领域知识图谱只定义实体类型、实体关系类型、实体属性类等,相当于只是采用了语义网中的RDF层次,而弱化RDFschema以及本体OWL。不过,对语义和逻辑的弱化,使得知识图谱本身不具备推理能力(语义网可以通过预先定义好的规范标准进行推理)。

2、知识图谱的工程化视角

身处不同背景的人对知识图谱会有不同的理解。我们可以从几个方面来看:

从AI的视角来看,知识图谱是自然语言处理中的一项关键技术,目的在于使用实体识别、实体关系(属性)抽取、实体对齐与融合技术对知识进行结构化,这个观点通常来自于算法工程师;

从数据库视角来看,知识图谱是一种新型的知识存储结构,即采用图的方式来对数据进行存储,如代表性的RDF数据库、Neo4j图数据库等,这个观点主要来自于数据库存储、设计等的数据工程师;

从知识表示视角来看,知识图谱是计算机理解知识的一种方法,采用事实三元组的形式进行知识表示,并在此基础上实现智能推理,倾向于理论计算机研究员;

从web视角来看,知识图谱是知识数据之间的一种语义互联或组织形式,通过对数据的标记和链接,形成对数据的互联,这个在做情报分析人员(以图书馆研究员为代表);

此外,在应用上,目前将知识图谱等同于知识图谱可视化和基于知识的问答的理解还有很多,这是知识图谱的最终呈现形态,是最朴素的理解方式。

二、基于知识图谱抽象性的问答决策应用

语义抽象与图结构是知识图谱的一项重要特征。知识图谱是一种很抽象的知识表示形式,它将知识从上下文语义丰富的自然描述中抽象并抽离出来,形成以<实体,关系,实体>为表达形式的图结构。

这种高度语义抽象的图结构是知识图谱最为重要的技术特征,将知识进一步概括成为一个词、一个短语或者一句话,这使得在查询、问答等应用场景中能够给出直截了当的结果,例如,在百度中询问珠穆朗玛峰高度时,直接返回“8848.86m”这一答案。

1、更直接、更丰富、更简洁的搜索结果

与之前传统搜索方式不同,基于知识图谱的搜索问答,可以使得结果更为准确,面对用户搜索关键词意义的多重性,知识图谱可以展示最全面的信息,提供更多机会命中用户需求。

又如,在搜索“珠穆朗玛峰”后,能够得到“乔戈里峰”等其他高峰信息和链接方式。

2、基于业务知识抽象的决策辅助

由于知识图谱中所存储的知识单元是对业务知识的抽象和业务逻辑的抽象,这种思想与搜索之外的场景相结合后,能够引申出诸多场景。

在以石油领域为代表的传统行业中,构建设备知识图谱,将设备的生产参数变化转换为状态变化和各种生产现象,模拟专家分析设备运行过程,对设备运行状态进行预测,可以基于不同生产现象的变化在决策图谱中自动选择最优措施方案,生成决策建议,通知现场管理人员进行现场作业和处理;

在供应链领域,可以收集产品知识、物流知识、采购知识、制造知识、交通信息等数据构建供应链及零部件图谱,将采购、物流、制造联系起来,实现供应链风险管理与零部件选型等服务。

三、基于只是图谱图结构的信息穿透

知识图谱提供了数据的全局视图和更语义化的表达,给从业者带来了大数据驱动的决策能力。

知识图谱的图结构,将知识节点之间进行关联,形成了一个庞大的知识网络,这个网络可以按着“文不如表、表不如图”的信息展示优先级,与数据可视化进行联手,如以Citespace,D3js等可视化手段实现的实体点击、展开、拖拽、缩放等样式,在视觉上展现出知识之间路径发现能力。

在这个基础上,也为信息穿透在各个领域的后续分析提供了基础。

1、基于图谱信息穿透的金融风险监控

2、基于图谱信息穿透的公安侦查分析

与金融领域类似,公安政务领域中包括人、事、地、物、组织、虚拟身份等不同实体,属性联系、时空联系、语义联系、特征联系、位置联系等不同关系型数据,而在目前大数据联网的条件下,公安领域中的大部分数据都是以结构化信息进行存储的。

同时展开分析研判,掌握犯罪团伙组织架构,识别潜在的核心头目、中间人等其他团伙成员,发现犯罪团伙的行为特征、活动轨迹、异常行为类型,也可以聚合银行账户信息、资金转账信息、ATM取款信息、多媒体图像视频等信息,通过对大量账号的资金多级交易流向分析、时空分析,识别出在复杂资金交易网络中的异常交易行为,确定可疑账户,结合ATM取款的地理和图像视频信息,锁定嫌疑人。

四、基于只是图谱表示法的数据治理

大数据治理从大数据的产生到现在已经经历了十多年的发展,涉及元数据管理、主数据管理、数据质量、业务流程、数据架构、数据标准、数据生命周期、数据安全等多个方面的的内容,同时也出现了如国标GB/T34960的数据治理框架在内的数据治理方法。近年来,利用知识图谱作为数据标准进行数据的工作逐步展开。

1、基于传统模式的数据治理

自从互联网在我国得到广泛使用后,各类数据、应用都逐步进入信息化,公司和企业为了实现自身的业务需求,逐步开发以软件系统为代表的私有产品部署,随后在云计算的推动下,开始部署云上业务,实现共享,而实际上每个业务系统还是独立运作的。

到后面,由于认识到数据开放和共享的重要性,开始提出利用分类、归集、打标签的方式进行数据管理,形成了大量的数据层级目录信息。这些举措暴露出传统模式下数据孤岛以及数据利用率不高数据治理的两大缺点,前者导致数据之间无法关联,发挥数据价值,后者造成了数据的浪费。而且在异构数据、非结构化数据的利用上依然存在许多不完善的地方。

2、基于知识图谱的数据治理

例如,首先按照业务需求,明确数据类型、数据量级、数据接入方式、数据更新频率等,在经典的大数据治理基础上定义一个包括概念、实体、属性、关系、事件、业务规则、链接多模态数据在内的统一知识表示模型,对数据进行统一的表示。其次,在统一的表示基础上针对结构化、半结构化的数据进行实体识别、属性的抽取、事件抽取等处理,实现统一的知识实例,并根据数据探查和定义实时将海量、多源、异构数据提取、清洗、形成一个大的数据中心。

五、总结

本文作者

刘焕勇

本文来自:公众号【老刘说NLP】作者:刘焕勇

IllustrastionbyEkaterinaRogovafromicons8

-TheEnd-

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

THE END
1.图谱实现智能问答与分析服务刘焕勇医疗知识图谱文章浏览阅读688次,点赞10次,收藏10次。本次记录主要是复现一下刘焕勇老师在github上的开源项目,体验一下什么是知识图谱,以及最终完成的具体功能显示的一个效果,为后续的毕设开展做一个铺垫。_刘焕勇 医疗知识图谱https://blog.csdn.net/m0_51177881/article/details/136743774
2.刘焕勇研究方向:知识图谱大模型微调及评估RAG文档理解 github项目:https://liuhuanyong.github.io 技术社区:老刘说NLP 个人简介:刘焕勇,360人工智能研究院资深算法专家,知识图谱及文档理解算法方向负责人,曾就职于中国科学院。近年来主持或参与研制全行业事理图谱、360百科图谱、知识图谱平台、文档理解大模型、360智脑自研大模型https://liuhuanyong.github.io/
3.360亮相2024全国知识图谱与语义计算大会暨知识图谱国际联合会议大会以“知识图谱与大模型”为主题,包括讲习班、特邀报告、前沿趋势论坛、评测与竞赛、海报与系统展示等环节。700余名全球顶尖学者、行业专家和企业家出席大会,共同探讨知识图谱、语义计算、大模型等前沿科技的最新进展和未来趋势。360人工智能研究院资深算法专家、知识图谱及文档理解算法方向负责人刘焕勇应邀出席本次大会https://baijiahao.baidu.com/s?id=1813517687758874322&wfr=spider&for=pc
4.developer.xfyun.cn/thread/57921医疗知识图谱问答系统探究(一) 1、项目背景 为通过项目实战增加对知识图谱的认识,几乎找了所有网上的开源项目及视频实战教程。 果然,功夫不负有心人,找到了中科院软件所刘焕勇老师在github上的开源项目,基于知识图谱的医药领域问答项目QABasedOnMedicaKnowledgeGraph。https://developer.xfyun.cn/thread/57921
5.知识图谱的构建流程?知识图谱schema这个东西对于一个从无到有进行知识图谱构建的人来说,是个十分头疼的事情,无论是业务人员,还是技术人员,都存在诸多困惑,schema是对领域或者行业知识的一个高度抽象化建模,是个十分耗时的过程。对话中抛出几个观点,知识架构师,知识产品经理是未来知识图谱 的一个十分必要的工种,技术人员用技术的方式去学习https://www.zhihu.com/question/299907037/answer/2264001927
6.大模型是否可以替代知识图谱同义词提取任务来自刘焕勇大模型是否可以替代知识图谱同义词提取任务:一个医疗领域的简单尝试及结论赏析 原创 刘焕勇老刘说NLP2023- ?收藏 2 评论 ?5 评论 o p 同时转发到我的微博 按热度 按时间 正在加载,请稍候 ü 简介: 研究方向包括语言资源监测与研究、社会计算、知识图谱,事理图谱。 更多a 微关系 他https://weibo.com/2111855055/N1EGgrFyG
7.基于医疗知识图谱的交互式智能导诊系统①? E-mail:?csa@iscas.ac.cn http://www.c-s-a.org.cn Tel:?+86-10-62661041 ? 基于医疗知识图谱的交互式智能导诊系统① 全威1,2,马志柔1,刘 杰1,叶 丹1,钟 华1 1(中国科学院?软件研究所?软件工程技术研究开发中心,?北京?100190) 2(中国科学院https://c-s-a.org.cn/csa/article/pdf/8229
8.knowledgegraphandqasystembasedonit。知识图谱构建关于知识图谱概念性的介绍就不在此赘述。目前知识图谱在各个领域全面开花,如教育、医疗、司法、金融等。本项目立足医药领域,以垂直型医药网站为数据来源,以疾病为核心,构建起一个包含7类规模为4.4万的知识实体,11类规模约30万实体关系的知识图谱。本项目将包括以下两部分的内容: 基于垂直网站数据的医药知识图谱构建 https://github.com/cgq0816/QASystemOnMedicalKG/
9.知识图谱汇总系统精选疾病知识9700+,典型病例3600+,国家临床路径1200+,医学词典17万+,医学计算器270+,心电图760+,临床检验330+,临床决策知识2600+ 4. 平安医疗科技: 60万医学概念、530万医学关系 养生健康知识图谱 中科院研究所刘焕勇 https://github.com/liuhuanyong/QASystemOnMedicalKGhttps://www.jianshu.com/p/140a9127acdb
10.刘焕勇奇虎360算法专家研究方向:知识图谱、知识表示、深度学http://bda.pku.edu.cn/info/1069/1729.htm
11.知识图谱在RAG中的应用探讨腾讯云开发者社区在这篇文章中,我们来详细探讨知识图谱(KG)在RAG流程中的具体应用场景。 缘起 关于知识图谱在现在的RAG中能发挥出什么样的作用,之前看了360 刘焕勇的一个分享,简单的提了使用知识图谱增强大模型的问答效果的几个方面: 在知识整理阶段,用知识图谱将文档内容进行语义化组织; https://cloud.tencent.com/developer/article/2407487
12.知识图谱模块化推理及医疗应用研究.pdf知识图谱模块化推理及医疗应用研究.pdf 60页内容提供方:136***6583 大小:3.26 MB 字数:约9.05万字 发布时间:2024-08-04发布于江苏 浏览人气:0 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)知识图谱模块化推理及医疗应用研究.pdf 关闭预览 知识图谱模块化推理及医疗https://m.book118.com/html/2024/0731/8121047140006115.shtm
13.金融机器智能官方的博客社区动态,知识图谱,PaperDigest作者简介:刘焕勇,360 人工智能研究院资深算法专家,知识图谱及文档理解算法方向负责人,曾就职于中国科学院。近年来主持或参与研制全行业事理图谱、360 百科图谱、知识图谱平台、文档理解大模型、360 智脑自研大模型等项目。申请发明专利十余项、核心论文数篇,开源项目 60 余项。在国际 OGB-Wikikg2 实体链接以及国内 CChttps://blog.51cto.com/u_16470786
14.OpenSPG知识图谱作者简介:刘焕勇,360 人工智能研究院资深算法专家,知识图谱及文档理解算法方向负责人,曾就职于中国科学院。近年来主持或参与研制全行业事理图谱、360 百科图谱、知识图谱平台、文档理解大模型、360 智脑自研大模型等项目。申请发明专利十余项、核心论文数篇,开源项目 60 余项。在国际 OGB-Wikikg2 实体链接以及国内 CChttps://blog.itpub.net/70036190/cid--1/list-1/
15.首批演讲嘉宾震撼登场!2024全球机器学习技术大会北京站官宣刘焕勇 360 人工智能研究院知识图谱及文档理解算法方向负责人 嘉宾简介 曾就职于中国科学院,主持研制全行业事理图谱、360 百科图谱、知识图谱平台、360 版式分析模型等项目,360 智脑大模型前核心成员,申请发明专利十余项、论文数篇,对外开源项目 70 余项。近年来 在 OGB-Wikikg2 实体链接、ICPR 多行数学表达式识别https://t.cj.sina.com.cn/articles/view/1798777247/6b37299f019030knm