目前,各大知名公司也陆续推出了自己的知识图谱产品,如百度知心、搜狗知立方、阿里巴巴的商品知识图谱、微软的概念知识图谱、Facebook的社交知识图谱等,初级阶段的行业知识图谱也开始落地,如金融领域中的知识图谱查询平台企查查、情报领域在抓捕本拉登时斩获战功的palantir(虽然技术细节弄不清楚)。
不过,从这些应用中,我们发现,一项成功的应用,是要解决一个特定场景下的特定问题的,而特定问题的解决对解决的手段有严格的定义和约束,知识图谱也是一样。它的应用场景肯定是与知识图谱自身的技术特征相匹配的。
本文主要从工程化的视角谈谈知识图谱与语义网络、语义网的区别,并归纳出知识图谱的技术特性,以及各技术特性所支撑的应用形态,以增强对该技术的理解。
一、再谈知识图谱的工程化理解
知识图谱本质上是一个语义网络,是当下大数据以及应用驱动的综合性结果。
语义网络提出得最早,在1960年代提出,这是为了描述人类知识而采用的一种图结构表示方法,这种表示方法与语义网、知识图谱在表现形式上基本一致;
进入21世纪,互联网开始萌芽,为了实现万物互联,对网络上的资源进行统一标记,语义网在语义网表达方式的基础上引入了基于本体的语义层次化组件,对资源的类型、构成以及表示方式都进行了严格的定义,但这样的结果就是过于“学术”,知识表达过重,而无法进行快速工程化以及满足行业知识处理的需求。
进入2010年后,随着软硬件的发展以及互联网的大规模普及,各行各业都积累了大量的数据,进入“信息过载”时代,因此,如何进行知识简化,并支持工程化应用的知识图谱对“语义网络”和“语义网”有了更高的要求。
下表对三者之间的区别进行了对比:
我们可以看到:
语义网是与语义网络不同的概念,语义网络的出发点不是为了描述人类知识,而是为了表示web资源,属于web资源的一种描述框架,为了“共享”、“标准”设计了一些十分繁重的规范标准。
与语义网中所描述的以网络资源作为唯一实体不同,知识图谱中的节点是以实体作为表示,在本体表示上是对语义网的一个简化版本,对语义表示这块的约束进一步弱化,在逻辑的语义表达方面降低了要求,并突出以事实型知识为主的重要性。
如,Freebase知识表示框架只包含对象-Object,事实-Facts,类型-Types和属性-Properties,一般的领域知识图谱只定义实体类型、实体关系类型、实体属性类等,相当于只是采用了语义网中的RDF层次,而弱化RDFschema以及本体OWL。不过,对语义和逻辑的弱化,使得知识图谱本身不具备推理能力(语义网可以通过预先定义好的规范标准进行推理)。
2、知识图谱的工程化视角
身处不同背景的人对知识图谱会有不同的理解。我们可以从几个方面来看:
从AI的视角来看,知识图谱是自然语言处理中的一项关键技术,目的在于使用实体识别、实体关系(属性)抽取、实体对齐与融合技术对知识进行结构化,这个观点通常来自于算法工程师;
从数据库视角来看,知识图谱是一种新型的知识存储结构,即采用图的方式来对数据进行存储,如代表性的RDF数据库、Neo4j图数据库等,这个观点主要来自于数据库存储、设计等的数据工程师;
从知识表示视角来看,知识图谱是计算机理解知识的一种方法,采用事实三元组的形式进行知识表示,并在此基础上实现智能推理,倾向于理论计算机研究员;
从web视角来看,知识图谱是知识数据之间的一种语义互联或组织形式,通过对数据的标记和链接,形成对数据的互联,这个在做情报分析人员(以图书馆研究员为代表);
此外,在应用上,目前将知识图谱等同于知识图谱可视化和基于知识的问答的理解还有很多,这是知识图谱的最终呈现形态,是最朴素的理解方式。
二、基于知识图谱抽象性的问答决策应用
语义抽象与图结构是知识图谱的一项重要特征。知识图谱是一种很抽象的知识表示形式,它将知识从上下文语义丰富的自然描述中抽象并抽离出来,形成以<实体,关系,实体>为表达形式的图结构。
这种高度语义抽象的图结构是知识图谱最为重要的技术特征,将知识进一步概括成为一个词、一个短语或者一句话,这使得在查询、问答等应用场景中能够给出直截了当的结果,例如,在百度中询问珠穆朗玛峰高度时,直接返回“8848.86m”这一答案。
1、更直接、更丰富、更简洁的搜索结果
与之前传统搜索方式不同,基于知识图谱的搜索问答,可以使得结果更为准确,面对用户搜索关键词意义的多重性,知识图谱可以展示最全面的信息,提供更多机会命中用户需求。
又如,在搜索“珠穆朗玛峰”后,能够得到“乔戈里峰”等其他高峰信息和链接方式。
2、基于业务知识抽象的决策辅助
由于知识图谱中所存储的知识单元是对业务知识的抽象和业务逻辑的抽象,这种思想与搜索之外的场景相结合后,能够引申出诸多场景。
在以石油领域为代表的传统行业中,构建设备知识图谱,将设备的生产参数变化转换为状态变化和各种生产现象,模拟专家分析设备运行过程,对设备运行状态进行预测,可以基于不同生产现象的变化在决策图谱中自动选择最优措施方案,生成决策建议,通知现场管理人员进行现场作业和处理;
在供应链领域,可以收集产品知识、物流知识、采购知识、制造知识、交通信息等数据构建供应链及零部件图谱,将采购、物流、制造联系起来,实现供应链风险管理与零部件选型等服务。
三、基于只是图谱图结构的信息穿透
知识图谱提供了数据的全局视图和更语义化的表达,给从业者带来了大数据驱动的决策能力。
知识图谱的图结构,将知识节点之间进行关联,形成了一个庞大的知识网络,这个网络可以按着“文不如表、表不如图”的信息展示优先级,与数据可视化进行联手,如以Citespace,D3js等可视化手段实现的实体点击、展开、拖拽、缩放等样式,在视觉上展现出知识之间路径发现能力。
在这个基础上,也为信息穿透在各个领域的后续分析提供了基础。
1、基于图谱信息穿透的金融风险监控
2、基于图谱信息穿透的公安侦查分析
与金融领域类似,公安政务领域中包括人、事、地、物、组织、虚拟身份等不同实体,属性联系、时空联系、语义联系、特征联系、位置联系等不同关系型数据,而在目前大数据联网的条件下,公安领域中的大部分数据都是以结构化信息进行存储的。
同时展开分析研判,掌握犯罪团伙组织架构,识别潜在的核心头目、中间人等其他团伙成员,发现犯罪团伙的行为特征、活动轨迹、异常行为类型,也可以聚合银行账户信息、资金转账信息、ATM取款信息、多媒体图像视频等信息,通过对大量账号的资金多级交易流向分析、时空分析,识别出在复杂资金交易网络中的异常交易行为,确定可疑账户,结合ATM取款的地理和图像视频信息,锁定嫌疑人。
四、基于只是图谱表示法的数据治理
大数据治理从大数据的产生到现在已经经历了十多年的发展,涉及元数据管理、主数据管理、数据质量、业务流程、数据架构、数据标准、数据生命周期、数据安全等多个方面的的内容,同时也出现了如国标GB/T34960的数据治理框架在内的数据治理方法。近年来,利用知识图谱作为数据标准进行数据的工作逐步展开。
1、基于传统模式的数据治理
自从互联网在我国得到广泛使用后,各类数据、应用都逐步进入信息化,公司和企业为了实现自身的业务需求,逐步开发以软件系统为代表的私有产品部署,随后在云计算的推动下,开始部署云上业务,实现共享,而实际上每个业务系统还是独立运作的。
到后面,由于认识到数据开放和共享的重要性,开始提出利用分类、归集、打标签的方式进行数据管理,形成了大量的数据层级目录信息。这些举措暴露出传统模式下数据孤岛以及数据利用率不高数据治理的两大缺点,前者导致数据之间无法关联,发挥数据价值,后者造成了数据的浪费。而且在异构数据、非结构化数据的利用上依然存在许多不完善的地方。
2、基于知识图谱的数据治理
例如,首先按照业务需求,明确数据类型、数据量级、数据接入方式、数据更新频率等,在经典的大数据治理基础上定义一个包括概念、实体、属性、关系、事件、业务规则、链接多模态数据在内的统一知识表示模型,对数据进行统一的表示。其次,在统一的表示基础上针对结构化、半结构化的数据进行实体识别、属性的抽取、事件抽取等处理,实现统一的知识实例,并根据数据探查和定义实时将海量、多源、异构数据提取、清洗、形成一个大的数据中心。
五、总结
本文作者
刘焕勇
本文来自:公众号【老刘说NLP】作者:刘焕勇
IllustrastionbyEkaterinaRogovafromicons8
-TheEnd-
扫码观看!
本周上新!
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: