知识图谱国外知识图谱绘制的方法与工具分析 ?前言 知识图谱是以科学知识为对象,显示学科的发展进程与结构关系的一种图形,具有“图”和“谱”的双重性质与特征;作为对科... 

知识图谱是以科学知识为对象,显示学科的发展进程与结构关系的一种图形,具有“图”和“谱”的双重性质与特征;作为对科学知识及其间的关系可视化所得出的结果,具有较为直观、定量、简单与客观等诸多优点;是一种有效的、综合性的知识可视化分析方法和工具,被广泛应用并取得较可靠的结论;目前成为科学计量学、科学学、管理学等领域的研究热点与实践探索趋势。知识图谱对图书情报学科具有更重要意义,目前图书情报研究“知识化”现象明显,知识图谱大有用武之地,不仅可以可视化学科知识结构,也有助于信息检索、文献分类与知识服务等[1]。

2知识图谱的绘制流程

早在1997年,White等人将文献计量可视化的步骤归纳为5点[3];针对新环境下的知识可视化,Brner(2003)等人将其分为6部分:提取数据、定义分析单元、选择方法、计算相似度、布局知识单元和解释分析结果。Cobo(2011)等人则将其分为7部分:数据检索、处理、网络提取、标准化、作图、分析和可视化。我们认为知识图谱绘制过程可由8部分组成,具体内容见图1。

2.1数据检索

2.2数据预处理

知识可视化的质量、合理性和可靠性很大程度上依赖于所用数据的精确性和全面性。即使最权威、公认质量很高的WoS,也存在数据著录格式(如人名和地名的不统一)和遗漏的问题。从数据库检索出原始数据需要经过系列预处理才能分析,例如改正字符错误,统一或增补国家和机构名等。另外,为进行历时或分时段的对比分析需要对数据分段处理;如果样本数据过大,需要进行有代表性的抽取,例如选择高被引论文、机构或发文最多的作者等。

作者是知识创新和管理的主体,但对作者的识别与去重一直存在问题,涉及作者、机构与国家等知识单元计量与可视化的准确度(尤其是微观层次的分析),特别是随着网络环境下作者数量剧增,中国等发展中国家作者的大量出现,这一问题更加复杂。目前存在的方法有人工识别、模糊匹配、多阶段匹配,结合心理学的认知地图和网络分析中的ASE(ApproximateStructuralEquivalence),Tang提出一种基于知识相似度(例如计算所发表论文参考文献的相似程度)的识别作者唯一身份的新算法;通过实证表明该方法算法更简单,识别度更好[12]。Shiffrin等人提出知识可视化的基础是高质量的样本数据,对不同格式和不同质量数据的清洗和预处理是必不可少的过程;对样本数据最好能免费自由地公共获取[13]。

2.3构建知识单元

2.4数据分析

为便于可视化,简单地频次计算的单元数据,往往需要标准化与简化。标准化常常通过数据间的相似度测量,主要有两大类:一是集合论方法(Set-theoreticmeasures),包括Cosine、Pearson、Spearman、Ochiai指数和Jaccard指数;二是概率论方法(Probabilisticmeasure),主要有合力指数(AssociationStrength)和概率亲和力指数(ProbabilisticAffinity)。Van[27]从理论和实证分析都得出第二类方法更适合于共现的知识单元分析。为发现知识间的关系,更好地展示各单元,需要样本数据的进一步处理,即简化分析:因子分析、多维尺度分析、自组织映射图(SOM)、寻径网络图谱(PFNET)。此外,还有聚类分析(Cluster)、潜在语义分析(LatentSemanticAnalysis)、ForceDirectedPlacement(FDP)、三角法(Triangulation)、最小生成树法和特征向量法(Eigenvector)等。

2.5可视化与解读

3知识图谱的绘制工具

(1)Bibexcel是由瑞典科学计量学家Persson开发的专门文献计量免费软件[45]。其分析功能强大,可从WoS,Scopus等众多数据库中读取数据,提取多种知识单元及关系数据,并通过不同方法简化和规范化数据。但是它的可视化功能弱,常常用于知识可视化前期的数据预处理,然后输出到Pajek、NetDraw和SPSS进一步可视化。

(5)Leydesdorff系列软件[49]是由荷兰阿姆斯特丹大学的著名科学计量学家Leydesdorff开发的,由针对特定功能而设计的系列小命令行程序组成。可以处理共词、合作、耦合、共引等知识单元关系。结果可以通过外部可视化软件展现出来;擅长分析国际和大学的合作,城市间合作。对各文献数据库批量数据的组织,设计专门程序,其中关系矩阵用Cosine规范。该套程序对数据预处理功能不强,例如要进行历时分析,需要使用其他软件对数据分段。他也提出“层叠图”(OverlayMap),并开发了工具用于可视化知识的静态布局与动态变化[50]。

(9)VOSViewer是荷兰莱顿大学开发的免费软件[54]。它是VanEck等人基于VOS可视化技术专门针对文献知识单元的可视化工具,其突出特点是图形展示能力强,特别适合分析大规模样本数据[55]。它不能从文献数据中抽取和构建共现矩阵,数据预处理需要外部程序执行。可视化中具体使用相似性度量从共现矩阵中创建相似矩阵;所形成的二维图,元素间的距离反映其相似性,具体是所有的单元优化后,通过最小化加权的欧几里得距离平方和来实现。它可使用VOS聚类技术(基于模块化聚类)探测学术团体;也可使用其他技术构建众多二维图谱。图谱形成后有四种视图浏览:标签视图、密度视图、聚类视图、分散视图。

THE END
1.浅析知识图谱(KnowledgeGraph)知识图谱( Knowledge Graph)的概念由谷歌2012年正式提出,旨在实现更智能的搜索引擎,并且于2013年以后开始在学术界和业界普及。目前,随着智能信息服务应用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、情报分析、反欺诈等领域。另外,通过知识图谱能够将Web上的信息、数据以及链接关系聚集为知识,使信https://blog.csdn.net/ZKYX_AI/article/details/143209436
2.深度剖析知识图谱:方法工具与实战案例在自然语言处理领域,知识图谱为计算机理解和生成自然语言提供了基础。实体识别和关系抽取等技术与知识图谱的结合,使得计算机能够更好地理解文本中的实体及其关系,从而更智能地处理自然语言。 1.2.3 推荐系统 知识图谱在推荐系统中也发挥着重要作用。通过分析用户的行为和偏好,将用户、物品和其它关联信息表示在知识图谱中,https://www.360doc.cn/article/77924336_1108108858.html
3.知识图谱入门——认识知识图谱知识图谱也可以用于辅助进行数据分析与决策。不同来源的知识通过知识融合进行集成,通过知识图谱和语义技术增强数据之间的关联,用户可以更直观地对数据进行分析。此外知识图谱也被广泛用于作为先验知识从文本中抽取实体和关系,也被用来辅助实现文本中的实体消歧,指代消解等。 https://zhuanlan.zhihu.com/p/396516565
4.知识图谱到底是什么?为什么显得那么重要?怎么构建?你可能会想,这么复杂的东西,只有搜索引擎能用得上吧?其实不然,知识图谱的应用场景非常广泛。 ?医疗健康:在医疗领域,知识图谱可以用来整合患者的健康数据,帮助医生更全面地了解患者病情,甚至可以通过分析症状和药物之间的关系,提出个性化的治疗方案。 ?金融风控:金融行业可以利用知识图谱来识别和预防欺诈行为。比如通https://cloud.tencent.com/developer/article/2445807
5.这是一份通俗易懂的知识图谱技术与应用指南机器之心另外,从分析原则(Analytics Principle)的角度,我们不需要把跟关系分析无关的实体放在图谱当中;从冗余原则(Redundancy Principle)的角度,有些重复性信息、高频信息可以放到传统数据库当中。 6.4 把数据存入知识图谱 存储上我们要面临存储系统的选择,但由于我们设计的知识图谱带有属性,图数据库可以作为首选。但至于选择哪个图https://www.jiqizhixin.com/articles/2018-06-20-4
6.知识图谱是什么,有哪些特性?GaussMind知识图谱平台 GaussMind是沃丰科技AI场景落地专家,自研领先的AI基础设施“原心引擎”(NLP-PaaS、ASR),打造了文本机器人、外呼机器人、呼入机器人、智能质检、智能会话分析、坐席助手、KCS知识库、企业搜索、知识图谱、知识工程平台等AI场景落地应用。 https://www.udesk.cn/ucm/faq/38509
7.知识图谱的应用嘲与技术挑战公安机关在侦查案件时,经常看到办案民警用图谱梳理案件及人物关系。在电视剧《人民的名义》中,警方利用知识图谱分析,可以很快看清“山水集团”背后的利益链条。除此之外,知识图谱从大数据中深度挖掘关联关系,可准实时分析多至千亿级海量关系数据,转化为关系图谱数据,支撑公安机关展开情报研判分析、犯罪团伙跟踪以及重大http://baijiahao.baidu.com/s?id=1749805011677127446&wfr=spider&for=pc
8.广东粤孵申请基于大模型与知识图谱分析的石墨烯产业应用发现方法金融界2024年12月24日消息,国家知识产权局信息显示,广东粤孵产业大数据研究有限公司申请一项名为“基于大模型与知识图谱分析的石墨烯产业应用发现方法”的专利,公开号 CN 119168423 A,申请日期为2024年9月。 专利摘要显示,本发明公开了一种基于大模型与知识图谱分析的石墨烯产业应用发现方法,S1、收集与石墨烯相关的专利https://cj.sina.com.cn/articles/view/1704103183/65928d0f02005yl3c
9.知识图谱KnowledgeGraph链接分析运用拓扑学知识通过分析链接网络来研究网络结构,结合社会网络分析可以分析研究和绘制网络信息知识图谱,展示网络信息、知识分布结构和演化规律等。 统计分析方法 科学知识图谱构建实用的统计分析方法主要是多元统计分析[12]。多元统计分析是经典统计学的分支,在多个对象或指标相互关联的情况下分析其统计规律。“维度降https://www.jianshu.com/p/6e68adcebe37