转载中文知识图谱研讨会的学习总结(上)图谱引入百度知心搜狗知立Blue妞|中文网百度百科_在线兼职

(一).为什么引入知识图谱呢？随着信息的爆炸式增长，人们很难从海量信息中找到真实需要的信息。搜索引擎正是在这种情况下应运而生，其原理是：1.通过爬虫从互联网中采集信息，通过建立基于关键词的倒排索引，为用户提供信息检索服务；2.用户通过使用关键词描述自己的查询意图，搜索引擎依据一定的排序算法，把符合查询条件的信息依序（打分）呈现给用户。搜索引擎的出现，在一定程度上解决了用户从互联网中获取信息的难题，但由于它们是基于关键词或字符串的，并没有对查询的目标（通常为网页）和用户的查询输入进行理解。因此，它们在搜索准确度方面存在明显的缺陷，即由于HTML形式的网页缺乏语义，难以被计算机理解。

(二).语义Web和本体的概念为解决互联网信息的语义问题，2008年TimBerners-Lee等人提出了下一代互联网——语义网（TheSemanticWeb）的概念。在语义Web中，所有的信息都具备一定的结构，这些结构的语义通常使用本体（Ontology）来描述。当信息结构化并且具备语义后，计算机就能理解其含义了，此时用户再进行检索时，搜索引擎在理解互联网中信息含义的基础上，寻找用户真实需要的信息。由于互联网中信息的含义是由本体来描述的，故本体的构建在很大程度上决定了语义Web的发展。本体（Ontology）描述了特定领域（领域本体）或所有领域（通用本体）中的概念以及概念之间的关联关系，并且这些概念和关系是明确的、被共同认可的。通常，本体中主要包括概念、概念的其他称谓（即同义关系）、概念之间的上下位关系、概念的属性关系（分为对象属性和数值属性）、属性的定义域（Domain）和值域（Range），以及在这些内容上的公理、约束等。

(三).知识图谱发展历程随着互联网中用户生成内容(UserGeneratedContent,UGC)和开放链接数据(LinkedOpenData,LOD)等大量RDF(ResourceDescriptionFramework)数据被发布。互联网又逐步从仅包含网页与网页之间超链接的文档万维网(WebofDocument)转变为包含大量描述各种实体和实体之间丰富关系的数据万维网(WebofData)。在此背景下，知识图谱（KnowledgeGraph）正式被Google于2012年5月提出，其目标在于改善搜索结果，描述真实世界中存在的各种实体和概念，以及这些实体、概念之间的关联关系。紧随其后，国内外的其它互联网搜索引擎公司也纷纷构建了自己的知识图谱，如微软的Probase、搜狗的知立方、百度的知心。知识图谱在语义搜索、智能问答、数据挖掘、数字图书馆、推荐系统等领域有着广泛的应用。下图是搜狗知立方“姚明”的关系图：

主题和主讲人：百度知识图谱中的NLP技术——赵世奇（百度）

知识图谱与传统搜索引擎相比，它会返回准确的结果（Exactanswers），如下：

同时知识图谱推荐列表（ListRecommendation）如下所示，搜索“适合放在卧室的植物”包括“吊兰、绿萝、千年木”等等。其中Namedentities命名实体、Normalentities普通实体。

同时，百度知心知识图谱也支持移动端的应用，如下图所示：

PS：不知道为什么最近使用百度知心搜索的效果不是很好！感觉搜狗知心和google效果更好~

(1)从查询日志(QueryLogs)中学习命名实体(NEs)查询日志中包含了大量的命名实体，大约70%的搜索查询包含了NEs。如下图2007年Pasca论文所示，命名实体能够根据上下文特征(contextfeatures)识别。如上下文词“电影、在线观看、影评”等等，识别“中国合伙人”。

(2)从普通文本中学习命名实体(LearningNEsfromPlainTexts)文字包装器(TextWrappers)被广泛使用于从纯文本中提取(Extracting)命名实体。例如包装器“电影《[X]》”，“影片[X]，导演”，其中[X]表示电影名字。如下图所示：

PS：涉及到Multiclasscollaborativelearning多类协作学习，推荐去看2013年具体的论文，鄙人才疏学浅，能力有限，只能讲些入门介绍。《BootstrappingLarge-scaleNamedEntitiesusingURL-TextHybridPatterns》ZhangZW

2.属性-属性值对挖掘AVPMiningAVP英文全称是AttributeValuesPairs。那么，哪里会见到这种AVP数据呢？在线百科：三大百科BaiduBaike\Wikipedia\HudongBaike垂直网站(Verticalwebsites)：IMDB，doubanforvideos普通文档网页：从结构化、半结构化(semistructured)和非结构化文本中爬取AVP

(1)挖掘在线百科AVP数据如下图所示，结构化信息盒infobox准确但不完美，半结构化信息不是足够准确。PS：结构化数据如数据库中表；非结构化数据像图片、视频、音频无法直接知道它们的内容；半结构化数据如员工的简历，不同人可能建立不同，再如百科Infobox的“属性-值”可能不同，它是结构化数据，但结构变化很大。

1.Cleaning检测和清除表面错误，包括不可读代码(Unreadablecodes)、错误的截断(ErroneousTruncation)、由于挖掘错误引起的错误属性、双字节-单字节替换(Doublebyte-singlebytereplacement)、英语字符处理(Englishcharacterprocessing)等。

3.ValueNormalization值正常化Splitting(分词)E.g.,movie_a,movie_b,andmovie_c->movie_a|movie_b|movie_cGenerationE.g.,Chinesezodiac/zodiac:Tiger/Thelion（十二生肖/生肖：老虎/狮子）->Chinesezodiac:Tigerandzodiac:ThelionConversion(转换)E.g.,2.26m->226cm

4.AttributeNormalization属性正常化Domain-specificproblem(特定领域问题)某些属性被视为同义词只在特定的领域甚至是两个特定的知识源中。例如“大小(size)”和“屏幕(screen)”在一些手机网站上表示同义词，但不是所有的开放域解释都相同。分类模型(Classificationmodel)来识别候选同义属性其中特征包括属性浅层相似特征、相似属性值特征、相似值类型(Value-type)特征和实体值特征。最后评选者从所有候选中选择正确的相似属性对。

6.EntityClassification实体分类为什么需要分类呢？因为一些实体会丢失类别信息；同时不失所有从源数据中挖掘的实体都有类别（category）。解决方法是：通过监督模型训练已知类别的实体和它们的属性-值对；使用结构化数据(AVPs)和非结构化数据(上下文文本)来精确地分类特征。

下面是一些在知识应用层的语义计算模块/方法。主要是具体的应用：实体消歧用于推理（Entitydisambiguationforreasoning）陈晓旭的演的《红楼梦》

其核心问题就是AVP相似计算，包括为不同的属性定义不同的权重、有用属性和无用属性等。

最后总结如下：1.网络搜索的新趋势：知识搜索、语义搜索、社会化搜索2.就知识图谱而言，研究语义方面至关重要。知识库的构建和知识搜索都需要语义计算（Knowledgebaseconstructionandknowledgesearchbothneedsemanticcomputation）。3.各种网络资源应该被更好的利用：网络语料库、查询记录、UGC数据

搜狗知立方整体框架图如下所示，其中下部分的实体对齐、属性对齐是我现在研究的部分。主要包括以下部分：1.本体构建（各类型实体挖掘、属性名称挖掘、编辑系统）2.实例构建（纯文本属性、实体抽取、半结构化数据抽取）3.异构数据整合（实体对齐、属性值决策、关系建立）4.实体重要度计算5.推理完善数据

国际上流行的知识库或数据源如下所示：Wolframalpha:一个计算知识引擎，而不是搜索引擎。其真正的创新之处，在于能够马上理解问题，并给出答案，在被问到"珠穆朗玛峰有多高"之类的问题时，WolframAlpha不仅能告诉你海拔高度，还能告诉你这座世界第一高峰的地理位置、附近有什么城镇，以及一系列图表。Freebase:6800万实体，10亿的关系。Google号称扩展到5亿实体和25亿的关系。所有内容都由用户添加，采用创意共用许可证，可以自由引用。DBpedia:wikipedia基金会的一个子项目，处于萌芽阶段。DBpedia是一个在线关联数据知识库项目。它从维基百科的词条中抽取结构化数据，以提供更准确和直接的维基百科搜索，并在其他数据集和维基百科之间创建连接，并进一步将这些数据以关联数据的形式发布到互联网上，提供给需要这些关联数据的在线网络应用、社交网站或者其他在线关联数据知识库。

实体搜索实体搜索如“李娜”，会根据用户的以前搜索记录，真正理解用户搜索，返回结果。辨别它是网球运动员、歌星、舞蹈家或跳水运动员。

推理补充数据与验证从原始三元组数据，推理生成新的数据，建立更多的实体间的链接关系，增加知识图的边的密度，例如：莫言作品。

属性的模式挖掘由于表达方式的多样性，对同一属性，不同人有不同的说法。我们通过挖掘百度知道，来获取属性的各种各样的描述方式。

后台检索系统

再如重名、系列实体展现如下：“李娜”点击其他的同名人物、“十大元帅”点击某个具体的人物、“速度与激情”点击更多，展示更多的系列实体。

THE END

转载中文知识图谱研讨会的学习总结(上)图谱引入百度知心搜狗知立Blue妞

整理魔法禁书目录相关链接v1.2

转载中文知识图谱研讨会的学习总结(上)图谱引入百度知心搜狗知立Blue妞

中外作家齐聚上海共话中国网络文学“出海”网文翻译小说上海市