转载中文知识图谱研讨会的学习总结(上)图谱引入百度知心搜狗知立Blue妞

(一).为什么引入知识图谱呢?随着信息的爆炸式增长,人们很难从海量信息中找到真实需要的信息。搜索引擎正是在这种情况下应运而生,其原理是:1.通过爬虫从互联网中采集信息,通过建立基于关键词的倒排索引,为用户提供信息检索服务;2.用户通过使用关键词描述自己的查询意图,搜索引擎依据一定的排序算法,把符合查询条件的信息依序(打分)呈现给用户。搜索引擎的出现,在一定程度上解决了用户从互联网中获取信息的难题,但由于它们是基于关键词或字符串的,并没有对查询的目标(通常为网页)和用户的查询输入进行理解。因此,它们在搜索准确度方面存在明显的缺陷,即由于HTML形式的网页缺乏语义,难以被计算机理解。

(二).语义Web和本体的概念为解决互联网信息的语义问题,2008年TimBerners-Lee等人提出了下一代互联网——语义网(TheSemanticWeb)的概念。在语义Web中,所有的信息都具备一定的结构,这些结构的语义通常使用本体(Ontology)来描述。当信息结构化并且具备语义后,计算机就能理解其含义了,此时用户再进行检索时,搜索引擎在理解互联网中信息含义的基础上,寻找用户真实需要的信息。由于互联网中信息的含义是由本体来描述的,故本体的构建在很大程度上决定了语义Web的发展。本体(Ontology)描述了特定领域(领域本体)或所有领域(通用本体)中的概念以及概念之间的关联关系,并且这些概念和关系是明确的、被共同认可的。通常,本体中主要包括概念、概念的其他称谓(即同义关系)、概念之间的上下位关系、概念的属性关系(分为对象属性和数值属性)、属性的定义域(Domain)和值域(Range),以及在这些内容上的公理、约束等。

(三).知识图谱发展历程随着互联网中用户生成内容(UserGeneratedContent,UGC)和开放链接数据(LinkedOpenData,LOD)等大量RDF(ResourceDescriptionFramework)数据被发布。互联网又逐步从仅包含网页与网页之间超链接的文档万维网(WebofDocument)转变为包含大量描述各种实体和实体之间丰富关系的数据万维网(WebofData)。在此背景下,知识图谱(KnowledgeGraph)正式被Google于2012年5月提出,其目标在于改善搜索结果,描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。紧随其后,国内外的其它互联网搜索引擎公司也纷纷构建了自己的知识图谱,如微软的Probase、搜狗的知立方、百度的知心。知识图谱在语义搜索、智能问答、数据挖掘、数字图书馆、推荐系统等领域有着广泛的应用。下图是搜狗知立方“姚明”的关系图:

主题和主讲人:百度知识图谱中的NLP技术——赵世奇(百度)

知识图谱与传统搜索引擎相比,它会返回准确的结果(Exactanswers),如下:

同时知识图谱推荐列表(ListRecommendation)如下所示,搜索“适合放在卧室的植物”包括“吊兰、绿萝、千年木”等等。其中Namedentities命名实体、Normalentities普通实体。

同时,百度知心知识图谱也支持移动端的应用,如下图所示:

PS:不知道为什么最近使用百度知心搜索的效果不是很好!感觉搜狗知心和google效果更好~

(1)从查询日志(QueryLogs)中学习命名实体(NEs)查询日志中包含了大量的命名实体,大约70%的搜索查询包含了NEs。如下图2007年Pasca论文所示,命名实体能够根据上下文特征(contextfeatures)识别。如上下文词“电影、在线观看、影评”等等,识别“中国合伙人”。

(2)从普通文本中学习命名实体(LearningNEsfromPlainTexts)文字包装器(TextWrappers)被广泛使用于从纯文本中提取(Extracting)命名实体。例如包装器“电影《[X]》”,“影片[X],导演”,其中[X]表示电影名字。如下图所示:

PS:涉及到Multiclasscollaborativelearning多类协作学习,推荐去看2013年具体的论文,鄙人才疏学浅,能力有限,只能讲些入门介绍。《BootstrappingLarge-scaleNamedEntitiesusingURL-TextHybridPatterns》ZhangZW

2.属性-属性值对挖掘AVPMiningAVP英文全称是AttributeValuesPairs。那么,哪里会见到这种AVP数据呢?在线百科:三大百科BaiduBaike\Wikipedia\HudongBaike垂直网站(Verticalwebsites):IMDB,doubanforvideos普通文档网页:从结构化、半结构化(semistructured)和非结构化文本中爬取AVP

(1)挖掘在线百科AVP数据如下图所示,结构化信息盒infobox准确但不完美,半结构化信息不是足够准确。PS:结构化数据如数据库中表;非结构化数据像图片、视频、音频无法直接知道它们的内容;半结构化数据如员工的简历,不同人可能建立不同,再如百科Infobox的“属性-值”可能不同,它是结构化数据,但结构变化很大。

1.Cleaning检测和清除表面错误,包括不可读代码(Unreadablecodes)、错误的截断(ErroneousTruncation)、由于挖掘错误引起的错误属性、双字节-单字节替换(Doublebyte-singlebytereplacement)、英语字符处理(Englishcharacterprocessing)等。

3.ValueNormalization值正常化Splitting(分词)E.g.,movie_a,movie_b,andmovie_c->movie_a|movie_b|movie_cGenerationE.g.,Chinesezodiac/zodiac:Tiger/Thelion(十二生肖/生肖:老虎/狮子)->Chinesezodiac:Tigerandzodiac:ThelionConversion(转换)E.g.,2.26m->226cm

4.AttributeNormalization属性正常化Domain-specificproblem(特定领域问题)某些属性被视为同义词只在特定的领域甚至是两个特定的知识源中。例如“大小(size)”和“屏幕(screen)”在一些手机网站上表示同义词,但不是所有的开放域解释都相同。分类模型(Classificationmodel)来识别候选同义属性其中特征包括属性浅层相似特征、相似属性值特征、相似值类型(Value-type)特征和实体值特征。最后评选者从所有候选中选择正确的相似属性对。

6.EntityClassification实体分类为什么需要分类呢?因为一些实体会丢失类别信息;同时不失所有从源数据中挖掘的实体都有类别(category)。解决方法是:通过监督模型训练已知类别的实体和它们的属性-值对;使用结构化数据(AVPs)和非结构化数据(上下文文本)来精确地分类特征。

下面是一些在知识应用层的语义计算模块/方法。主要是具体的应用:实体消歧用于推理(Entitydisambiguationforreasoning)陈晓旭的演的《红楼梦》

其核心问题就是AVP相似计算,包括为不同的属性定义不同的权重、有用属性和无用属性等。

最后总结如下:1.网络搜索的新趋势:知识搜索、语义搜索、社会化搜索2.就知识图谱而言,研究语义方面至关重要。知识库的构建和知识搜索都需要语义计算(Knowledgebaseconstructionandknowledgesearchbothneedsemanticcomputation)。3.各种网络资源应该被更好的利用:网络语料库、查询记录、UGC数据

搜狗知立方整体框架图如下所示,其中下部分的实体对齐、属性对齐是我现在研究的部分。主要包括以下部分:1.本体构建(各类型实体挖掘、属性名称挖掘、编辑系统)2.实例构建(纯文本属性、实体抽取、半结构化数据抽取)3.异构数据整合(实体对齐、属性值决策、关系建立)4.实体重要度计算5.推理完善数据

国际上流行的知识库或数据源如下所示:Wolframalpha:一个计算知识引擎,而不是搜索引擎。其真正的创新之处,在于能够马上理解问题,并给出答案,在被问到"珠穆朗玛峰有多高"之类的问题时,WolframAlpha不仅能告诉你海拔高度,还能告诉你这座世界第一高峰的地理位置、附近有什么城镇,以及一系列图表。Freebase:6800万实体,10亿的关系。Google号称扩展到5亿实体和25亿的关系。所有内容都由用户添加,采用创意共用许可证,可以自由引用。DBpedia:wikipedia基金会的一个子项目,处于萌芽阶段。DBpedia是一个在线关联数据知识库项目。它从维基百科的词条中抽取结构化数据,以提供更准确和直接的维基百科搜索,并在其他数据集和维基百科之间创建连接,并进一步将这些数据以关联数据的形式发布到互联网上,提供给需要这些关联数据的在线网络应用、社交网站或者其他在线关联数据知识库。

实体搜索实体搜索如“李娜”,会根据用户的以前搜索记录,真正理解用户搜索,返回结果。辨别它是网球运动员、歌星、舞蹈家或跳水运动员。

推理补充数据与验证从原始三元组数据,推理生成新的数据,建立更多的实体间的链接关系,增加知识图的边的密度,例如:莫言作品。

属性的模式挖掘由于表达方式的多样性,对同一属性,不同人有不同的说法。我们通过挖掘百度知道,来获取属性的各种各样的描述方式。

后台检索系统

再如重名、系列实体展现如下:“李娜”点击其他的同名人物、“十大元帅”点击某个具体的人物、“速度与激情”点击更多,展示更多的系列实体。

THE END
1.百度识图在线入口百度识图可以识别商品、素材、植物、人物、风景等图片,用户只需上传图片可搜到类似内容,具体的入口地址可能很多小伙伴还不清楚,下面小编将为大家详细介绍一下,感兴趣的一起来看看吧。 百度识图在线入口 入口地址:点击前往 详细介绍 1、用户只需点击上述链接就能直接跳转至百度识图界面。 https://app.ali213.net/gl/1572613.html
2.课堂相似图片搜索:感知哈希算法这种算法的优点是简单快速,不受图片大小缩放的影响,缺点是图片的内容不能变更。如果在图片上加几个文字,它就认不出来了。所以,它的最佳用途是根据缩略图,找出原图。 实际应用中,往往采用更强大的pHash算法和SIFT算法,它们能够识别图片的变形。只要变形程度不超过25%,它们https://mp.weixin.qq.com/s?__biz=MzA3MjUyMDExMg==&mid=2650750829&idx=2&sn=5df87e16d33cb8ae8f8c8bdaed1df3c2&chksm=871687b2b0610ea4cdd56f979e880b4809b03555a4f5ac307f5356fe2f3721c5b4c69c71eed4&scene=27
3.上万张照片怎么找?百度网盘:你只管说,我们帮你找除了以上提到的文本搜图外,百度网盘其实还支持「OCR 识图」和「以图搜图」,并且能自动关联百科信息甚至全网信息,极大地扩展了信息检索的维度,让你能够更深入地了解图片背后的故事,这远远超出了一个传统存储工具所能做的事情。基于这些功能,百度网盘的应用场景得以不断扩展,比如为朋友圈文案配图片:在体验这些功能https://baijiahao.baidu.com/s?id=1771650417755543223&wfr=spider&for=pc
4.062百度识图以图搜图,查找图源及相似图“百度识图”还会针对所上传的图片搜索相似图,如上图所示,检索出了一堆使用Windows11默认桌面的图片。 “百度识图”还支持图像文字识别(OCR)技术,也就是将所拍照的图片上的文字识别为文本。但该功能需要配合手机端App使用,大家可根据实际需要使用。 综合来看,识图搜索类的网站其实不稀少,但背靠百度这个国民级搜索引https://zhuanlan.zhihu.com/p/446355815
5.百度识图原理分析.pdf该【百度识图原理分析】是由【鼠标】上传分享,文档一共【4】页,该文档可以免费在线阅读,需要了解更多关于【百度识图原理分析】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的https://www.taodocs.com/p-913985487.html
6.百度识图工作原理百度图像识别原理资源图像识别工作原理 图像识别是人工智能领域的一个重要分支,百度识图就是其中的一种应用。它可以对给定的图片进行处理分析,找到图库中的对应信息。那么,百度识图的工作原理是什么呢? 根据 Neal Krawetz 博士的解释,原理非常简单易懂。我们可以用一个快速算法,就达到基本的效果。这里的关键技术叫做”感知哈希算法”(Perhttps://download.csdn.net/download/lgw9527/10564712
7.20个全球图片搜索引擎识图网站,以图搜图很多时候,我们手上会有一些不错的图片,但质量不怎样,要么分辨率太低,要么是有水印的,很多人都想要在网上找到原图、大图或者是无水印的图片。当我们需要搜索一些图片的时候使用图片搜索引擎网站可以帮我们更快地找到自己需要的图片,而且现在的搜图工https://www.extrabux.cn/chs/guide/7914279
8.百度的识图搜索原理是什么标 题: 百度的识图搜索原理是什么 发信站: 北邮人论坛 (Mon Jan 24 15:30:24 2011), 站内 https://bbs.byr.cn/article/ML_DM/7669
9.百度识图:鉴你所见常用工具AI工具导航站6、技术原理: - 百度识图的核心技术包括深度学习和计算机视觉技术。具体来说,它通过缩小尺寸、简化色彩、计算平均值、比较像素灰度以及计算哈希值等步骤生成图片的指纹,然后利用这些指纹在海量图像数据库中进行匹配和搜索。 特别声明&浏览提醒 本站AI工具导航站提供的「百度识图」的相关内容都来源于网络,不保证外部链接https://ai.ipkd.cn/sites/graph.html
10.“识图”是百度网站提供的一项图片搜索服务,可以根据用户提供的“识图”是百度网站提供的一项图片搜索服务,可以根据用户提供的图片文件找出与之最相似的图片及网址。这主要体现了信息技术中的 A. 人工智能技术 B. 遥感遥测技术 C. 程控交换技术 D. 虚拟现实技术 题目标签:图片网站如何将EXCEL生成题库手机刷题 https://www.shuashuati.com/ti/dce93d9f750e4c27ab1464798ff262de.html
11.识图搜索是什么意思?识图搜索是采用了什么原理?一、识图搜索是什么意思? 识图搜索的意思是通过识别图片而获得搜索结果,以前的搜索引擎只能支持文字搜索的,随着互联网行业的发展现在用户们可以直接通过图片搜索到相关内容,时至今日在很多搜索引擎中都支持识图搜索这种方式了。 二、识图搜索是采用了什么原理? https://cloud.tencent.com/developer/article/1845730
12.手机百度识图网页版入口(百度识图网页版电脑版)商梦号最后要说的是,通过分析发现,这个小软件的原理是先调用百度识图,再通过百度识图自动调用“作业帮”的库,所以最后提取出来的都是作业帮的题库,这点对于没有题库的朋友绝对是个大福利。软件完全免费,希望大家能通过它提高孩子的解题思路与能力。http://www.summeng.com/17646.html
13.百度人脸识别使用指南人脸搜索与库管理API文档百度人脸识别使用指南-人脸搜索与库管理API文档:业务能力 人脸搜索与库管理主要用在人脸通用场景,采集照片与底库照片主要为生活照,通常通过手机、电脑、面板机等设备采集。如果您的照片主要由普通摄像头/抓拍机设备大角度俯拍采集获得,建议您使用场景化搜索服务,查看文https://topyun.vip/help/article/2107.html
14.怎么用图片搜索番号?以图搜图AI搜图体验盒子目录表Toggle以图搜图原理图片搜索番号原理以图搜图垂直搜索引擎细分的以图搜图番号搜索、AI搜图工具还有一些垂直以图搜图引擎,如:使用对白或关键词搜图,对应作品信息一些特殊的图搜场景扩展类以图搜图工https://www.uedbox.com/post/55287/
15.esp8266百度语音在线识别WIFI开发板web配网物联网智能对话2,百度语音在线识别任意语音 3,智能家电控制,如开关灯,打开电视。。。 4,时间,日历,天气预报语音播放 5,简单智能语音对话 视频教程正在更新中,以下为更新部分 开发环境:eclipse 阅读全文 esp8266百度语音在线识别开发板原理图.pdf 描述:开发板原理图 百度语音开发https://www.cirmall.com/circuit/9559/
16.悄悄学习Doris,偷偷惊艳所有人ApacheDoris四万字小总结在公司内部,随着百度业务的发展,各个业务端需要更加灵活的方式来分析已有的数据。而此时的 Doris3 仍然只支持单表的统计分析查询,还不能够满足业务进行多维分析的需求。所以,为了能够支持业务的多维分析需求,Doris3 采用了 MySQL Storage Handler 的方式来扩展 Doris3。https://xie.infoq.cn/article/b2250c2d887f69d8519a3f50b
17.图片处理入门教程图片处理的十大禁忌设计师必看→MAIGOO知识打开ps后点击顶部【文件】下拉单选择【新建】(快捷键ctrl+n),随后便会弹出如下图所示的信息框,一般处理网络上传播的图片时,尺寸的单位选择【像素】,分辨率72已经足够了,颜色模式选择RGB颜色。 如何使用Fireworks进行图片批量压缩处理? 打开Fireworks---》点击【文件】---》点击【批处理】---》选择需要批处理的图片https://m.maigoo.com/best/12704.html
18.百度识图在线识图网页版,以图搜图百度识图在线识图网页版,以图搜图 简介 在国内,不使用百度搜索引擎似乎是不可能的。不管怎样,百度在国内的识别效果还是不错的。 你可以在手机端拍照用百度识图提取文字,同时一键传输到电脑端进行复制编辑。 百度识图官网: https://graph.baidu.https://graph.baidu.com/pcpage/indexcom/pcpage/index 数据评估 https://feizhuke.com/sites/baidushitu.html
19.百度识图网页版入口在线使用百度识图网页版登录官网《百度识图》作为百度公司倾力打造的在线图像识别工具,以强大的AI技术为支撑,为用户打开了一扇通往视觉智能新世界的大门。无需下载任何软件,无需复杂设置,只需上传或粘贴图片链接,即可享受即时、准确的图像识别服务。下面为大家带来《百度识图》网页版入口。 https://app.3dmgame.com/mip/gl/523054.html
20.2019年全国高校信息素养教育研讨会4.融入通识课程的高校图书馆嵌入式教学实证研究,王晨晨,海南经贸职业技 术学院 5.图书馆阅读导引信息素养教育探究,赵春艳,佳木斯大学 6.基于ARCS动机模型的信息素养教育理论及实践探析,周小萍,辽宁大学 7.双一流大学图书馆资源信息素养专题培训调查与分析,高海燕,南京交通职 业技术学院 8.高校合作多层次立体化信息素https://m.360docs.net/doc/db10224968.html
21.土木工程专业工程师技术交流论坛土木在线论坛土木在线论坛,是土木工程师交流专业培训,注册考证的平台,提供土木工程施工方案,施工组织设计,施工图纸、工程文档、论文免费下载。https://bbs.co188.com/
22.百度识图设计百度识图翻译设计教程摘要:百度识图设计,百度识图翻译设计教程,新片场素材小编葛艺百度识图设计,百度识图翻译设计教程相关内容整理,如果您对百度识图设计,百度识图翻译设计教程感兴趣欢迎访问免费阅读。 百度识图设计,百度识图翻译设计教程 一、百度识图在线设计教程介绍 百度识图是百度图片搜索推出的一项功能,用户可利用该服务在网络上搜索https://edu.xinpianchang.com/article/baike-74170.html