鲍:元数据,本体,图谱,链接数据,这几个词都是结构化数据在不同历史时期的营销名词。他们本身的ontologicaldifference与其说是基于内涵定义出来的,不如说是结构化数据在不同历史时期外延不同表现出来的。十多年前,当本体和现在的知识图谱一样火的时候,人人皆称本体,各种研究数据库、逻辑、词汇表等等,都自称本体。现在则是所有和结构化数据有关的应用,都自称知识图谱。所以我以为,无需细究两者之间的内涵区别。过三五年,自然会有新词出来再取代它们。
赵:本体论本身是有问题的,并不存在一个独立于人的思维之外的客观知识体系,知识都是具体的,被特定的人认知的,带有一定主观性的体系
本体作为元知识反映的是常识或相对恒定的知识它不具有情报价值,而通常所谓知识图谱则是情报挖掘的结果。这个区分极端重要因为这两种知识在如何形成何处使用等方面非常不同。
wordnethownet还有cyc这类知识都属于本体,它们是专家多年手工编制的其知识内涵有稳定性无情报性。也有自动形成本体或领域本体的工作这个工作叫知识习得(knowledgeacquisition),而不是一般意义的知识图谱所使用术语信息抽取(informationextraction)因为抽取的要点在于情报性在于提供具体实体及其关系和事件的流动性。文本挖掘textmining也被混用得不行。但最基本的理解还是指的信息抽取基础上的情报挖掘而不是本体的acquisition
撇开术语被混用这种区别的关键在于对于自然语言理解而言本体知识是一个支持性的知识而图谱所反映的情报则是结果。换句话说前者是帮助理解的后者是理解后的输出。当句法知识(也可以看成是语言学层面的元知识形式语言理论里面叫元语言)不够用或者单单的句法不能排歧的时候语言理解往往需要借力本体。譬如“鸡我吃了”与“我鸡吃了”,谁吃了谁句法上无法区分,本体里面的常识开始发力。“鸡”常常作为“人”的食品。“人”作为鸡的食品除了童话或狡辩外是站不住的。语言理解以后的信息抽取实体whowhat等发生何种关系relationships以及事件关涉到那些实体Whodidwhattowhomwherewhenhowandwhy,回答这类问题的情报知识可以从知识图谱来。班门弄斧一下。请知识大佬和后学批评。
鲍:李老师说的很对。只是在实践中,大多数公司和研究paper里提到的本体和知识图谱,都没有这么精确,大家基本是把任何结构化数据都套上这个词。细分并不容易,因为概念建模对大多数研究生和程序员就和天书一样。
Me:对混用很严重。概念区分很重要。特别是后学进入这个领域这个区分是基本的。深究起来还有灰色。但总体的分野是分明的。叫什么术语另说。
鲍:geneontology到底是本体还是数据?到底如何支持语义推理?计算机科学家研究了很多,可是生物学家也听不懂,依然按他们理解的方式用,他们就这这个当词汇表用,也一样好用。jimhendler曾做过统计,rdf和owl的实际使用,大部分都是“错”的。所以这里有一个工程师视角和科学家视角。其实还有一个商人视角。倒是图谱更加混杂有表示情报的有表示本体的。我们在媒体上读到的,大部分是商人视角。
Me:不过很少有人拿本体表示情报。常识和情报的分野是根。做本体不需要太多人上即便存在本体的领域化。做情报的图谱则不同,无时无刻没有情报产生因此需要不断抽取挖掘和整合以满足情报需求。难度也不一样做本体的是对人类常识和经验的概括,非大师不能。即便从大数据去习得本体(ontologyacquisition),定义本体,也是需要高度。情报性知识图谱则不同,任何产品经理,在了解客户需求后都可以定义。然后就是抽取挖掘。注意,学界对这两个动作用的是不同的术语前者叫习得(acquisition),后者叫抽取(extraction)。
鲍:比如现在,大家把schema.org称为知识图谱,把dbpedia称为知识图谱,把图数据库称为知识图谱,把工商注册信息也称为知识图谱。把名词列表称为知识图谱,把分类树称为知识图谱。到底什么是知识图谱呢?我觉得,就从众好了。在学术界,我们还是沿用tbox和abox那个肯定不会被滥用。
Me:
三巨人中菲尔默的Framenet最尴尬,它反映的知识性质耐人寻味。里面所定义的frames很像是信息抽取领域的templates但是它是跨领域的自上而下成体系的Frames之间也具有hierarchy,这与ie领域或产品经理定义的信息模版有所不同后者是领域的情报零散的。说它尴尬是因为这个framenet是从本体的角度概括情报结构,本来是想充当最终的领域情报的元知识组织者。但实际上几乎所有的领域情报信息抽取都绕过了它只是学界有人以这个标准组织竞赛和研究。业界不买账也有其道理因为情报知识图谱的元结构里面的hierarchy,只有在信息抽取框架数量繁多需要规整成系统实现资源继承和共享的时候,才可能体现价值。而知识图谱的研发还没有到那个规模,需要这种支持。
另一方面企图在文本挖掘中利用framenet里面的frames的抽取作为通向领域或产品情报的模版的思路理论上可以缩短到达应用层面的距离实践中不如直接从nlp的支持包括parsing的支持抽取来得简洁有效。