伴随着计算机的日益普及,互联网的迅猛发展,文本的数量(电子邮件、新闻、网页、科技论文等)在不停的增长,因而对文本作智能化处理以获取所需信息的需求日益迫切。在这样的社会需求下,自然语言处理技术的地位和作用日益重要。经过几十年的研究,计算机处理自然语言的理论基础日趋成熟,应用范围也越来越广,初步形成了面向各种不同应用和研究的技术体系。分词作为自然语言处理的第一个步骤,是其他高层应用的基础,起着极其重要的作用。
2.分句处理
2.1分句处理技术简介
分句处理就是把句子以某些特定的标点符号为分隔划分为若干个句子。根据汉语对语句、句群和篇章的定义,主要以基本的标点符号:句号、问号、感叹号、分号、逗号等作为子句的分隔符。通过使用这些标点符号对语言进行计算机子句分割,完成分句处理。
2.2分句算法的设计
在进行分词之前首先应对句子进行分割,分为以句子为单位的一个个语句片段。因为以逗号、分号来分隔的语句通常能表达完整的语义信息,所以本文主要使用逗号、分号等标点符号也作为子句分句的分隔符号,以它们为标志进行语句的分句处理。
分句处理的具体算法设计如下:
①判断答案字符串aString是否为空,若为空则结束;
②取aString左侧的一个字符存入tChar中,判断tChar是否是句末标点符或回车符,若不是,转⑤;
③若tChar是句末标点符号,则子句数组下标加1,并将字符tChar从字符串aString中删掉,转①;
④若tChar为回车符或者换行符,去掉aString左侧两字符,并将字符tChar从字符串aString中删掉,转①。
⑤将tChar合并到子句数组当前元素中,去掉aString左侧一字符,转①。
上述算法中,aString为待处理的字符串,tChar为字符类型变量。
3.分词处理
3.1中文分词技术简介
中文分词(ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言理解的研究范畴。
目前主要有三种中文词算法,分别为基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。介绍如下:
1)基于字符串匹配的分词算法
基于字符串匹配的分词方法也叫机械匹配法,是分词技术的诸多理论算法中较简单实用的一种分词算法。它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行区配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。常用的几种机械分词方法如下:①正向最大匹配法(由左到右的方向)②逆向最大匹配法(由右到左的方向)③最少切分(使每一句中切出的词数最小)还可以将上述各种方法相互组合。
2)基于统计的分词方法
在很多情况下,最大匹配时即使采用双向扫描也不能检查出所有的交集型切分歧义。为了消除歧义,我们还需要其他知识。这也是自然语言处理里,统计方法出现的原因。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
3)基于理解的分词方法
通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而基于理解的分词方式则在后续过程中来处理歧义切分问题,其切分过程只是整个语言理解过程的一小部分。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。
目前无法作出结论证明以上三个算法中哪一个是最好的,针对具体问题采用不同的算法。这三种算法都有自己的利弊,它们的对比见表1所示:
分词方法
基于字符串匹配分词
基于统计的分词
基于理解的分词
歧义识别
差
强
新词识别
需要词典
需要
不需要
需要语料库
否
是
需要规则库
算法复杂性
容易
一般
很难
技术成熟度
成熟
不成熟
实施难度
分词准确性
较准
准确
分词速度
快
慢
表1三种算法优劣比较
3.2自动分词的评价标准
一般对自动分词有三个评价标准:正确率、召回率、调和平均数。其定义如下:
由定义可见,分词正确率和分词召回率是互相矛盾的,要得到高的分词召回率需保留多个分词结果以保证更大可能地包含正确的结果,而这样却会降低分词正确率。所以引入了调和平均数作为评价参数。
3.3分词算法设计
英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。
目前主流的分词算法主要有三种,分别为基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法。分词本文采用的是最大词长匹配算法。这是一种基于字符串匹配的分词算法,该方法依据一个分词词表和一个基本的切分评估原则,即"长词优先"原则来进行分词。这种评估原则虽然在大多数情况下是合理的,但也会引发一些切分错误。采用这种方法的原因是它简单、快速。
最大匹配算法需要一个已知的词汇数据库作为支撑,本文以知网数据库作为该算法的词库。最大匹配算法的主要思想如下:
①首先统计出《知网》数据库中的最长词条所包含的字数,本文暂时将称其为最大词长,并将该长度记为MaxL;
②从每个分句中的第一个字开始向后取L(L≤MaxL)个字;
③在《知网》数据库中查找是否有由此L个字组成的词。如果有,则一个词语分解成功,并转⑤;
④将这L个字中的最后一个字去掉,并令L=L-1,转至第③步骤(直至L=1,说明L已经是一个单字);
⑤从这个句子中将该词删除,并判断句子是否已经为空,如果为空,则返回第②步,否则,算法结束。
其中MaxL表示《知网》数据库中的最长词条所包含的字数。当前最大词长L≤MaxL。
4.结束语
中文分词技术应时代的要求应运而生,在很大程度上满足了人们对自然语言处理的需要,解决了人和计算机交流中的一些障碍;但中文分词技术也存在很多困难,我们相信在未来的几年里,通过对中文分词技术的深入研究,必将开发出高质量、多功能的中文分词算法并促进自然语言理解系统的广泛应用。
参考文献:
[1]李向宏,王丁,黄成哲等.自然语言句法分析研究现状和发展趋势[J].微处理机,2003,4(2):28-29.
[2]黄昌宁.中文信息处理的主流技术是什么[J].计算机世界报,2002(2):4.
[3]曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004.5:71-73.
关键词:自然语言处理语言翻译人工智能
一、引言
近年来随着计算机技术和人工智能的快速发展,自然语言信息处理技术已取得了长足的发展。于此同时人们在快速信息检索、语言翻译、语音控制等方面的需求越来越迫切。如何将自然语言处理中取得的研究成果应用于文本、语音等方面已成为目前应用研究的一个关键。论文将从自然语言信息处理的基础出发,系统的论述它在语音和文本方面的广泛应用。
二、自然语言信息处理技术简介
自然语言信息处理技术产生于上个世纪40年代末期,它是通过采用计算机技术来对自然语言进行加工处理的一项技术。该技术主要是为了方便人与计算机之间的交流而产生的。由于计算机严密规范的逻辑特性与自然语言的灵活多变使得自然语言处理技术较复杂。通过多年的发展,该项技术已取得了巨大的进步。其处理过程可归纳为:语言形式化描述、处理算法设计、处理算法实现和评估。其中,语言形式化描述就是通过对自然语言自身规律进行研究,进而采用数学的方法将其描述出来,以便于计算机处理,也可认为是对自然语言进行数学建模。处理的算法设计就是将数学形式化描述的语言变换为计算机可操作、控制的对象。处理算法实现和评估就是通过程序设计语言(如C语言)将算法实现出来,并对其性能和功能进行评估。它主要涉及到计算机技术、数学(主要是建模)、统计学、语言学等多个方面。
三、智能应用
通过多年的研究,自然语言信息处理技术已经取得了巨大的进步,特别是在应用方面。它主要被应用于文本和语音两个方面。
(一)自然语言信息处理在文本方面的智能应用
我常常想,如果有计算语言学家能够用一般语言学家可以理解的方式,深入浅出地阐述计算语言学的原理和方法,一定会吸引更多的语言学家参加到计算语言学的队伍中,更好地推动我国计算语言学的教学和研究。
2004年我在英国伯明翰大学访问时,在伯明翰市中心的一个书店里偶然发现了RuslanMitkov主编的《牛津计算语言学手册》,很快就被它简洁明了、深入浅出的写作风格吸引住了。我觉得这本书就是我多年来梦寐以求的深入浅出的计算语言学著作,非常适合文科背景的语言学家阅读,决心把这本书引进到国内来。
2005年回国之后,我马上找到外语教学与研究出版社的朋友,向他们介绍这本书的价值。他们被我的诚意感动,很快就决定引进这本书,并且与牛津大学出版社商量,双方一致同意合作在国内出版。2009年9月,《牛津计算语言学手册》正式在国内发行。这是一件大快人心的好事!
本书主编RuslanMitkov是计算语言学家及语言工程专家,毕业于德国德累斯顿大学(DresdenUniversity),现为英国伍尔弗汉普顿大学(UniversityofWolverhampton)教授。他的研究兴趣是回指消解、机器翻译和自动索引,曾于2002年出版过名为《回指消解》(AnaphoraResolution)的专著。著名计算语言学家MartinKay(马丁凯伊)为本书作序。MartinKay是美国斯坦福大学语言学教授,曾任计算语言学会主席、国际计算语言学委员会主席,是国际计算语言学界的领军人物。
二、内容简介
本书内容分三大部分:1.与计算语言学有关的语言学基础理论(1~9章);2.计算语言学中自然语言的处理、方法与资源(10~26章);3.计算语言学的应用(27~38章),几乎涵盖了计算语言学的所有领域。书末有按照字母顺序编排的计算语言学术语表,每个术语均有简要的定义和解释,便于读者查询。下面分别介绍各章的内容。
第1章“音系学”(phonology)介绍了描写音系学和计算音系学的基本知识,着重介绍了非线性音系学中的有限状态模型、音位的特征-值矩阵描述方法以及音系学研究中的计算工具。
第2章“形态学”(morphology)介绍了诸如语素、词、屈折、派生等形态学的基本知识,分析了形态学对于音系学的影响,着重介绍计算形态学中的有限状态分析方法,并介绍了双层形态学和双层规则的形式化描述方法。最后介绍了结构段形态学。
第3章“词典学”(lexicography)首先简要地回顾了词典学的发展历史,接着讨论了人编词典在计算机应用中的不足,说明了计算词典学对于传统的词典编纂技术提出的挑战。本章着重讨论了词汇在计算语言学中的功能以及计算技术在词典编纂中的作用;说明了计算技术改变了词典编纂工作的面貌,为新型词典的编纂提供了有力的技术手段。本章强调指出,计算机辅助的词典编纂应该成为今后词典编纂工作的发展方向。
第4章“句法学”(syntax)首先列举了一些有趣的句法现象,分析了这些现象在计算上的意义,接着介绍正则语法和有限状态语法、上下文无关的短语结构语法、转换语法、扩充转移网络、各种基于约束的特征结构语法(功能语法、词汇功能语法、中心语驱动的短语结构语法、PATR语法)。最后,介绍了两种在语言学和计算上有意义的句法框架(广义短语结构语法、树邻接语法)。
第5章“语义学”(semantics)集中介绍了计算语义学的基本内容。首先讨论语义的表示问题,介绍了语义的高阶逻辑(higher-order-logic)表示法和语义的特征值矩阵(Attribute-ValueMatrix)表示法。其次讨论句法语义接口,介绍了“并行对应模型”(ParallelCorrespondenceModel,简称PCM);针对Frege的“组成性原则”(principleofcompositionality),介绍了“非组成性的语义学”。最后介绍了语义解释的动态模型。
第6章“话语”(discourse)首先列举了一些话语平面的现象,阐明“话语”研究的对象是句子之间的关联问题,计算语言学中的话语研究要揭示句子之间关联的机制。接着讨论参照表示(referringexpressions)和话语结构(discoursestructure),说明参照表示的工作原理和参照表示的选择方法,并讨论主题(theme)与述题(rheme)、话题(topic)与焦点(focus),以及预设(presupposition)、蕴含(implicature)等问题。最后讨论“话语树”(discoursetree),介绍了“修辞结构理论”(rhetoricalstructuretheory)和“中心理论”(centeringtheory)。
第7章“语用学和对话”(pragmaticsanddialogue)讨论语用学及其在计算机对话模型中的应用。首先介绍言语行为(speechact)、言外语力(illocutionaryforce)、合作原则(cooperativeprinciple,简称CP)、关联(relevance)等语用学的基本概念,并且介绍了意图(intention)、信念(belief)、知识(knowledge)和推论(inference)等与概念表达有关的问题。着重讨论了计算语用学中的对话模型(dialoguemodel),说明了从话语行为到对话行为的计算机制,并介绍了对话的管理模型(dialoguemanagementmodels)。
第8章“形式语法与形式语言”(formalgrammarsandlanguages)介绍形式语言理论的基本知识,分别论述了形式语法和自动机,把形式语法看成是语言的生成装置,把自动机看成语言的识别装置。为了便于文科背景的读者理解本章的内容,对于一些基本概念都给出了定义和实例;为了避免抽象的数学推理,对于一些基本的结论不在数学上加以证明。首先介绍了Chomsky的形式语法,给出了形式语法的Chomsky分类,分别讨论了上下文无关语言(context-freelanguages)、线性和正则语言(linearandregularlanguages)、半线性语言(semilinearlanguages)、上下文有关语言(context-sensitivelanguages)、柔性上下文有关语言(mildlycontext-sensitivelanguages)。接着介绍自动机理论,分别讨论了有限自动机(finiteautomata)、下推自动机(pushdownautomata)、线性有界自动机(linearboundedautomata)、图灵机(Turingmachine)。
第10章“文本切分”(textsegmentation)介绍两方面的内容:一方面是“词例还原”(tokenization),一方面是“句子分离”(sentencesplitting)。词例还原的目标是把文本中的单词、标点符号、数字、字母数字字符切分出来,以便进行进一步处理。本章分别介绍了单词自动切分、缩写切分(例如:“Mr.,Dr.,kg.”中的小黑点)、连字符处理(例如:“self-asessment,forty-two,F-16”中的连字符)的技术,并且讨论了汉语和日语等东方语言中有关“词例还原”(也就是“切词”)的特殊问题。句子分离的目标是把文本中的句子分离出来,在很多自然语言处理系统中,都需要进行句子分离。本章介绍了基于规则的句子分离、基于统计的句子分离、非规范输入文本中的句子分离等技术。
第11章“词类标注”(part-of-speechtagging)介绍了词类标注器(POStagger)的设计技术以及兼类词的排歧(disambiguation)方法。简要回顾了词类标注发展的历史,介绍了基于局部性手写规则的词类标注器、基于n-元语法的词类标注器、基于隐马尔科夫模型(HiddenMarkovModels)的词类标注器、基于机器学习的词类标注器、基于全局性手写规则的词类标注器、基于混合方法的词类标注器,重点介绍了手工排歧语法(handwrittendisambiguationgrammars)。
第12章“句法剖析”(parsing)介绍了自动句法剖析的基本概念和关键技术。句法剖析的深度因自然语言处理的具体要求的不同而不同,有浅层的句法剖析(shallowparsing),也有深层的句法剖析(deepparsing)。本章首先介绍了浅层句法剖析,这种剖析只要把句子剖析为语块(chunks)就可以了。之后,介绍了依存剖析(dependencyparsing)。在介绍上下文无关剖析(context-freeparsing)时,比较详细地讨论了CYK算法、自底向上剖析、左角分析法、自底向上的活性线图分析法(bottom-upactivechart)。在介绍基于合一的剖析(unification-basedparsing)时,讨论了特征-值矩阵。剖析时可能得到若干个结果,因此,本章还讨论了剖析结果的排歧问题。最后,讨论了剖析算法准确性的评测、剖析程序的效率以及剖析语法覆盖面的度量方法等问题。
第13章“词义排歧”(word-sensedisambiguation,简称WSD)讨论如何利用上下文来确定多义词的准确意义。首先介绍了在计算语言学研究早期所提出的WSD优选语义学方法、词专家剖析方法。这些方法由于缺乏可供使用的词汇资源,出现了“知识获取的瓶颈问题”(knowledgeacquisitionbottleneck)。这些问题由于大规模词汇库和知识库的出现而得到缓解,又由于统计方法和机器学习方法的应用而可以从语料库中获取精确的数据。近年来,在WSD中普遍使用基于词典的方法、联结主义方法(connectionist)、统计方法、机器学习方法,取得了很大的进步。最后讨论WSD的评测,介绍了SENSEVAL的评测活动,并介绍WSD的一些实际应用。
第14章“回指消解”(anaphoraresolution)首先列举了一些回指现象,说明了回指现象的各种变体。接着讨论回指消解所需要的知识源、回指消解的过程、回指消解在自然语言处理中的应用。最后回顾了回指消解研究的发展历史和现状,讨论了今后回指消解研究中应当注意的问题。
第15章“自然语言生成”(naturallanguagegeneration,简称NLG)介绍了自然语言生成研究的理论和实践问题,力图说明在人们的心智上以及在计算机中,语言究竟是怎样产生出来的。自然语言生成是一个知识密集的问题,可以从语言学、认知科学和社会学的角度来探讨。可以把自然语言生成看成一个映射问题,也可以把它看成一个选择问题,还可以把它看成一个规划问题。自然语言生成可以分为四个问题:宏观规划(macroplanning)、微观规划(microplanning)、表层实现(surfacerealization)、物理表达(physicalpresentation)。对于宏观规划,介绍了说话内容的规划、文本的规划,以及使用修辞结构理论的规划方法;对于微观规划,着重介绍了词汇生成的问题。最后介绍了表层生成的技术。
第16章“语音识别”(speechrecognition)研究如何把作为声学信号的声波转换为单词的序列。现在,最有效的语音识别方法是语音信号统计建模的方法。本章简要地介绍了语音识别中的主要方法和技术:声学语音信号的建模、语音识别中的词汇表示、语音识别中的语言模型和解码。重点介绍独立于说话人的大词汇量连续语音识别(large-vocabularycontinuousspeechrecognition,简称LVCSR)的最新的技术。目前,语音识别主要应用于自动听写机的设计、口语对话系统、语音文献的自动转写、语音信息检索等领域中。最后讨论了语音识别技术未来的研究前景。
第17章“文本-语音合成”(text-to-speechsynthesis,简称TTS)介绍文本-语音合成的最新成果。TTS既涉及自然语言处理技术,也涉及数字信号的处理技术。本章主要从自然语言处理的角度来介绍TTS。首先介绍TTS系统的概貌以及它的商业应用价值。然后描述TTS系统的功能结构以及TTS系统的组成部分,TTS系统中的自动形态-句法分析、自动语音分析、自动韵律生成,说明了如何从文本中近似地计算语音的声调和时长。最后介绍了声波生成的两种技术:规则合成技术(synthesisbyrules)与毗连合成技术(concatenativesynthesis)。
第18章“有限状态技术”(finite-statetechnology)首先举例介绍有限状态语言、词汇转录机、重写规则等基本概念,然后介绍基本正则表达式的运算方法和复杂的正则表达式,最后讨论有限状态网络的形式特性。
第19章“统计方法”(statisticalmethods)介绍了计算语言学中的统计方法。目前,统计方法已经成为自然语言处理的主流方法。本章首先介绍数理统计的基本概念(如:样本空间、概率测度、随机变量、条件概率、熵、随机过程)以及如何把它们应用于自然语言的模拟问题,分别介绍了隐马尔科夫模型(hiddenMarkovmodels)和最大熵模型(maximum-entropymodels),最后介绍了这些模型的一些技术细节,如:韦特比搜索(Viterbisearch)、最大熵方程(maximum-entropyequation)等。
第20章“机器学习”(machinelearning)介绍了如何通过有指导的训练实例(supervisedtrainingexamples)来自动地获取语言资源中蕴含的决策树(decision-tree)和规则(rules),描述了怎样从经过标注的训练实例中进行推理的各种算法和知识表达技术,并介绍了如何使用已经获得的知识来进行分类的基于实例的分类方法(instance-basedcategorization),较详细地介绍了k-邻近分类算法(knearest-neighbourcategorizationalgorithm)。这些机器学习的技术可以应用来解决计算语言学中的形态分析、词类标注、句法剖析、词义自动排歧、信息抽取、前指消解等各种各样的问题。
第21章“词汇知识的获取”(lexicalknowledgeacquisition)首先介绍了词汇知识自动获取的一些背景,包括词汇知识的形式、词汇知识获取的资源和工具、单词的共现和相似度。然后介绍了从语料库中自动获取词汇的搭配关系(lexicalcollocation)和联想关系(lexicalassociation)的方法,词汇相似度(similarity)计算与叙词表(thesaurus)构建的方法,动词的次范畴框架(subcategorizationframe)的获取方法;分析了词汇语义学(lexicalsemantics)和词汇知识获取的关系。最后介绍了从机器可读的词典中获取词汇知识的方法。由于在自然语言处理中越来越重视词汇知识的作用,自然语言处理的形式模型中越来越多地采用“词汇化”(lexicalized)的方法,词汇知识的自动获取是当前计算语言学研究的亮点之一。
第22章“评测”(evaluation)专门讨论自然语言处理系统的评测问题。评测是推动自然语言处理研究发展的一个重要手段,评测的结果对于自然语言处理系统的投资者、开发者和使用者都是很有价值的。在自然语言处理技术发展的早期主要使用基于技术的评测(technology-basedevaluation),在自然语言处理技术比较成熟时,就可以使用以用户为中心的评测(user-centredevaluation)。根据评测时的输入与输出,评测技术又可以分为分析成分的评测(evaluationofanalysiscomponents)、输出技术的评测(evaluationofoutputtechnologies)和交互系统的评测(evaluationofinteractivesystems)。分析成分的评测把语言映射为它的内部表达作为输出(例如:有标记的片段、树形图、抽象的意义表达式等)。输出技术的评测要把处理的结果用具体的语言表示出来(例如:文摘、生成的文本、翻译的译文等)。这种评测可以分别使用内部评测指标(intrinsicmeasures)和外部评测指标(extrinsicmeasures)来进行。交互系统的评测容许用户与系统进行交互。本章总结了评测的各种技术,并指出它们的优点和缺点。
第23章“子语言和可控语言”(sublanguageandcontrolledlanguage)首先讨论了在限定语义领域中的计算语言学,指出了在当前的水平之下,在某些限定领域中应用自然语言处理技术的必要性。然后举例说明了某些自发形成的子语言,分析了子语言的特性,讨论了子语言在机器翻译、文本数据抽取、自然语言生成、自动文摘中的应用问题。接着讨论可控语言,分析了使用可控语言的必要性和局限性,介绍了可控语言的一个实例――简化英语AECMA。最后讨论子语言与可控语言的关系,分析了把子语言转变为可控语言的途径。
第24章“语料库语言学”(corpuslinguistics)主要讨论了语料库在自然语言处理中的应用问题。首先从语料的抽样框架、语料的代表性、语料的平衡性等方面说明了建立语料库的基本要求,简要地回顾了语料库的发展历史,然后着重地讨论了语料库的标注(annotation)问题。标注过的语料库的优点是:开发和研究上的方便性、使用上的可重用性、功能上的多样性和分析上的清晰性。学术界对于语料库标注的批评主要来自两方面:一方面认为,语料库经过标注之后失去了客观性,所得到的语料库是不纯粹的;另一方面认为,手工标注的语料库准确性高而一致性差,自动或半自动的标注一致性高而准确性差,语料库的标注难以做到两全其美,而目前大多数的语料库标注都需要人工参与,因而很难保证语料库标注的一致性。在分析了语料库在自然语言处理中的应用问题之后,作者指出,不论标注过的语料库,还是没有标注过的语料库,在自然语言处理中都是有用的,语料库语言学有助于计算语言学的发展。
第25章“知识本体”(ontology)讨论了知识本体及其在自然语言处理中的应用。首先,分别介绍了哲学传统的知识本体、认知和人工智能传统的知识本体、语言学传统的知识本体,并讨论了语言学中的知识本体与词汇语义学的关系;然后,说明在自然语言处理中,知识本体可以用来帮助系统进行语言的结构分析(例如:英语中的PP附着问题、错拼更正、句法检错、语音识别),也可以用来进行局部的自然语言理解(例如:信息检索中的问题搜索、文本分类),并具体说明了知识本体在信息检索、信息抽取、自动文摘、语义相似度计算、词义排歧中的应用。
第26章“树邻接语法”(tree-adjoininggrammar,简称TAG)介绍一种局部化的语法形式模型:树邻接语法(TAG)和词汇化的树邻接语法(lexicalizedtree-adjoininggrammar,简称LTAG)。首先讨论上下文无关语法CFG的局部化问题,说明TAG与CFG的不同:TAG以句法结构树作为核心操作对象,在树的基础上来组织语言知识,它的产生式规则也对应着树结构,它以线性的一维形式来表达二维的树结构;而CFG以符号串作为操作对象,CFG是一个基于符号串的形式语法,而TAG是基于树的形式语法。然后讨论上下文无关语法CFG的词汇化问题,介绍了LTAG。LTAG对于TAG的扩充主要在于把每一个初始树(initialtree)和辅助树(auxiliarytree)都与某一个或某一些叫作“锚点”(anchor)的具体单词关联起来。最后讨论LTAG的一些重要特性及其与别的形式系统的关系。
第27章“机器翻译:总体回顾”(machinetranslation:generaloverview)介绍了从20世纪50年代到90年代的基于规则的机器翻译系统(rule-basedmachinetranslation,简称rule-basedMT)的主要概念和方法:直接翻译方法、中间语言方法、转换方法、基于知识的方法,并介绍了主要的机器翻译工具,简要回顾了机器翻译的历史。
第28章“机器翻译:新近的发展”(machinetranslation:latestdevelopments)介绍了当前机器翻译系统的研究、开发和应用的情况,讨论了经验主义的机器翻译系统:基于实例的机器翻译(example-basedMT)和统计机器翻译(statisticalMT),并把它们与传统的基于规则的机器翻译系统进行了对比,同时还介绍了把各种方法融为一炉的混合机器翻译系统(hybridMT)。当前基于规则的机器翻译的开发中,回指消解的研究以及基于中间语言和基于知识的机器翻译的研究取得较大进展,本章也做了介绍;此外,还介绍了口语的机器翻译,讨论了少数民族语言和不发达语言的机器翻译前景,讨论了因特网上的机器翻译(特别是网页翻译)问题。最后,本章介绍了译者的电子翻译工具,特别讨论了双语语料库、翻译记忆、双语上下文索引等问题,并介绍了一些面向译者的词处理工具。
第29章“信息检索”(informationretrieval)主要介绍了文本的信息检索。信息检索系统的任务在于,对于用户提出的提问或者命题,给出与之有关的文献集合,作为检索的结果。首先分析了信息检索系统的软件组成成分,包括文献处理、提问处理、检索匹配技术。然后讨论自然语言处理技术对于信息检索的推动和促进作用,讲述了如何使用自然语言处理所得到的形态信息、短语信息、句法信息来改进信息检索中的索引技术,并且指出,当前的趋向是使用语义信息来进行信息检索。最后展望信息检索的发展前景。
第30章“信息抽取”(informationextraction,简称IE)讨论如何从自由文本中自动地识别特定的实体(entities)、关系(relation)和事件(events)的方法和技术。本章主要讨论两种类型的信息抽取:一种是名称的自动抽取(extractionofnames),一种是事件的自动抽取(extractionofevents),并介绍书写抽取规则的方法。对于名称的自动抽取,本章介绍了名称标注器(nametagger);对于事件的自动抽取,介绍了事件识别器(eventrecognizer)。同时,还介绍了如何从已经标注了有关名称或事件信息的文本语料库中自动地学习和抽取规则的方法,这种方法也就是信息抽取的统计模型。最后,介绍了信息抽取的评测和应用。
第32章“自动文摘”(textsummarization)介绍对单篇或多篇文本进行自动文摘的方法。首先讨论自动文摘的性质和自动文摘的过程。接着介绍自动文摘的三个阶段:第一阶段是主题辨认(topicidentification),第二阶段是主题融合(topicfusion),第三阶段是文摘生成(summarygeneration);并介绍了多文本的自动文摘。最后,介绍自动文摘的评测方法,讨论了自动文摘评测的两个指标:压缩比(compressionratio,简称CR)和内容保留率(retentionratio,简称RR)。
第33章“术语抽取和自动索引”(termextractionandautomaticindexing)介绍术语自动处理的技术。术语广泛地出现在科技文献中,术语的自动识别对于科技文献的分析、理解、生成、翻译具有关键性作用。随着网络的普及和数字技术的发展,出现在互联网、政府、工业部门和数字图书馆中的专业文献日益增多,术语的自动处理对于这些文献的信息检索、跨语言问答、多媒体文本自动索引、计算机辅助翻译、自动文摘等都具有重要作用。本章把面向术语的语言自动处理分为术语发现(termdiscovery)和术语识别(termrecognition)两个部门,分别介绍了主要的技术和系统,最后介绍了双语言术语的自动抽取技术。
第34章“文本数据挖掘”(textdatamining,简称TDM)介绍了本文数据挖掘技术。文本数据挖掘的目的在于从大规模真实文本数据中发现或推出新的信息,找出文本数据集合的模型,发现文本数据中所隐含的趋势,从文本数据的噪声中分离出有用的信号。本章首先讨论文本数据挖掘与信息检索的区别,分析了文本数据挖掘与计算语言学和范畴元数据(categorymetadata)的关系。本章举出实例,具体说明了怎样使用生物医学文献中的文本数据来推测偏头痛(migraineheadaches)的病因,怎样使用专利文献中的文本数据来揭示专利文本与已经发表的研究文献之间的关系,并介绍了LINDI(LinkingInformationforNovelDiscoveryandInsight)系统。这个系统的软件能够根据大规模的文本集合来发现文本中蕴含的重要的新信息。
第35章“自然语言接口”(naturallanguageinteraction简称NLI)介绍计算机自然语言接口系统。这样的NLI系统可以把用户使用的口头自然语言或书面自然语言提出的问题转化为计算机可以处理的形式。首先介绍了NLI系统的基本组成部分、意义表达语言(meaningrepresentationlanguage,简称MRL)、同义互训软件(paraphraser)、问题生成软件(responsegenerator)以及可移植工具(portabilitytools)。然后介绍口语对话系统(spokendialoguesystems,简称SDS),分别介绍了SDS的单词识别软件、任务模型、用户模型、话语模型、对话管理软件、消息生成软件、语音合成软件。最后讨论SDS系统的灵活性、现状以及将来的应用前景。
第37章“计算机辅助语言教学中的自然语言处理”(naturallanguageprocessingincomputer-assistedlanguagelearning)介绍在计算机辅助语言教学(computer-assistedlanguagelearning,简称CALL)中使用自然语言处理技术的问题。首先介绍CALL的发展历史,接着介绍在自然语言处理背景下的CALL,语料库与CALL,双语语料库,讨论自然语言处理技术在形态学教学、语法教学、偏误的识别与诊断中的应用。最后讨论自然语言处理技术在CALL中应用的评估问题。
本章最后附有各章作者简介、计算语言学术语表、作者索引和主题索引,便于读者查阅。
三、简评
本书是手册性的专著,有如下三个明显特点:
1.深入浅出。本书各章写作风格一致,内容协调,浑然一体,特别适合对计算语言学感兴趣和初入门的读者阅读。本书使用流畅的文笔和有趣的实例来介绍艰深的技术问题,尤其适合文科背景的读者阅读。
2.专家执笔。本书的38章分别由各个领域内的46位知名专家执笔,由于这些专家具有所属领域的精湛知识,对于自己的领域有深刻的理解,有力地保证了本书的学术质量和专业水平。
3.涵盖全面。本书几乎涵盖了计算语言学的所有领域,反映了当前计算语言学的最新成就,使我们对计算语言学能够获得全面而系统的认识。
我国曾经翻译出版过有关计算语言学和自然语言处理的大部头专著,如冯志伟和孙乐翻译的《自然语言处理综论》(电子工业出版社,2005)被称为自然语言处理教材的“黄金标准”。但是,这部专著主要针对理工科背景的读者而写,数学公式较多,文科背景的读者阅读和理解起来常常会感到困难。与《自然语言处理综论》相比,本书尽量避免使用繁难的数学公式,文笔浅显而流畅,内容新颖而有趣,更适合文科背景的读者阅读。目前,计算语言学这个新兴的学科不仅吸引了大量理工科背景的研究人员,同时也有不少文科背景的研究人员投身到计算语言学的研究行列中来。本书的上述特点正好可以满足文科背景研究人员的需要。当然,由于本书内容涵盖面广、专业性强,对理工科背景的研究人员也有很大的参考价值。
【关键词】网页信息抽取;HTML;网页
1.现有的网页信息抽取方法
1.1基于自然语言处理方式的信息抽取
使用自然语言处理进行信息抽取,需要经过的处理步骤包括:句法分析、语义标注、专有对象的识别(如人物、公司)和抽取规则。具体说来就是把文本分割成多个句子,对一个句子的句子成分(partofspeech,简称为POS)进行标记,然后将分析好的句子语法结构和事先定制的语言模式(规则)匹配,获得句子的内容即抽取信息。规则可由人工编制,也可从人工标注的语料库中自动学习获得。这类信息抽取技术中所用的抽取规则主要建立在词或词类间句法关系的基础上。
基于自然语言处理方式在含有大量自由文本且句子完整、适合语法分析的网页中的信息抽取取得了较好效果。这种方式的缺陷是:(1)将网页页面视为普通文本处理,没有充分利用网页文档独特于普通文本的层次特性。获得有效的抽取规则需要大量的样本学习,处理速度比较慢,这对于网上海量信息来说是一个大问题。
(2)网页页面中的文本通常不含有完整的句子,导致这种方法的适用范围较小。
1.2基于包装器归纳方式的信息抽取
包装器归纳法是一种自动构造包装器的技术。
主要思想是用归纳式学习方法生成抽取规则。用户在一系列的网页中标记出需要抽取的数据,系统在这些例子的基础上归纳出规则。这些规则的精确度如何取决于例子的质量如何。如果能代表那些需要处理的网页,这些例子就是高质量的。对于我们来说,提供好的样本网页要比提供明确的完整的规则要容易。
归纳学习法作为一种机器学习方法用来学习包装器的规则,优于手动生成包装器等其他包装器生成方法的地方在于:自动归纳规则,减轻了人力负担、减少了人为错误,并且当网页页面变化时,能对规则做适当调整,适应这种变化。
与自然语言处理方式比较,包装器较少依赖于全面的句子语法分析和分词等复杂的自然语言处理技术,更注重于文本结构和表现格式的分析。这种方式更适合于网页页面的信息抽取,使用包装器能充分发掘网页页面的结构和格式特征,能避免使用复杂的语言学知识,加快信息抽取的速度。
使用包装器的困难在于:(1)包装器的针对性强,可扩展性差。一个包装器处理一种特定的信息源,从几个不同信息源中抽取信息,需要一系列的包装器程序库,造成巨大的工作量。
(2)可重用性差。包装器对页面结构的依赖性强,当出现一类新的网页页面或旧的网页页面结构变化时,原来的包装器就会失效,无法从数据源中获得数据或得到错误的数据,这就提出了一个新的问题—包装器的维护,即包装器失效时,如何修复失效的包装器使之继续正确抽取数据。
(3)缺乏对页面的语义理解。目前的包装器主要依赖于原网页或其后台数据库的模式,基本上是一种数据模式的还原,缺乏主动性的对数据的语义理解。
1.3基于Ontology方式的信息抽取
Ontology在哲学中泛指对客观世界的本体描述,在人工智能领域一般指智能系统中涉及的概念术语及其性质等静态知识的描述。基于Ontology的信息抽取主要是利用对数据本身的描述信息实现抽取,对网页结构的依赖较少。
该系统最大的优点是对网页结构的依赖较少,只要事先创建的应用领域的Ontology足够强大,系统可以对某一应用领域中各种网页实现信息抽取。
主要缺点是:(1)需要由领域专家创建某一应用领域的详细清晰的Ontology,工作量大。
1.4基于HTML结构的信息抽取
该类信息抽取技术的特点是,根据网页页面的结构定位信息。在信息抽取之前通过解析器将网页文档解析成语法树,通过自动或半自动的方式产生抽取规则,将信息抽取转化为对语法树的操作实现信息抽取。
以XWRAP为例进行分析。通过交互的方式,由用户在样本页中指定抽取区域的起始位置,系统确定整个抽取区域,并确定区域的类型(table,list等)然后通过可视化的方式,由用户在样本页中指定语义项(如表头)及与之对应的实例,系统自动产生抽取规则实现信息抽取,最后系统利用启发信息获得数据间的层次结构关系,生成XML文档。
该系统对于不同的区域类型采用不同抽取规则提高系统的灵活性和效率。但是该系统只适合对含有明显区域结构的网页进行信息抽取,不支持对普通网页的抽取,模式的表达能力也非常有限,在学习阶段用户参与太多。
1.5基于网页查询的信息抽取
上述的信息抽取工具,采用了不同的原理,抽取,此均不具有通用性。基于网页查询的信息抽取,将网页信息抽取转化为使用标准的网页查询语言对网页文档的查询,具有通用性和良好的可扩展性。
常用的技术有:搜索引擎技术、网页查询语言技术和智能Agent技术。这三类方法各有优缺点。如搜索引擎技术具有查询条件简单的优点,但查准率和查全率不高,需要用户逐一浏览才能找到所需要的结果;网页查询语言技术具有查询精度较高的优点,但是目前没有统一的查询语言,查询时需要指定站点,应用面窄;将智能Agent技术应用于网页查询的优点是提高了查询工具的智能化和个性化,缺点是知识库的构造比较复杂,学习算法的优劣会直接影响查询结果的准确性。
2.网页信息抽取面临的挑战
(1)目前各类信息抽取技术中生成抽取规则的依据主要有三类:页面结构信息(HTML语法)、页面的内容和自然语言语义、语法信息。基于结构方式过分依赖网页的结构、可扩展性弱,基于内容方式又需要复杂的语言知识和自然语言处理技术。因此,应继续研究如何将基于结构方式和基于文本方式有效的结合起来克服各自的缺点。
(3)网页上的信息内容和网页结构处于不断地更新和变化中,因此,时刻注意如何感知这种更新和变化,进而修改已有规则,保证信息抽取的正确性。
(4)无论是自然语言处理,还是包装器技术往往针对一个特定的信息源,一个特定主题和领域,每出现一个新的信息源就要重新构造一套抽取程序,造成系统的可扩展性差。因此,应研究如何最大程度地利用已有的资源(程序、数据等),通过最小程度地改造适应新的信息源,增强系统的可扩展性。[科]
【参考文献】
[1]韩存鸽,燕敏.Web信息抽取方法研究[J].计算机系统应用,2009,(07).
[2]龙丽,庞弘燊.国外Web信息抽取研究综述[J].图书馆学刊,2008,(05).
[3]宋明秋,张瑞雪,吴新涛,李文立.网页正文信息抽取新方法[J].大连理工大学学报,2009,(04).
在互联网时代,用户对信息的需求已经发生了很大变化,人们大多借助百度和Google这样的搜索引擎来搜寻自己所需要的信息。但随着互联网信息量爆炸式的增长和个性化需求的增强,人们强烈需要在互联网中筛选出符合自己需求的精确信息,尤其是政府和企业等用户,更希望在搜索引擎的基础上进行深入的需求发掘,能够将信息升级为情报。
“智能计算在自然语言方面的处理就是帮助解决这一问题的。”海量信息技术有限公司副总裁兼首席科学家周富秋博士介绍说,在互联网信息挖掘中,智能计算是计算机利用存储与统计等特长模拟出人类智能效果的技术,通过一系列针对互联网数据的采集、分析、筛选、萃取等智能化技术手段,运用语义分析、数据挖掘、模式识别等一系列技术,从非结构化数据到结构化数据、从字符到语义,再进行海量计算后,将原始无序的数据转化成容易理解、价值较高的信息,进而再提炼出有价值的情报,供做决策依据。
对于信息情报方面的智能计算技术,周富秋做了进一步的解释,互联网拥有大量的数据和信息,目前主要采用了浅度智能自然语言处理技术(NPLShallow),通过这种方式提取出来的内容是数据和信息,Google和百度等提供的搜索引擎就是这样实现的。
要想在数据和信息的基础上进行精加工,进而生产出精华――情报,需要采用一种叫做深度智能自然语言处理的技术(NPLDeep)。该技术建立在自然语言处理(NatureLanguageProcess,NPL)的基础上,建立语料库,进行分类,然后建立规则表和词表。通过人工筛选出庞大语料库,按照事先设计的算法,对海量数据进行识别,从中找到对用户有用的信息和情报。
关键词:自然语言理解;语义相似度;全文检索;在线答疑系统
Abstract:Thesimilaritycalculationbasedonnaturallanguageunderstandingisstillaresearchcontentofthecomputerlanguageprocessingtechnology.Basedontheknowledgerepresentationof"HowNet",consideringthebothfactorsofdepthanddensity,byusingamoresophisticatedmultivariatesemanticsimilarityalgorithm,andwithafull-textsearchmatchingtechnology,anonlineanswersysteminthelimitedfieldisdesignedandimplemented.Theexperimentalresultsshowthat,thesystemisreliable,theanswereffectismoreobvious,andthedesiredgoalisachieved.
Keywords:naturallanguageunderstanding;semanticsimilarity;fulltextretrival;on-lineanswersystem
0引言
随着计算机网络技术的飞速发展,传统的教学手段已不能满足当前大信息量的教学内容需求,因此,创造一个在教师指导和引导下学生自主式学习的智能系统平台很有必要。智能的网络答疑系统可以利用自然语言处理技术对学生的疑问进行自动匹配处理,它的出现为网络教学提供了交互的情境,成为支持网络教学顺利进行的重要条件。智能网络答疑系统是传统课堂教学的重要补充,并逐渐在学生学习、认知、再学习这样一个闭环的学习过程中发挥着举足轻重的作用[1]。
1设计思想及算法原理
基于计算机自然语言处理技术,充分利用校园网络资源,通过人机互动等丰富信息表现形式,实现一个智能的、高效的基于自然语言理解的专业课程自动答疑系统。系统设计的关键是如何实现快速、高效的智能搜索答案。该过程实际上类似于一个搜索引擎,其核心就是构建一个结构合理、具有完整丰富内容的知识库,并能够在自然语言理解的基础上,快速、准确的完成自动答疑工作。基于自然语言理解的在线答疑系统中两个关键技术分别是:中文分词技术和相似度计算。
1.1中文分词技术
自然语言理解(NaturalLanguageUnderstanding,简称NLU)研究如何让计算机理解和运用人类的自然语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过人机对话(man-machinedialogue)的方式,用自然语言进行回答。为了使计算机系统能够较好地理解用户提出的问题,首先需要对问题进行处理,这一过程最先用到的最为关键的技术就是分词技术【2,3】。由于中英文之间的语言组织、词法结构不同,使得中文分词一直以来成为制约中文自然语言处理的主要因素。而中文文本中,只是字、句和段之间可以通过明显的分界符来简单划界,词与词之间没有天然的分隔符,中文词汇大多是由两个或两个以上的汉字组成,并且语句是连续书写的。这就要求在对中文文本进行自动分析之前,先将整句切割成小的词汇单元,即中文分词(或中文切词),相比英文语句处理,中文分词难度更大。
从算法处理上看,目前主要有三种【4-6】:一是基于词典的分词方法,它使用机器词典作为分词依据,分词效率高,目前应用范围较广;二是基于统计的分词方法,它是利用统计方法,通过对大规模文本的统计,让计算机自动判断的方法,该方法使系统资源开销较大;三是基于人工智能的分词方法,如专家系统和神经网络分词方法等,这类方法目前尚处于实验室阶段,尚未投入实际应用。
1.2相似度处理技术
相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用[7]。其计算方法按照基于规则和统计分为两种情况:一是根据某种世界知识(如Ontology)来计算,主要是基于按照概念间结构层次关系组织的语义词典的方法,根据在这类语言学资源中概念之间的上下位关系和同位关系来计算词语的相似度[8];二是利用大规模的语料库进行统计,这种基于统计的方法主要将上下文信息的概率分布作为词汇语义相似度的参照依据[9]。
⑴常用语义词典
对于基于语义词典的相似度计算方法,由于存在计算简单、基础条件低、假设条件易于满足等优点,受到越来越多研究者的欢迎。常用语义词典主要有[10-12]:WordNet、FrameNet、MindNet、知网(HowNet)、同义词词林、中文概念词典(CCD),以及叙词表、领域概念网、概念图等概念网络结构。本文对于相似度的计算主要是基于知网(HowNet)结构。其概念结构如图1所示。
⑵相似度计算
式⑴中,p1和p2表示两个概念节点,dis(p1,p2)是树状结构中两节点间的最短距离,α是一个调节参数,表示相似度为0.5时的路径长度。
文献[14,15]综合考虑深度与密度因素,提出了多因素义原相似度计算方法:
式⑵中,h为义原树深度,l为LCN层次,LCN为最小公共父节点。
文献[16]认为该方法存在两点不足:一是该式仅把相似度取为密度、深度因素的算术平均值,显然对于概念节点分布不均的情况不够合理;二是该式没有对密度、深度两者的影响程度进行分析,这样对他的使用范围受到了限制。基于此考虑,提出了改进的语义相似度计算方法:
式⑶中,l(p1,p2)为分别遍历概念网中节点p1,p2到达其最小公共父结点所历经的父结点(包括最小公共父结点)数的最大值。w(p1,p2)为p1,p2所在层概念数的最大值。算法关键部分引进了一个调节参数λ(p1,p2),并保证在该参数的作用下,当节点p1,p2所在层概念数较多,即w(p1,p2)增大时,密度因素对相似度的贡献值大;而当p1,p2离最小公共父结点较远,即l(p1,p2)增大时,深度因素对相似度的贡献值较大。同时算法约定,当p1,p2的父结点和最小公共父结点相同,且同层只有p1,p2两个节点时,调节参数为0.5。该方法即为本文在相似度计算方面采用的算法模型。
2模型设计
下面我们参考文献[17],按照一般教师对于问题的处理方式,在上述概念语义相似度计算的基础上,从计算机建模层面上给出计算机自动答疑模型的建模过程。
Step1:计算条件
已知标准问题库A可以表示为关键词序列:A=(a1,a2,…,an);学生提问B可以表示为关键词序列:B=(b1,b2,…,bn)。
Step2:相似度计算
⑴知识点关键词信息提取
该问题的处理主要通过提取学生问题中每一个关键词,对照系统知识库,从底层开始遍历搜索,当找到对应的概念节点时,提取该节点的高度、密度等属性信息,并保存起来,搜索完成后即可参加相似度的计算。
⑵概念相似度求解
概念相似度的计算采用语义相似度技术,设标准问题库A可以表示为知识点的一个向量组A=(a1,a2,…,an),循环遍历每一个学生输入的问题关键词序列,通过概念语义相似度算法可得到任意两概念之间的相似度Sim(ai,bj),其中i=1,2,…,m,j=1,2,…,n。
Step3:匹配结果输出
前面已经完成了输入问题和标准问题库之间的循环相似度匹配计算,为了将需要的信息提取出来,模型还需要设置一个阀值δ。通过阀值δ这个关卡,将相似度结果大于δ的问题提取出来,并按照降序排列输出即可。论文答疑系统模型建模流程如图2所示。
3系统实现与验证
系统设计环境为VisualStudio2005,数据库服务器为SQLServer2000。采用B/S网络模型进行构架设计,按照系统功能需求划分为用户表示层、应用逻辑层和数据访问层三个层面。系统测试界面如图3所示。
为了进一步验证系统的查询能力,我们将刚才的问句调整为:“计算机包含?”,这时系统自动分词后生成的汇单元只有一个关键词“计算机”,最终匹配结果如图4所示。
4结束语
[1]冯志伟.自然语言问答系统的发展与现状[J].外国语,2012.35(6):28-30
[2]黄,符绍宏.自动分词技术及其在信息检索中的应用研究[J].现代图书情报技术,2001.3:26-29
[3]沈斌.基于分词的中文文本相似度计算研究[D].天津财经大学,2006:12-17
[4]张波.网络答疑系统的设计与实现[D].吉林大学,2006:30-31
[5]张丽辉.计算机领域中文自动问答系统的研究[D].天津大学,2006:14-18
[6]朱.中文自动分词系统的研究[D].华中师范大学,2004:12-13
[7]周舫.汉语句子相似度计算方法及其应用的研究[D].河南大学,2005:24-25
[8]于江生,俞士汶.中文概念词典的结构[J].中文信息学报,2002.16(4):13-21
[9]胡俊峰,俞士汶.唐宋诗中词汇语义相似度的统计分析及应用[J].中文信息学报,2002.4:40-45
[10]MillerGA,FellbaumC.SemanticnetworkofEnglish[M]//LevinB,pinkerS.lexical&conceptualsemantics.Amsterdam,Netherlands:ElsevierSciencePublishers,1991.
[11]BakerCF.TheBerkeleyframeNetproject[C]//ProceedingoftheCOLING-ACL.98.Montreal,Canada,1998:86-90
[12]黄康,袁春风.基于领域概念网络的自动批改技术[J].计算机应用研究,2004.11:260-262
[13]刘群,李素建.基于“知网”的词汇语义相似度计算[C].第三届汉语词汇语义学研讨会论文集,2002:59-76
[14]AGIRREE,RIGAUG.AProposalforWordSenseDisambigua-tionUsingConceptualDistance[EB/OL],1995:112-118
[15]蒋溢,丁优,熊安萍等.一种基于知网的词汇语义相似度改进计算方法[J].重庆邮电大学(自然科学版),2009.21(4):533-537