自然语言处理(精选5篇)

Abstract:Thispaperanalyzestheroleandstatusofmorphologicalanalysisinnaturallanguageprocessingfromtheviewofthefeaturesanddifficulties.Then,theauthorlistssometypicalautomatedsegmentationalgorithminChineselexicalanalysis.

关键词:自然语言理解;词法分析;自动分词算法

Keywords:naturallanguageunderstanding;morphologicalanalysis;automaticsegmentationalgorithm

0引言

自然语言理解是语言信息处理技术的重要研究方向之一,一直以来都是人工智能领域中的核心研究课题。计算机的出现使得自然语言研究成为可能。语言是以词为基本单位的,词汇在语法的支配下构成有意义的和可理解的句子则进一步地按一定的形式再构成篇章。词法分析是理解单词的基础,因而也是自然语言理解和处理的基础,其主要目的是从句子中切分出单词,找出词汇中的词素,从中获得单词的语言学信息并由此确定单词的词义。

1自然语言理解的难点及处理层次

2词法分析的在自然语言理解中的地位和作用

2.1词法分析的特点和任务词法分析是理解自然语言中最小的语法单位――单词的基础。语言是以词为基本单位的,而词又是由词素构成的,即词素是构成词的最小的有意义的单位。词法分析包括两方面的任务[2]:第一:要能正确地把一串连续的字符切分成一个一个的词;第二:要能正确地判断每个词的词性,以便于后续的句法分析的实现。以上两个方面的处理的正确性和准确度将对后续的句法分析产生决定性的影响,并最终决定语言理解的正确与否。

3总结

词法分析是自然语言理解的基础。本文在介绍自然语言理解处理层次的基础上,讨论了词法分析的重要性和难点,特别是汉语的词法分析中切词的难度,并列举了一些著名的自动分词算法。

参考文献:

[1]王文杰,史忠植.人工智能原理辅导与练习[M].北京:清华大学出版社,2007,12:250.

[2]田霓光.自然语言的词法分析[J].咸宁学院学报,2008,(06):70-73.

[3]刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,(03):175-177+182.

[4]亢临生,张永奎.基于标记的分词算法[J].山西大学学报(自然科学版),1995,17(3).

[5]雷西川,余靖维,卢晓铃.基于相邻知识的汉语自动分词系统研究[J].情报科学,1994,(2).

关键词:自然语言处理语言翻译人工智能

一、引言

近年来随着计算机技术和人工智能的快速发展,自然语言信息处理技术已取得了长足的发展。于此同时人们在快速信息检索、语言翻译、语音控制等方面的需求越来越迫切。如何将自然语言处理中取得的研究成果应用于文本、语音等方面已成为目前应用研究的一个关键。论文将从自然语言信息处理的基础出发,系统的论述它在语音和文本方面的广泛应用。

二、自然语言信息处理技术简介

自然语言信息处理技术产生于上个世纪40年代末期,它是通过采用计算机技术来对自然语言进行加工处理的一项技术。该技术主要是为了方便人与计算机之间的交流而产生的。由于计算机严密规范的逻辑特性与自然语言的灵活多变使得自然语言处理技术较复杂。通过多年的发展,该项技术已取得了巨大的进步。其处理过程可归纳为:语言形式化描述、处理算法设计、处理算法实现和评估。其中,语言形式化描述就是通过对自然语言自身规律进行研究,进而采用数学的方法将其描述出来,以便于计算机处理,也可认为是对自然语言进行数学建模。处理的算法设计就是将数学形式化描述的语言变换为计算机可操作、控制的对象。处理算法实现和评估就是通过程序设计语言(如C语言)将算法实现出来,并对其性能和功能进行评估。它主要涉及到计算机技术、数学(主要是建模)、统计学、语言学等多个方面。

三、智能应用

通过多年的研究,自然语言信息处理技术已经取得了巨大的进步,特别是在应用方面。它主要被应用于文本和语音两个方面。

(一)自然语言信息处理在文本方面的智能应用

关键词:3S技术水污染自动监测应急处理

1引言

近年来,随着各种传感器的上天,许多国家十分重视水体的卫星遥感监测技术研究。采用计算机技术、通信网络技术、微电子技术、计算机辅助设计技术和3S(GIS、GPS、RS)等一系列高新技术对水环境综合管理的技术手段,建立水环境和部分重点污染源的在线监测系统,结合环境保护管理信息系统,并运用污染源解析的科学成果,对水环境和污染源实施有效监控。荷兰采用TM卫星数据、SPOT卫星数据以及多种水体监测数据、机载多光谱扫描数据,对水质进行了综合遥感研究;以色列通过分析100多个水体污染的SPOT卫星数据,实现了对水体污染的识别。

本项目采用3S信息技术手段,建立以远程控制及自动化技术为依托对水流域内的重点污染源进行自动监控系统,对水污染事故问题进行模拟预测分析;可以定性和定量分析在水源区域内工业开发对区域环境,尤其是对区域内的饮用水源地敏感目标的环境影响和潜在风险,并识别出区域环境风险的主导因子。同时采用环境监测、环境预测、计算机软件集成和远程通讯等技术研究开发环境风险监控预警体系,建立可视化管理信息系统。通过3S技术可以实现对水污染的全方位监测。

2污染水体遥感监测研究

2.1采用的研究方法

2.1.1对比分析法

2.1.2同步或准同步监测

2.1.3天地一体化模拟试验

卫星有效载荷天地一体化模拟试验是本项目的重要步骤。要确定CCD相机的不同监测对像辐射能量范围、动态范围;提出红外多光谱不同分辨率对地面的响应系数、最佳响应波段或组合波段,确定监测方法。

2.2采用的技术路线

3.构建基于GIS/GPS/RS技术的江河流域水污染事故应急处理决策支持系统

3.1系统构成与运行流程

依照运行的过程,系统主要包括数据层、模型层、评价层和用户层四个层面,各层次构成及系统运行流程见图。

3.2水污染事故模型库设计

模型库设计与开发分为三个层次,即指标管理模型、评价对象模型和评价方法模型。

3.2.1指标管理模型

3.2.2评价对象模型

评价对象模型是针对具体评价内容涉及的评价模型。按照评价内容分为江河污染现状评价、水体污染严重性评价、影响区域评价、事故灾害损失评价和污染灾害预警预报等5个方面。按照评价的深度和层次可以分为但因素评价和多因素评价两种。单因素评价主要是对单一点源污染扩散速度的现势和趋势性的评价等。多因素评价主要针对一些复杂的评价对象,利用多种指标综合反映其总体特征,挖掘隐藏与诸多数据之后的重要信息。

3.2.3水污染事故报警系统

4结论

Abstract:Innaturallanguageprocessing,syntacticanalysisistheanalysisofdeepprocessing.Thelexicalanalysistechnologyhasbeenbasicallymature,semanticanalysisbasedonthebasisofsyntacticanalysis.Therefore,thesyntacticanalysis’spositionisveryimportant.Atpresent,parsingofnaturallanguageprocessingbecomesabottleneck.Thispapergivesasimplecommentaboutthemethodofsyntacticanalysis.

关键词:汉语自然语言处理;句法分析

Keywords:Chinesenaturallanguageprocessing;parsing

语言虽然被表示成一连串的文字符号或者是一串声音流,但实质上,语言的内部是一个层次化的结构。自然语言的分析理解和处理过程也应当是一个层次化的过程。许多现代语言学家将自然语言理解的过程划分为语音分析、词法分析、句法分析、语义分析和语用分析五个层次,分别完成音素区分、词素划分、句子或短语的结构分析、确定语言所表达的真正含义或概念以及语言在特定环境中所产生的影响等分析工作。句法分析师自然语言处理的一个基本问题,是在句法分析的基础之上的语言层次结构分析。其目的是确定句子所包含的谱系结构和句子各组成成分之间的关系。关于汉语语言处理中的句法分析方法的研究,从20世纪80年代初以来,一直都没有停止过,先后出现了大量的分析方法。

1汉语句法分析方法及演变过程

1.1汉语句法分析的基本理论自然语言处理中,按照处理深度的不同,大致可以将自然语言处理中的语言分析技术划分为浅层分析和深层分析两大类[2]。深层分析技术是对语言进行语法、语义和语用的分析,包括句法分析、语义角色标注等。与浅层的词法分析不同,深层的分析需要对句子进行全局分析才能得到正确的结果。句法分析在深层分析技术中处于十分关键的位置。

所谓句法分析,就是根据给定的语法体系,自动推导出句子的语法结构,分析句子所包含的语法单位和这些语法单位之间的关系,将线型的句子转化成一种结构化、层次化的结构,是自然语言理解的一个关键组成部分。句法分析的主要作用是消除单词的歧义,为后续的语义分析提供层次结构上的技术支撑,其结果可直接用于及其翻译、问答系统、信息挖掘、信息抽取等应用。

1.2汉语句法分析方法句子是由词构成的。从结构上来说,汉语句子中的词是词根词,词内没有专门表示语法意义的附加成分,而且,汉语还缺少英语语句里面的形态变化,因此,汉语句子中词与词的语法关系依靠词序和虚词来表示。

句法分析的研究大体分为两种途径:基于规则的方法和基于统计的方法[3]。基于规则的方法是以知识为主体的理性主义方法,以语言学理论为基础,强调语言学家对语言现象的认识,采用非歧义的规则行事描述或解释歧义行为或歧义特征。基于统计的句法分析则以某种方式对语言的形成和语法规则进行描述,形成句法分析模型。汉语语言的句法分析方法自研究以来,先后出现了中心词分析法与层次分析法相结合的方法、配价分析法、语义指向分析法等多种汉语句法分析方法[4]。

1.2.1中心词分析法与层次分析法的结合中心词分析法也称为句子成分分析法,是汉语句法分析中传统的分析方法。该方法将句子分成主、谓、宾、定、状、补六大成分。该方法能很容易地分析出句子的格局,确定句子的句型,但无法体现出句子的结构层次。层次分析法则是基于句子语法结构的一种句法分析方法,它不注重句子成分,而是在层次的控制下切分句法结构的直接成分。该方法很容易显示和分析句子的结构层次,但却不能很好地显示句法结构的格局。将中心词分析法与层次分析法结合起来,就形成了一种优势互补的分析方法。

1.2.2短语结构句法分析与西方语言中长句非常常见的情况不同,汉语句子以短句为主。从汉语的句法上来说,短语是不会跨越句子的分界的。因此,汉语这种句子短小的特点为提取句子中的短语减轻了难度。

短语体系的句法分析是在汉语数库(ChinesePennTreebank:CTB)上开展的。CTB与英文PennTreebank属于同一语法体系。汉语的短语结构句法分析方法在改进后的CTB的基础上进行,并进一步地通过EM算法获取树库中的规则来进行。由于语言上的差异,在CTB上的汉语句法分析水平与英文PennTreebank上的分析结果还存在一定的差距。

1.2.3基于依存关系的句法分析统计句法分析方法中需要解决的关键问题是如何发现和利用具有强消岐能力的语言特征姿势,同时保证语言知识的应用不会使模型的参数急剧膨胀而导致严重的数据稀疏问题。

在汉语的基本句型中,绝大多数句子的中心语是由动词或动词短语来担当的,而句子的中心语则支配着句子中的其他成分。通过对动词、名词和形容词等各种词的语义知识进行分析并加以分类,进而从中总结出中心词与各被支配成分之间的语义依存关系,利用这种依存关系来很好地解决上述问题。

1.2.4基于语法功能匹配的句法分析方法一般的词性标注都是对单词或短语的词性进行标注。然后,通常情况下,一个词类是具有很多种语法功能的,并且,同一词类的不同词的语法功能的差异有可能非常大,而有的情况下,不同词类的词,其语法功能却有可能相同。基于语法功能匹配的汉语句法分析方法通过使用词和短语的语法功能集来代替现有的词类标记和短语标记,以语法功能匹配(GrammarFunctionMatch:GFM)作为句法分析的基本方法来实现汉语的句法分析[5]。

1.2.5基于句法语义特征的句法分析方法所谓语义特征分析法,是一种借用语义学分解语义特征的方法来解释在汉语语句中,某个格式为什么可以用这一类词语而不能用另一类词语的原因,其主要目的是解释歧义现象产生的原因。基于句法语义特征的句法分析方法通过在句法分析中加入语义信息,将句法分析与语义分析综合起来进行,从而解决句法分析中的歧义消解问题。

此外,变换分析法、配价分析法、语义指向分析法等也是比较典型的汉语句法分析方法。

1.3汉语句法分析方法的演变过程及原因汉语句法分析的方法主要是通过国外语言学理论引进而来的,20余年来,汉语句法分析方法随着汉语语法研究的发展而不断发展。

相对于英语等分析语型的西方语言来说,汉语是一种孤立型的语言,两者的内部结构存在着很大的差异。从上述汉语句法分析的发展不难看出,汉语的句法分析方法的发展一直都受着西方语言学的影响。而简单地套用西方语言学的分析方法是不可取的。最近几十年来,我国的专家和学者开始将西方语言学与汉语语法研究相结合,走符合汉语自身特点的道路。

2总结

汉语自然语言处理中的句法分析是一种层次结构上的深层分析。汉语语言句法分析研究一直是汉语自然语言处理中的一个热点问题,出现了众多的分析方法。早期的句法分析器大多是简单的符号推理,然而,句法分析不是简单的符号推理,而是一种实体推理,汉语句法分析方法在汉语自身特有的孤立型特点和分析方法本身的局限性的影响下不断发展演变,使得汉语语言处理及汉语语法的研究正不断地深化,对汉语语言的分析方法也提出了更高的要求。总的来说,汉语语言的句法分析方法越来越精密、细致和科学。同时,语义分析和语法分析的结合也越来越紧密,这是汉语语法学朝着现代化科学化方向发展的必然趋势。

[1]王文杰,史忠植.人工智能原理辅导与练习[M].北京:清华大学出版社,2007,(12):250.

[2]刘挺,马金山.汉语自动句法分析的理论与方法[J].当代语言学,2009,(02):100-112.

[3]袁里驰.基于依存关系的句法分析统计模型[J].中南大学学报(自然科学版),2009,(06):1630-1635.

[关键词]数字出版外文原著自然语言处理云平台词汇提取难句抽取

目前数字出版技术、自然语言处理技术和云技术的发展,为人们改进或解决上述问题带来了可能。本文首先介绍在数字出版中应用自然语言处理技术,通过词汇抽取服务辅助外文阅读的问题,同时进一步提出在数字出版中提供难句抽取服务的建议,并对可行性进行分析及给出可供参考的抽取策略。

2数字出版中的词汇抽取服务

在数字出版中提供词汇提取服务是把外文原著中读者可能不认识的生词提前抽取出来,给出解释,生成按词频分段,能按照页码和章节进行筛选的词汇表放到出版平台上供下载;对于专业外文书籍,不仅提供常规词汇表,还包括专业词汇表。在数字出版提供词汇抽取的最初理念由本文作者在2012年美国《出版研究季刊》中第一次提到[2],下面在介绍原理念的基础上,总结扩展分析如下。

2.1提供词汇抽取服务有助于提高外文阅读效率

2.2提供词汇抽取的技术基础

数字出版提供词汇抽取服务的主要技术基础是自然语言处理、云计算和数字出版。

首先,自然语言处理(NaturalLanguageProcessing,NLP)技术是用计算机来研究和处理自然语言的技术,始于20世纪40年代末50年代初,已成为当代计算机科学中一门重要的新型学科。词汇抽取和各种词典建设是自然语言处理技术的基础,属于成熟的技术。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易实现。对于汉语这样的表意文字,计算机自动分词的准确率还不能令人满意(大约90%)[6],影响了各种电子词典的建设速度,目前大规模地实现词汇抽取服务还有困难;但是,依靠在汉语自然语言处理技术方面几十年的研究成果和建设的各种资源,在一定范围内实施词汇抽取还是可以的。

其次,云计算是一种运算模式,能实现无处不在、便捷按需的网络访问,信息处理和存储在云数据中心完成。由于数字出版技术更新和管理费用等问题,数字出版采用云技术成为一种必然趋势[7]。数字出版提供词汇抽取服务需要云计算技术的原因在于词典建设是庞大和困难的工作。现代社会发展迅速,新词不断出现,词典的更新维护是一个重要课题,也是单个出版社无法承担的;由云平成词典建设、更新维护及词汇抽取软件的建设,以资源共享的形式提供给各出版社使用,则能够保证其有效管理和经济可行性。

再次,数字出版决定了著作原稿在各个阶段都是以电子文档形式存在的,对于任何一本原著,只需在编辑完成后把对应电子文档的格式转换成纯文本,然后利用基于自然语言处理技术设计的词汇抽取软件和电子词典即可完成词汇抽取工作。

2.3词汇抽取策略

外文原著中的词汇量很大,专业著作或原版教材则不仅包括普通词汇,而且包含很多只能在专业词典中查到的专业术语。每个读者的外语水平也不同,遇到的生词差异很大,所以要有效地抽取符合个人情况的生词,并以方便学习的形式显示,需考虑采用合适的抽取策略。

2.3.1普通词汇抽取

提供词汇抽取服务主要基于这样一个统计事实,即一本书包含很多词汇,但常用单词占了绝大部分。据弗兰西斯(Francis)和库切拉(Kucera)(1982)统计,在一百多万词的Brown语料库中,频率居前的1000单词就可以覆盖72%的语料库;频率居前的2000单词可以覆盖79.7%;频率居前的5000单词可以覆盖88.7%;频率居前的6000单词可以覆盖89.9%;而频率居前的15851个单词才覆盖97.8%[8]。教育心理学家、心理测量专家、语言学家和其他研究人员多年来一直使用文本样本中的单词频率统计作为估算单词难度的方法,其基本假设是文本中出现频率低的单词是难度大的单词[9]。一个读者的外语水平越高,所认识的难词、或者说低频词就越多。如果把一种语言的词汇按词频分段,语言水平高的读者生词少且趋于低频词段;外语水平较低的读者生词较多,词频段跨度较大。因此,数字出版平台可以通过采用不同的抽取策略提供不同频段的词汇表来满足不同外语水平读者的需要[10]。

2.3.2专业术语抽取

专业外文文献中有很多专业术语,即某一学科领域所特有或专用的语汇,其词义常不为专业外读者所明白。尽管术语只占全文的5%—10%,但它们却构成科技英语翻译与其他文体翻译的根本区别[11],需要通过专业词典解决专业术语的抽取问题。对于只涉及某一个专业的外文专著,可通过软件工具在原稿编辑完成后转换成纯文本格式,进入对应的专业词典,抽取出其中的专业术语,形成专业词汇表供读者下载。由于专业词汇也可分为常用高频词汇、核心专业词汇和低频词汇,所以,专业术语抽取时也可参考常规词汇按词频分段的方法,列出不同频段的专业词汇,读者可考虑先记住高频词汇,减少阅读困难。为了与常规词汇表相区别,每个专业术语后应添加专业标记[12]。

如果是涉及多门专业知识的综合类专著,则需要分别进入不同的专业词典进行专业术语抽取。由于专业词典一般存在一词多域多义和一词多域同义的现象,即同一词汇可能会出现在不同的专业词典中,在不同专业领域有不同的意义,也可能具有相同的意义[13]。所以,必要时需对从不同的专业词典中抽取出来的词汇进行合并,减少数据冗余,方便读者学习。

目前,对于数字出版中提供词汇抽取的探讨,还只限于文学原著或专业文献。实际上,通过考虑不同类型读物的特点,通过采取合适的抽取策略,各种类型的外文读物,包括报纸、杂志等都可以实现词汇提取,为提高外语学习效率发挥积极作用。

3数字出版中的难句抽取服务

前面介绍了数字出版中提供词汇抽取服务的问题,实际上,还可以进一步深化这种服务,在提供词汇抽取服务的同时,提供难句抽取服务。

3.1提供难句抽取服务的意义

外文阅读中最主要的困难是词汇问题,而句式结构复杂、成分关系多样、具有高度逻辑性的长难句是另一障碍,能否解决长难句的理解是提高阅读能力的另一个关键。对语篇整体结构、深层含义、作者态度等信息的理解非常重要,提高学生对于阅读材料的宏观把握能力已成为语言学家及语言教师们研究的重要课题之一,但是词汇和句子理解仍然是外语学习的基础。特别在学习一门外语的早期,如初、高中及至大学阶段,长难句理解都是学习中常见的困难[14-15]。如果长难句的理解能力提高,则外文阅读速度和质量将会得到极大提高。如果在读者阅读外文原著时,不仅限于生词,同时也能提前把读者不容易理解的难句抽取出来,给出解释和分析,生成能按页码、章节和字母顺序自由排序和筛选的难句表放到出版平台上供下载,则能帮助读者更好地理解这些难句。按页码、章节自由筛选,能迅速恢复其上下文语境,不仅对语言学习本身有利,同时有助于更好地理解原著。读者可以选择喜爱的章节里的生词和难句,经过有意识分析和学习,然后对那部分更好地阅读理解。

此外,在各种类别的外语日常阅读训练中,如果能集中选择一些学习者熟悉内容且感兴趣的、具有代表性的长难句,如选择一些影响较大的文学名著中的长难句进行分析和强化翻译训练,掌握规律就可以事半功倍。所以外文数字出版中提供难句抽取服务具有积极的意义。

3.2提供难句抽取服务的可行性分析

虽然外文出版中的难句抽取服务对外语学习有积极的意义,但目前技术条件下还存在一些具体困难,需要通过某些特殊方法,采取合适策略来解决。

3.2.1自动化难句抽取中的困难

在数字出版中实现外文难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译。这些在目前都还存在一些困难。

首先,要在外文数字出版中把难句抽取出来并通过机器翻译自动给出翻译结果,不仅涉及词长、词频和句长的计算,还需要对句子结构等进行多方面的识别和判定,因此,需要对生语料(完成编辑后的书籍原稿文档)进行预处理,即进行词汇、句法、语义等的分析,添加相应标注,把生语料变成熟语料。虽然语料库的自动标注技术已经研究多年,有一些效果较好的语料库自动标注工具软件,但该过程一般仍然需要人工干预校正。语料库标注是一项代价昂贵的工作[16],需要大量人力、物力和资金,所以在目前的技术条件下,对出版的外文读物生语料库进行标注还是不现实的。

其次,除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。目前为止,对语篇难度(文本难度)进行的研究很多,但多数都是基于文本难度的宏观度量,对微观的诸如语篇的基本组成部分——句子难度度量研究的较少[17],缺乏精确高效的难句抽取算法[18]。

第三,对于抽取出来的难句,需要用机器翻译方法给出翻译,而目前的机器翻译水平无法保证难句翻译的准确性。

3.2.2参考传统文本难度算法及通过人工干预实现难句提取

其次,在基于传统文本难度算法进行难句提取时,应该注意成语和俗语问题。难句一般比较长,但长句不一定是难句;而含有成语和俗语的句子,有时虽然短,却难以理解。因此,可从两个方面考虑:首先是句长和句子中的词频因素。句子越长、其中词汇难度越大(词长、词频低),则句子是难句的可能性越大。其次是句中是否包含成语和俗语因素。在文学类读物中,成语和俗语较多;在专业读物中,也可能用到成语和俗语,但非常少。随着自然语言处理技术和语料库技术的发展,成语或俗语电子词典的建立日趋完善,鉴于成语和俗语对读者带来的不便,在对文学读物原著进行难句抽取时,可增加对成语和俗语因素的考虑。目前,英语是国际通用语言,对文本难度研究最成熟的也是英语,因而可尝试首先在英文读物中实现难句的自动提取。

第三,对于通过文本难度算法提取出来的难句,由于不能通过机器翻译方法给出准确的翻译结果和句子分析,可根据读物特点,从减少人力、物力需求的角度选择不同的人工翻译策略。对于文学作品中抽取出来的难句,可通过读者论坛等方法讨论解决;原版教材中的难句可由授课教师或教材引进部门组织专家翻译放到服务器上提供给学生,同时可参考通过双语平行语料库的信息服务平台等辅助完成翻译[21]。

第四,从语言水平级别划分,外文读物有很多种类,难句抽取应注意从读物本身的文本难度出发来设计难句抽取算法,以满足不同语言水平读者群的需求。

4结语

人类已经进入数字出版时代,自然语言处理技术在云平台的支持下将能为人们的语言学习提供多种服务。本文仅介绍和探讨了最基础的词汇和难句抽取服务,且主要是从理念上加以讨论,具体实施还需要出版社、语言学家和软件技术人员的共同努力,并在实践中持续改善。需要注意的是,虽然词汇和难句提取能对读者的阅读提供帮助,但内容和文本难度仍然是外文原著阅读能否成功的重要因素,出版社平台应提供外文书籍的内容和阅读难度分级信息。实践证明,外文原著阅读可以全方位地提高阅读者的外语水平,教师许连赞2001年通过让学生阅读原著的方法使学生的口语能力受到了外交官的好评[22],所以,我国数字出版如能提供外文原著的词汇和难句抽取服务,将会对我国外语水平的整体提高产生积极影响。

注释

[1][2][10]JilanSun.Popularizingvocabularyextractionserviceondigitalpublishingplatforms[J].PublishingResearchQuarterly,2012,28:65-72.DOI10.1007/s12109-012-9255-6

[3]蔡金亭,朱立霞.认知语言学角度的二语习得研究:观点、现状与展望[J].外语研究,2010(1):1-7

[4]李庆燊.论英语词汇教学中的误区[J].教育与职业,2010(2):176-177

[5]王淼.中初水平学习者在外语学习环境下的偶遇词汇学习[D].上海:上海外国语大学,2004

[6]李兴珊,刘萍萍,马国杰.中文阅读中词切分的认知机理述评[J].心理学进展,2011,19(4):459-470

[7]TedHill.TheInevitableShifttoCloud-BasedBookPublishing:TheNextStepintheDigitalTransformationofBookPublishingMaybeCloserthanYouThink[J].PublishingResearchQuarterly,2012,28:1-7.DOI10.1007/s12109-011-9249-9

[8]FrancisWN,KuceraH.FrequencyanalysisofEnglishusage:Lex-iconandgrammar[M].Boston:HoughtonMifflin,1982

[9]Breland,H.M.wordfrequencyandworddifficulty:Acomparisonofcountsonfourcorpora[J].PsychologicalScience,1996(2):96-99

[11]蔡子亮.术语标准化与信息技术[J].英语科技术语的翻译,2005(2):31-32

[12]孙继兰.外文原版教材出版提供词汇抽取服务可行性分析[J].科技与出版,2013(4):54-57

[13]黄河燕,张克亮,张孝飞.基于本体的专业机器翻译术语词典研究[J].中文信息学报,2007,21(1):17-22

[14]刘婷婷.云南省高职高专非英语专业学生英语阅读理解长难句的障碍研究及解决方法[J].赤峰学院学报(自然科学版),2013,29(1,上):251-253

[15]何正胤.高中英语阅读教学策略探析[J].湘潭师范学院学报(社会科学版),2006,28(2):179-180

[16]常宝宝,俞士汶.语料库技术及其应用[J].外语研究,2009(5):43-51

[17]江少敏.句子难度度量研究[D].厦门:厦门大学,2009

[18]Kim,Young-Bum;Kim,Youngjo;Kim,Yu-Seop.Sentencedifficultyanalysiswithlocalfeaturespaceandglobaldistributionaldifference.LectureNotesinComputerScience(includingsubseriesLectureNotesinArtificialIntelligenceandLectureNotesinBioinformatics)[C].v7425LNCS,p716-722,2012,ConvergenceandHybridInformationTechnology-6thInternationalConference,ICHIT2012,Proceedings.

[19]章辞.英文易读性研究:回顾与反思[J].湖南工程学院学报,2010,20(3):47-51

[20]邢富坤,程东元.基于统计语言模型的英语易读性研究[J].外国语学院学报,2010,33(6):19-24

[21]王传英.基于双语平行语料库的信息服务平台建设[J].图书馆工作与研究,2010(12):79-82

THE END
1.大模型如何理解自然语言:分词器的入门指南在自然语言处理(NLP)的领域中,"大模型"如同一位精通语言的大师,能够理解并生成各种文本。这些模型并非生来就具备这种能力,而是依赖于大量的训练和精心设计的数据预处理流程。在这一过程中,分词器扮演着核心角色,对于文本预处理至关重要。本文将深入探讨分词器的工作原理,以及一些流行大模型(例如LLaMA)的分词器实现细节https://www.jianshu.com/p/0d4649ada67a
2.知识图谱构建流程知识图谱(Knowledge Graph)源于语义网、图数据库等相关学术研究领域,不同领域对知识图谱研究的侧重有所不同,如自然语言处理、知识工程、机器学习、数据库和数据管理等领域都有不同的研究与应用。 自然语言处理领域:“信息抽取”是其核心,如何从非结构文本数据中抽取知识图谱所需要的三元组数据是一项极富挑战性的工作。https://ir.sdu.edu.cn/~zhuminchen/KG/6.htm
3.好用的AI流程图软件,AI自动生成流程图现代工作环境中,工作流程的优化和高效成为组织和团队关注的重点。传统手动绘制流程图耗时且易出错。博思白板boardmix 支持AI自动生成流程图,利用机器学习和自然语言处理算法,智能生成准确、清晰的流程图,助力节省时间、提高准确性,帮助团队提升工作效率。本文为大家分享boardmix AI生成流程图有哪些特点和优势。 https://boardmix.cn/article/good-ai-flow-chart-software/
4.chatgpt怎么画流程图ChatGPT 是一个基于 GPT 模型的聊天机器人平台。它可以帮助用户进行自然语言处理和语义理解,支持创建智能聊天机器人。为了更好地理解 ChatGPT 的工作原理,我们可以使用流程图来描绘其运行过程。下面是我采用的步骤和技巧: 1: 了解 ChatGPT 的基本工作原理:ChatGPT 使用 “预测下一个词” 的方式,基于用户输入的语句https://tool.a5.cn/article/show/20098.html
5.人物关系知识图谱构建流程图模板人物关系知识图谱构建是一个复杂的技术过程,涉及自然语言处理(NLP)、机器学习和图数据库等多个领域。首先,通过数据采集和预处理,收集并清洗大量文本数据。接着,利用命名实体识别(NER)技术识别出文本中的人物实体。然后,应用关系抽取算法(如基于规则或深度学习的方法)从文本中提取人物之间的关系。最后,将这些实体及其https://www.processon.com/view/652cf21f26471338ef3230c8
6.NLP自然语言处理完整流程自然语言处理 完整流程 第一步:获取语料 1、已有语料 2、网上下载、抓取语料 第二步:语料预处理 1、语料清洗 2、分词 3、词性标注 4、去停用词 三、特征工程 1、词袋模型(BoW) 2、词向量 第四步:特征选择 第五步:模型训练 1、模型 2、注意事项 (1)过拟合 (2)欠拟合 (3)对于神经网络,注意梯度消失和https://www.pianshen.com/article/15001392201/
7.知识图谱:面向科技文献的构建技术与应用实践最新章节李娇著知识图谱相关研究在自然语言处理、深度学习等技术的推动下已经迈进成熟化和实例化,形成两条基本的技术路径:一是语义网领域的语义知识图谱,二是数据库领域的广义知识图谱。接下来将以此分类为依据对知识图谱数据模型、查询语言、构建技术、存储管理方案等进行分析介绍。 1.2.1 知识图谱构建技术流程 知识图谱的构建过程https://m.zhangyue.com/readbook/12851550/5.html
8.如何标记对话语言理解中的言语对话语言理解常见问题解答 操作指南 使用容器 创建项目 生成架构 标记语句 训练模型 查看模型的性能 部署模型 调用API 进行预测 备份和恢复模型 从LUIS 进行迁移 概念 教程 参考 实体链接 语言检测 关键短语提取 命名实体识别 (NER) 业务流程工作流 个人身份信息 (PII) 检测 https://docs.microsoft.com/zh-cn/azure/cognitive-services/language-service/conversational-language-understanding/how-to/tag-utterances
9.问答式数据分析利器PandasAI中文教程(最全)PandasAI 是一个 Python 库,它让您可以轻松地使用自然语言向数据提问。 除了查询功能外,PandasAI 还提供了通过图表可视化数据、通过处理缺失值来清理数据集以及通过特征生成来提高数据质量的功能,使其成为数据科学家和分析师的综合工具。 功能特性 自然语言查询:使用自然语言向您的数据提出问题。 数据可视化:生成图形和https://zhuanlan.zhihu.com/p/13801079688
10.广告行业中那些趣事系列52:一个超好用的CTR开源项目FuxiCTR欢迎转载,转载请注明出处以及链接,更多关于自然语言处理、推荐系统优质内容请关注如下频道。 知乎专栏:数据拾光者 公众号:数据拾光者 摘要:本篇从理论到实践介绍了华为CTR开源项目FuxiCTR。首先是背景介绍,然后重点详解开源项目FuxiCTR,包括项目架构、支持的主流CTR算法以及在公共数据集上的效果和代码处理流程及源码介绍;最https://maimai.cn/article/detail?fid=1746193888&efid=C-xR9q7pxkxalHIhicgUrg
11.流程知识图谱构建流程尤其是纯文本数据会涉及到的等,需要用到许多自然语言处理的技术,包括但不仅限于分词、词性标注、分布式语义表达、篇章潜在主题分析、同义词构建、语义解析、依存句法、语义角色标注、语义相似度计算等等。 二、知识融合 融合,目的是将不同数据源获取的知识进行融合构建数据之间的关联。包括实体对齐、属性对齐、冲突消解、http://www.360doc.com/content/18/0727/12/32762466_773589024.shtml
12.PythonNLP自然语言处理详解51CTO博客NLP的基本流程大致有两步: 第一步是自然语言理解(Nature Language Understanding,简称NLU),就是理解给定文本的含义或意图。 第二步是自然语言生成(Nature Language Generation,简称NLG),一般的NLG会按照一定的模板将数据返回给用户,而智能化的NLG则能将关键的信息要素使用各种合适的字符连接起来,形成用户能轻松阅读和理https://blog.51cto.com/u_11837698/6081861
13.护理不良事件上报流程图以下是护理不良事件上报流程图:1、发现护理不良事件护理人员在日常工作中要注意观察和发现护理不良事件,如患者摔倒、输液外渗、管道脱落等。一旦发现不良事件,应及时采取措施,减轻对患者的影响。2、初步处理护理人员应首先对不良事件进行初步处理,如给予患者适当的安抚、处理伤口等。同时,要记录事件的详细情况,包括时间、https://www.docin.com/touch_new/preview_new.do?id=4550952360
14.自然语言处理在财会领域的应用会计审计第一门户导读:客户情感分析是应用自然语言处理(NLP)促进业务突破性发展的诸多领域之一。 Shivam Arora, CPA 段家菊 译,郭强 校 数据有不同的类型。结构化数据以预定义的格式存在,通常易于进行分析。但企业的大多数数据都是非结构化的,存在于自由流动的人类语言(即自然语言)如英语中。人类能够很容易理解这种类型的数据,计算机https://news.esnai.com/2022/0430/229148.shtml
15.“潮涌浦江”投资上海全球分享季之投资政策50问来了浦江头条打造AI标准体系方面,涵盖AI的基础共性、关键技术、核心产业、行业应用、安全伦理等各层次标准,在机器学习、知识图谱、生物特征识别、自然语言处理、计算机视觉等领域推动关键技术标准研制,在智能芯片、系统软件、机器学习框架、开源开放平台等领域重点推动产业标准研制。深化算法作用方面,实施“算法基础突破行动”“算法应用https://www.thepaper.cn/newsDetail_forward_19028189
16.安全知识图谱入门篇:概念构建和应用图5 知识图谱构建流程 (1)知识来源 根据应用领域确定知识来源。不同的数据源的知识化都需要综合不同的技术手段,例如:对于文本数据源,我们需要利用自然语言处理技术(NLP)实现实体识别、实体链接、关系提取、事件提取;对于结构化数据库,可能需要定义结构化数据到本体模型的语义映射,使用语义翻译工具实现结构化数据到知识图https://www.topsec.com.cn/newsx/2195
17.上市企业品牌建设与员工认同和组织文化的塑造5、VI管理:VI设计是一个长期的过程,需要不断地进行维护和更新。企业需要建立VI管理制度,明确VI设计的责任人和流程,及时更新VI规范手册和VI应用方案,保证VI元素的及时更新和优化。 在进行VI设计时,企业需要注意以下事项: 1、不要盲目跟风,要根据自身品牌特点和目标受众来选择VI元素和应用方式。 https://www.rhtimes.com/news/Design-NEWS7662.html
18.『软件工程11』结构化系统设计:解决软件“怎么做”问题(下2、处理过程设计的方法 在过程设计阶段中,需要要决定各个模块的实现算法,并精确地表达这些算法。而表达过程规格说明的工具叫做详细设计工具,它可以分为图形工具、表格工具和语言工具三大类。那么处理过程设计主要有以下四种方法: 程序流程图 N-S盒图 PAD问题分析图 https://developer.aliyun.com/article/897400
19.数字化智慧病理科建设白皮书:病理科数字化智慧化转型进行时工作流程对比图 来源:商汤科技 科室全流程运转:依托数字信息系统,优化科室协同效率和工作流程管理。病理科工作流程分为标本送检、登记、取材、制片(脱水、包埋、切片、染色)、诊断、报告出具、归档。传统工作流程的运转依赖人工操作以及实物载体(纸质记录、物理切片等),通过建立全流程信息管理系统以及标本追踪系统,可以实现https://www.vbdata.cn/1518912447
20.2022国央企数字化实践报告——深度解读国央企不同嘲数字化痛点拓尔思信息技术股份有限公司(简称“拓尔思”)成立于1993年,在自然语言处理、大数据和人工智能SaaS服务、数字虚拟人及数据安全等领域拥有丰富成熟的产品线和服务,提供融媒体技术平台、网络舆情分析、政府门户网站云平台等多种解决方案,推动多行业实现数字化转型。 https://www.shangyexinzhi.com/article/5006827.html
21.预见2024:《2024年中国大语言模型行业全景图谱》(附市场规模竞争用户可以使用自然语言与系统交互,从而实现包括问答、分类、摘要、翻译、聊天等从理解到生成的各种任务。大规模语言模型展现出了强大的对世界知识掌握和对语言的理解能力。 2、大语言模型构建流程 根据OpenAI 联合创始人Andrej Karpathy在微软Build 2023大会上所公开的信息,OpenAI所使用的大规模语言模型构建流程如下图所示https://www.qianzhan.com/analyst/detail/220/240716-295ffeeb.html
22.朱庆华宋珊珊风险视角下生成式人工智能的司法应用路径生成式人工智能基于自然语言处理、机器学习和人工智能等技术原理,可以重点围绕智能审查(采用人工智能技术校核文书会更加高效和客观,自动审查法律文本和修改指示,确保文书质量)、量刑预测、笔录生成等业务场域,通过语义分析技术识别出犯罪情节,智能推荐相似罪名、相似情节案例;智能匹配相关法律法规、司法解释;依据犯罪事实和情节https://www.jfdaily.com/sgh/detail?id=1247369