1966年,计算机体积还很庞大,康涅狄格大学的研究员埃利斯·佩奇(EllisPage)就率先开始了对自动评分的研究。计算机在那时是相对新颖的技术,主要用来处理最高级的任务。在佩奇同龄人眼中,利用计算机进行文本输入而非计算数据更是新奇的想法。在当时的环境下,不管是从实用的角度、还是从经济成本来看,利用计算机给作文评分这个想法都非常得不切实际。与同代的人相比,佩奇是个眼光真正长远的人。
埃利斯佩奇团队开发出第一套作文自动评分系统PEG(ProjectEssayGrader)。PEG(ProjectEssayGrade)、IEA(IntelligentEssayAssessor)和E-rater是国外最具代表性的三种作文自动评分系统。
国外作文自动评分系统述评
作文自动评分是近三年自然语言处理中的热点问题。大规模作文阅卷面临两大难题:其一,阅卷需要耗费大量人力、物力等资源;其二,评判作文质量具有很强的主观性,阅卷的信度和效度不强。近几十年来,随着计算机硬件和软件性能快速提高,自然语言处理等技术获得了长足的发展,国外一批作文自动评分系统相继问世,这两个长期困扰大规模作文阅卷的难题有望得到解决。
(一)PEG——一个重语言形式的评分系统
PEG于1966年由美国杜克大学的EllisPage等人开发。PEG的设计者们认为,计算机程序没有必要理解作文内容,大规模考试中尤其如此。因此,他们在其网站上公开申明:“PEG不能理解作文的内容”。在PEG的开发者看来,作文质量的诸要素是作文的内在因素,无法直接测量,因此,最为合乎逻辑的方法是从作文文本中提取一些能够间接反映作文质量的文本表层特征项。
概括起来,PEG的技术大体包括两方面:其一,PEG使用的统计方法是多元线性回归,以此来确定各变量的beta值,这样,基于训练集作文而构建的统计模型便可以用来为新的作文进行自动评分。这一技术合理而容易理解,后期出现的作文自动评分系统大多采用这一技术。其二,自然语言处理技术是PEG提取变量的主要方法。基于这两种技术,PEG取得了很好的评分效果。
(二)IEA——一个重内容的评分系统
IEA是一种基于潜伏语义分析的作文自动评分系统,由美国科罗拉多大学的ThomasLandauer等学者开发。与PEG显著不同的是,IEA的设计者们在其网站上申明:“IEA是唯一能够测量语义和作文内容的程序”。据IEA的设计者们报告,潜伏语义分析主要分析文本的内容和学生作文中所传达的知识,而不是作文的风格或语言。
将潜伏语义分析用于学生作文自动评分时,待评分的作文与预先选定的范文(训练集)被视作为矢量,对矢量进行比较之后,可以得到每一篇待评分作文与范文在内容上的相似度得分。该得分被直接视为机器评分或经过转换后得到机器评分。
(三)E-rater——一个模块结构的混合评分系统
E-rater是由美国教育考试处于20世纪90年代开发,其目的是评估GMAT考试中的作文质量。据Bursteineta.l(2001)、Coheneta.l(2003)和Valentieta.l(2003)的描述,E-rater自1999年以来已经进入操作阶段,至2003年,共评定作文750,000篇。
E-rater的开发者们声称,他们的作文评分系统利用了多种技术,其中包括统计技术、矢量空间模型技术和自然语言处理技术(Valentieta.l2003)。凭借这些技术,E-rater不光能够像PEG那样评判作文的语言质量,还能够像IEA那样评判作文的内容质量。除此之外,E-rater还对作文的篇章结构进行分析。
国内主要英语作文自动评价工具软件
在国内,业已颁布的《国家中长期教育改革和发展规划纲要(2010-2020年)》明确指出,信息技术对教育发展具有革命性的影响,必须给于高度重视。到2020年,全国范围内应该力争基本建成覆盖城乡各级各类学校的教育信息化体系,以促进教育内容、教学手段和方法现代化。就受众群体庞大的英语教学领域而言,国内关于英语作文自动评价系统的研究起步晚,缺乏系统性的综述研究。
(一)句酷批改网
由北京词网科技有限公司研发,于2011年4月开始展开大规模使用。它是一个基于语料库和云计算技术的英语作文在线自动批改服务网站。批改网的核心算法是计算学生作文和标准语料库之间的距离,再通过一个映射将距离转化成作文分数和评语。核心技术点是将每一篇输入的作文分析成可测量的192个维度,分析过程充分利用了先进的自然语言技术和机器学习的方法,每篇作文先被自动切分成句子,然后对每个句子进行深度的语义分析,从中抽取词、搭配、词组等结构化单元。主要功能包括:分数即刻显现、图文报表式作文分析结果、错误自动批改、点评细致入微、阶段性进度报告、抄袭检测等。
批改网是完全自主研发的国产软件,从核心引擎到批改应用都是完全自主知识产权的。它体现写作教学的多样性,鼓励学生的自主性学习、探索性学习、团队式学习、研究型学习等教与学新模式。
(二)冰果英语智能作文评阅系统
杭州增慧网络科技有限公司联合浙江大学、外语教学与研究出版社,以及中外人工智能专家队伍,依据语言教学理论、计算机网络教育技术、大规模数据挖掘技术,研发出这一个性化智能化的作文评阅软件。它可以即时给出作文评分,并从词汇、语法、文风、内容等方面给出反馈。但是,该系统目前无法做到用户同一篇作文多次反复修改,多次提交给系统,并得到系统的即时评阅和反馈。
(三)TRP教学资源平台
经过对一线教师的调研及需求分析,高等教育出版社与清华大学杨永林教授的科研团队合作研究,2010年10月正式对外发布了《体验英语写作教学资源平台》。2012年3月,该平台的升级版产品《TRP教学资源平台》面世。它根据写作教学需求,将数字化、网络化与区域化教学平台进行了有机的整合,并涵盖了资源建设、平台构建、写作学习、句型练习、语法测验、作文评分、写作研究、评语生成、作为考试等功能。为高校英语教学的进一步改革提供了“专本硕博,四级贯通”的可操作平台。特别一提的是,学术写作是该写作软件系统的特色版块,从这一点来讲,TRP教学资源平台似乎对于研究型高校的学习者来说具有更加特殊的意义。
国内中文作文自动评价工具软件概述
根据作文自动评分的原理,可以得到计算机评分的工作机制:首先提取出反映写作水平的特征,然后利用这些特征和数学模型计算出分数。并且确保这个分数最大程度的接近人工评分的结果。
人工与智能,效率与质量的较量
自动评分的应用效果及发展前景
自动评分目前仍有几项瓶颈和技术局限(一)评分标准未统一
自动评分系统还没有科学深入地研究人类分级机之间的评估差异,且个体间的差异性很可能非常大。很明显的是,从最初主要依赖计算字数、检测句子和单词复杂性和结构的简单工具,自动分级技术蒸蒸日上,有了很大的进展。
(二)基于规则的弊端
由于计算机无法读取,解决过度拟合最可行的方法是为计算机明确指定一套具体的规则,来检测文本是否讲得通。这一方法在其他软件上都行得通。目前,自动评级供应商大量投入来制定这样的规则,因为要制定出一条检测诸如论文这样创造性文本质量的规则十分困难。计算机倾向于用常见的方式解决问题:计算。
在自动评分系统中,例如,评分预测器可以是句子长度、单词数量、动词数量、复杂单词的数量等。这些规则是否能做出合理的评估?至少派勒尔曼不这样认为。他说,预测规则通常非常死板局限,限制了评估的质量。例如,他发现:
—使用“贪婪”这种复杂词汇会比使用“贪心”这种简单词汇评级高。
他发现规则很难应用或者根本没有应用的另一些例子是这个软件不能分辨真实性。
(三)信度和效度有待提高
作文自动评分的目的是利用多学科技术有效地模拟人工评分,以达到快速评定作文质量的目的。因此,在对计算机评分模型进行训练时,训练集作文人工评分的信度至关重要。只有有效地模拟具有较高信度的人工评分,计算机评分才有意义。根据Barrett(2001)和Stemler(2004)的研究,评分员间的信度达到r=0.70左右才是可以接受的,但现有作文评分系统在对训练集作文进行人工评分时常常达不到这样的信度要求,可能使得计算机评分模型很难模拟到人工评分的精髓。
评价对学生作文的评分是否合理,所需考察的另一个方面是评分的效度。对作文进行评分一般至少需要从作文的语言质量、内容质量和篇章结构质量三个主要方面对作文的整体质量加以衡量。自动评分系统在评分过程中并未能够很好地兼顾这三个主要方面,因而评分的结构效度值得质疑。PEG虽然对作文的语言质量有着较强的分析能力,但忽略了作文的内容质量和篇章结构质量,因而其评分结果存在较大的效度问题。与此相类似,IEA突出了评分过程中作文内容的重要性,但忽略了作文的语言质量和篇章结构质量,显然也存在较大的效度问题。与这两种系统相比,E-rater虽然以其模块结构兼顾了作文质量的三个主要方面,但每个模块的分析能力尚可进一步提高。
9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。
加利福尼亚州圣克拉拉县2024年8月30日/美通社/--数字化转型技术解决方案公司Trianz今天宣布,该公司与AmazonWebServices(AWS)签订了...
伦敦2024年8月29日/美通社/--英国汽车技术公司SODA.Auto推出其旗舰产品SODAV,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。SODAV工具的开发耗时1.5...
北京2024年8月28日/美通社/--越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...
8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。
8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。
8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。
要点:有效应对环境变化,经营业绩稳中有升落实提质增效举措,毛利润率延续升势战略布局成效显著,战新业务引领增长以科技创新为引领,提升企业核心竞争力坚持高质量发展策略,塑强核心竞争优势...
北京2024年8月27日/美通社/--8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。活动现场NVI技术创新联...
北京2024年8月27日/美通社/--在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...
山海路引岚悦新程三亚2024年8月27日/美通社/--近日,海南地区六家凯悦系酒店与中国高端新能源车企岚图汽车(VOYAH)正式达成战略合作协议。这一合作标志着两大品牌在高端出行体验和环保理念上的深度融合,将...
上海2024年8月28日/美通社/--8月26日至8月28日,AHNLAN安岚与股神巴菲特的孙女妮可巴菲特共同开启了一场自然和艺术的疗愈之旅。妮可·巴菲特在疗愈之旅活动现场合影...
8月29日消息,近日,华为董事、质量流程IT总裁陶景文在中国国际大数据产业博览会开幕式上表示,中国科技企业不应怕美国对其封锁。
上海2024年8月26日/美通社/--近日,全球领先的消费者研究与零售监测公司尼尔森IQ(NielsenIQ)迎来进入中国市场四十周年的重要里程碑,正式翻开在华发展新篇章。自改革开放以来,中国市场不断展现出前所未有...
上海2024年8月26日/美通社/--今日,高端全合成润滑油品牌美孚1号携手品牌体验官周冠宇,开启全新旅程,助力广大车主通过驾驶去探索更广阔的世界。在全新发布的品牌视频中,周冠宇及不同背景的消费者表达了对驾驶的热爱...
此次发布标志着Cision首次为亚太市场量身定制全方位的媒体监测服务。芝加哥2024年8月27日/美通社/--消费者和媒体情报、互动及传播解决方案的全球领导者Cis...
上海2024年8月27日/美通社/--近来,具有强大学习、理解和多模态处理能力的大模型迅猛发展,正在给人类的生产、生活带来革命性的变化。在这一变革浪潮中,物联网成为了大模型技术发挥作用的重要阵地。作为全球领先的...
北京2024年8月27日/美通社/--高途教育科技公司(纽约证券交易所股票代码:GOTU)("高途"或"公司"),一家技术驱动的在线直播大班培训机构,今日发布截至2024年6月30日第二季度未经审计财务报告。2...
8月26日消息,华为公司最近正式启动了“华为AI百校计划”,向国内高校提供基于昇腾云服务的AI计算资源。