机器翻译和学习二语的学生翻译在汉译英中面对多词单位时的母语负迁移的对比分析
朱赫
悉尼大学,悉尼,澳大利亚
收稿日期:2022年3月16日;录用日期:2022年3月25日;发布日期:2022年4月7日
摘要
关键词
负迁移,翻译,MT,MWU,二语习得学生
AContrastiveAnalysisofL1’sNegativeTransferintheChinese-EnglishTranslationbetweenMachineTranslationandL2StudentsinTermsofMWU
HeZhu
TheUniversityofSydney,Sydney,Australia
Received:Mar.16th,2022;accepted:Mar.25th,2022;published:Apr.7th,2022
ABSTRACT
Keywords:NegativeTransfer,Translation,MT,MWU,L2Students
ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY4.0).
1.引言
因此,与专业译员或母语者的表达方式相比,无论是机器翻译的输出还是二语习得学生的写作或翻译,就目标语言本身的质量而言,都不是完美的。就错误本身而言,MT和学生在某种程度上应该彼此有些共性。这些错误可能是语法错误、错误的结构或原始含义的丧失。事实上,有一些语言检查应用程序,如Grammarly,可以纠正上述的一些错误。然而,这类应用程序无法准确定位或纠正由自动翻译工具或非母语人士产出的英语文本中的大多数问题。在意识到这一差距后,西交利物浦大学语言技术研究中心正试图设计一个新的应用程序,它可以实现自动修改机器翻译的译文,以及提高语言纠正工具对汉英双语者所写英语文本的准确性。
因此,作为西交利物浦项目的试点研究,本研究打算采用错误分析的方法,探讨机器翻译和L2学生在汉英翻译中关于L1(或者说,源语言)的负迁移是否存在显著差异?如果存在,那么负迁移的分布特征是什么?
以下是本研究预计要解决的研究问题。
2)词性迁移率与嵌入词的频率之间是否有关联?
3)就预选词而言,机器翻译中与MWU有关的负面词汇迁移率是否普遍高于学生的译文?
4)与MWU有关的负面词汇迁移率与嵌入词的频率之间是否有关联?
2.文献综述
2.1.语言迁移在第二语言学习(SLA)中的地位
正如Long和Richard在Odlin[3]撰写的《语言迁移》序言中指出的那样,语言迁移是应用语言学、SLA和语言教学领域的一个关键问题。许多语言学家都认为,语言迁移可以成为SLA研究中的一个核心问题,尽管如此,并不是一切都很顺利。
2.1.1.语言迁移的定义
语言迁移的概念起源于心理学。事实上,迁移是学习心理学中的一个重要概念,它被定义为一种学习活动,学习者以前获得的有关学习技能的知识将对他们以后的学习或训练活动的产出产生影响。有人认为,迁移既可以是积极的和消极的。
2.1.2.语言迁移的表现形式
在这一研究领域,可以发现迁移的多种表现形式;但是,有四种表现形式经常被学者们讨论:负面迁移、正向转移、回避和过度使用。
1)错误(负面迁移)
错误,也被称为“负迁移”,发生在旧的学习习惯妨碍了学习新习惯的时候。在SLA领域,L1的语法习惯会对L2的语法习惯的习得过程产生干扰,这应该属于主动抑制。主动抑制的意思是,之前学习或记忆的东西会影响到后来的学习。具体来说,L1和L2之间的差异导致学习困难,从而产生错误。
2)促进作用(正向转移)
当L1和L2之间有相似之处时,就会发生积极的转移,这可以促进快速学习。然而,促进并不意味着完全避免错误,而只是相对减少错误的数量。
3)回避
如果母语和目标语言之间存在着明显的差异,学习者就会容易避免使用困难的语言结构。
例如,一些中国学生会在用英语写作时避免采用复杂的语法结构。根据Kellerman[6]的说法,回避的原因有三个:a)学习者知道或预料到有问题,并且至少对目标形式有一些模糊的概念;b)学习者知道目标形式是什么,但发现在特定情况下很难使用;c)学习者知道要说什么和怎么说,但不愿意真的说出来,因为这将导致他们违反自己的行为规范。
4)过度使用
在SLA中过度使用某些类型的语法形式是对语言内部过程过度概括的结果。例如,常规的过去式变形可能会扩展到不规则动词;回避也可能是另一个原因。日本的二语学习者由于避免使用定语从句等,可能会过度使用简单的句子。
2.2.与对比分析理论有关的语言迁移
对比分析(CA)是语言迁移的基本理论。对比分析模型是由Fries[7]首次提出的。他认为学习者的母语在他们学习目标语言的过程中起着决定性的作用,他们的母语的形式和结构会下意识地转移到二语习得中,特别是对于那些新的二语学习者。Fries[7]出于对教学法的考虑,主张对学习者的目标语言和母语进行详细描述,具体如下:“最有效的材料是那些基于对目标语言的科学描述,并与学习者的母语的平行描述进行仔细比较的材料。”
然而,人们普遍认为,1957年Lado撰写的《跨越文化的语言学》一书的出版标志着CA理论的建立[8]。Lado受到Fries关于有效教材的假设的启发,并在双语研究和测试研究中观察到,他根据这种假设制定了对比分析(CA)理论:“……接触到外国语言的学生会发现其中的一些特点很容易,而另一些则非常困难。那些与他的母语相似的元素对他来说是简单的,而那些不同的元素则是困难的”[8]。
2.3.误差分析
错误分析(EA)一直被用于语言学领域,尽管它在20世纪70年代后失去了一些人气[9]。正如Corder[5]所建议的,语言学家可以通过这些错误看到语言是如何习得的。此外,Dodigovic[10]所持有的观点,即学习者是一个有缺陷的二语,也通过对二语学习者口语输出中错误的检查得到支持。James[11]认为EA可以客观地描述学习者的interlanguage(IL)。IL是指第二语言学习者或正在学习目标语言的外语学习者所使用的语言类型。通过处理第二语言学习者的错误,可以达到三个目的:1)确定学习者在语言学习中使用的策略;2)确定学习者错误的原因;3)获得关于语言学习中常见困难的信息。正如Corder[12]所建议的,进行错误分析通常有五个步骤:
a)收集学习者语言的样本
b)识别错误
c)描述错误
d)解释错误
e)对错误的评估
在识别错误之后,可以采用语言策略或表面策略来描述这些错误[9]。语言学策略是由Dulay[13]和Krashen[14]提出的,将错误分为形态学、句法和词汇。在这个项目中,分析的范围是母语的词汇迁移。表面策略涉及四种结构:省略、增加、错误的形式和错误的顺序。而第五种是混合策略,由James[11]添加补充。
错误分析的最后一步是错误评估,主要是指这些错误对被调查者造成的影响。正如Ellis[9]所言,有关错误评价的目的是为了改善语言教学法。“错误的严重性”这一术语表明了一个错误的严重程度。Khalil[15]提供了评价错误严重性的三个一般标准:可理解性(有错误的句子能被理解的程度),可接受性(错误的严重程度),以及刺激性(由于错误的数量而引起的人们的情绪反应)。
2.4.机器翻译(MT)的发展
互联网为机器翻译(MT)提供了完美的平台,使其能够触及到普罗大众[16]。免费的在线MT始于1998年Altavista搜索引擎的Babelfish[17]。它远非完美,但使用起来很简单,而且往往比没有翻译更好。然而,经过几年的发展,MT可能还没有准备好用于传播用途,也不会产生可出版质量的输出,但会提供有用的文本要点,甚至为用户提供足够的信息来执行手头的任务[16]。
与此同时,一种新型的自动化翻译进入了实践生产阶段:统计机器翻译(SMT)。语言翻译毕竟可以被认为是一种破译活动,而且,如果有足够的数据,源语言中的n-gram与目标语言中的n-gram相联系的概率,即使不能超越语言规则,那么至少也能发挥同样的作用。谷歌翻译在2007年将其引擎转向SMT,标志着这种趋势。MT已经证明了自己在社会上的作用,人们的兴趣和投入的资金也在继续增长[16]。本研究中的有道翻译和必应翻译都处于这种情况。
2.5.多词单元
Sinclair[18]指出,单词容易系统地聚类。当集群的模式化相对有规律时,这些词就会建立起具有一定意义的词串。因此,这样的词串被称为多词单元(MWU)[19]。语言学家(例如Alexander[20];Moon[21])将MWU分为四种语言学分类:“短语动词”、“固定短语”、“习语”和“谚语”。从分析语言生产的角度来看,MWU被认为是“公式化表达”、“词汇短语”或“词汇块”。
MWU中的语言迁移
通过分析几个英语学习者语料库中的论证性写作。结果显示,二语学习者很容易过度使用那些与母语相似的MWU。这项研究只是量化了二语学习者使用MWU的频率,且只发现两种语言的相似性与学习者使用某些MWU的频率之间有一定的联系,缺乏对二语MWU不正确使用的例子的展示和提供其根本原因。
此外,基于来自中国一所中外大学的100名不同学生的100篇写作的学习者语料库数据,Ma[34]的研究发现,在学习者语料库中发现的迁移错误数量从多到少是由中文多义词、MWU和搭配引起的。此外,水平较低的学习者比水平较高的学习者更容易出现词性转换错误。然而,本研究并没有获得二语学习者在写作时打算写的确切含义,所以当有多个可能存在时,本研究不能确定词汇错误所对应的正确中文含义。换句话说,如果不确定与英语措辞相对应的中文含义,本研究中关于词汇迁移的解释似乎就是主观的。
与使用学生的写作作为研究数据相比,学生的翻译文本作为数据可以在很大程度上减少研究者的主观性。Luo[35]首次尝试研究翻译实践中的负迁移现象。在她的研究中,研究工具是交付给54名英语专业学生的翻译试卷。结果显示,受试者在潜在含义上犯的迁移错误最多。搭配使用中的迁移排在第二位,第三位是语义领域的迁移错误。然而,一个局限性是,本研究的样本只限于英语专业的学生。本研究的样本仅限于英语专业的学生。此外,在这项研究的基础上,Dong[36]进行了对英语专业和非英语专业学生在汉英翻译中第一语言的负迁移进行了对比分析研究,旨在探讨英语专业和非英语专业学生在汉英翻译中L1的负迁移是否存在显著差异。研究结果表明,英语专业和非英语专业的学生在翻译错误方面确实存在明显差异,这在一定程度上可以归因于他们所采取的不同的翻译策略。这些发现对人与翻译机之间的翻译活动中源语言负迁移的对比分析有一定的启发。
总的来说,现有的文献还不能全面描述机器翻译(MT)输出中的MWU使用或错误,也没有澄清MT输出和学习第二语言的学生的输出在这方面是否有任何相似之处。然而,Peromingo[33]和Paquot[37]的研究确定了一般翻译过程和二语写作在MWU生成方面的惊人相似性,Dong[36]的研究提供了研究语言迁移的对比性方法,表明了在人类和翻译机器之间的翻译活动中对源语言的负面迁移进行对比性分析的可能性。因此,若想要深入研究,便要探索MT的英文输出中中文MWU的词性迁移证据。
3.研究方法
3.1.使用的中文和英文语料库
3.2.步骤
根据中文语料库中的标记结果,研究人员又查阅了分析器建立的英文语料库,找出有道翻译产出的相应表达,对其进行标记,并将其输入Excel电子表格,供后期评估和比较。此外,为了使机器翻译的输出结果更具代表性和普遍性,我们采用了第二台翻译工具——Bing网站翻译,它是由微软开发的,采用了与有道类似的翻译技术。研究者用它对拥有这些中文MWU的源句子进行了重新翻译,翻译结果也被输入Excel电子表格。
在项目的第三阶段,研究者准备了翻译测试,并邀请10名学生参加测试。这些测试要求学生用英语来表达所选的中文MWU的含义。受访者被告知,他们不需要逐字翻译,也不允许使用任何字典或翻译工具;他们需要做的只是尽力通过英语来保持相应的意思。受访者是西交利物浦大学(XJTLU)的10名四年级学生,这是一所由利物浦大学和西安交通大学在中国联合开办的中外大学。他们都是来自英语文化与传播系(ECC)的中文母语者。结果也被录入Excel电子表格。
在第四阶段,该研究旨在评估上述收集到的所有结果。考虑到研究者无法确认输出的某些英语MWUs表达的适当性,所以使用了厦门大学的汉英平行语料库帮助寻找参考英语表达。研究结果被录入Excel电子表格。之后,我们邀请了一位来自西交利物浦大学ECC系的英语母语者教师对Excel表格中的每一个结果进行评估和评分。“1”代表正确,“0”代表不正确。最后,研究人员分别计算了学生结果和翻译机结果的正确率。正如Biber、Conrad和Reppen[38]所建议的,为了使学生和翻译机输出的MWU表达的正确率具有可比性,有必要将原始率“规范”到一定的单词基础上。本研究采用了以下公式:
正确率=(正确结果的数量/总结果的数量)*100%。
4.研究结果
本部分包含几个图表,客观地介绍了本研究中数据分析的统计结果和发现。在中文语料库中,共有107个MWU被研究者标记。其中,根据方法论部分提到的10个预选词,研究者共分离出40个涵盖这些词的MWU,并将这些MWU分为10组。每组中,MWU的数量不超过5个,也不低于3个。
Table1.Therateoflexicaltransferofthe10selectedwords
Table2.TherankofwordfrequencyinthecorpusofTextsofRecentChinese
那么,第二个研究问题“词汇迁移率和嵌入词的频率之间是否有关联?”主要可以通过绘制一个将词频和词汇迁移率联系起来的表格来回答:
Figure1.Thedistributionfeatureoftherateoflexicaltransferregardingtowordfrequency
Table3.Therateofnegativelexicaltransferofthe10selectedwords
同样,参照汉语语料库中的词频排序,第四个研究问题“负面词汇迁移率与嵌入词的词频之间是否存在关联?”可以通过绘制词频与负面词汇迁移率的关联图来回答。
Figure2.Thedistributionfeatureoftherateofnegativelexicaltransferregardingtowordfrequency
5.讨论
5.1.由MT产出的词汇迁移
根据研究结果,在10个组别中,第(3)、(4)、(5)、(6)、(7)、(9)和(10)组的MT迁移率要高于学生。这些中文词语分别是“加强、联系、占据、带来、恢复、促进和推动”。本节将以第4组和第9组为典型例子进行研究。
对于第4组,MT和学生之间的主要差距集中在MWU“联系在一起”的表达上。这个MWU的原文是“改革已成为中墨两国的共同追求,也将两国更紧密地联系在一起”(“ThereformhasbeenthecommonpursuitofChinaandMexico,whichalsoformsabondbetweenthetwonations”)。有道的译文将其直译为“联系在一起”,其中“link”对应于“联系”,“together”对应于“在一起”。然而,有两个学生把它翻译成“bringtogether”。根据《剑桥词典在线》,短语动词“bringtogether”的意思是“使人们彼此友好”,这符合源文本的语境,尽管它在字典中的似乎与“联系在一起”无关。事实上,这种差距的形成发生在翻译活动的第二和第三步。根据Vinay和Darbelnet[39]的说法,第二步是“检查源文本,评估各单元的描述性、情感性和知识性内容”,第三步是“重构信息的元语言学背景”。在这个案例中,当这两个学生在检查源句时,他们应该发现文本所谈论的是两个国家的关系。因此,他们对信息进行了重构,以接近核心含义,然后利用短语动词“bringtogether”来表达这个含义。从这一点上看,人类的优势在于人的大脑比机器更善于理解和重构事物。
对于第9组,MT的词汇迁移率达到100%,而学生的迁移率只有一半。MT和学生之间的主要差异集中在MWU促进就业(“promoteemployment”)的表达上。有道和必应都采用直译“促进就业”,而两个学生则用“创造就业机会”来转述中文意思。事实上,“创造就业机会”是“促进就业”的具体体现。学生们在这里改变了源语言的语义和观点,使用了一种叫做“modulation”的翻译策略[39]。具体来说,他们把抽象的事物翻译成具体的事物,这就避免了词汇的迁移。同样的策略也被学生们用在第10组。在那里,通过modulation的策略,推动改善关系(promotetheimprovementofrelations)被翻译成“采取措施改善关系‘和’在关系上做出努力”。同时,其他三名学生在意识到这里的核心动词是“促进”之后,省略了“促进”一词,将其翻译为“改善关系”,而不是“推动”。
5.2.由学生产出的词汇迁移
根据研究结果,在10个组别中,(1)、(2)和(8)组的学生迁移率比MT高,分别为:达成、扩大和表示。本节将以(1)和(8)组为例进行讨论。
就第(1)组而言,MT和学生之间的主要差距集中在MWU“达成一致”和“达成交易”的表达上。对于“达成一致”,三名学生将其直译为“reachanagreement”;相反,两位MT将其翻译为“agreeon”。根据Vinay和Darbelnet[39]的观点,这种差距是在翻译过程的第一步形成的:即“确定翻译单位”。在他们的理论中,“翻译单位”应该是“词汇学单位”和“观点单位”的组合,“观点单位”被定义为“话语中最小的片段,其联系方式使它们不应该被单独翻译”。在这种情况下,学生将“达成”和“一致”分别作为两个翻译单位,而MT则将达成一致作为一个完整的翻译单位。
另一方面,它表明在机器翻译的内部,“达成交易”被视为一个MWU,而学生仍将“达成”和“交易”视为两个独立的单位。对于第8组,MT和学生之间的主要差距集中在MWU“表示赞同”和“表示反对”的表达上。对于“表示赞同”,有四个学生避免了直接使用英语单词“show”。其中,一名学生使用了另一个词“present”,另外三名学生采用了自由翻译的策略,省略了与“表示”相对应的词,只使用“agree”一词来表达意思,这似乎与上面讨论的MT处理“达成一致”的策略相似。事实上,根据Lv[40]的分类,“表示”这个词属于“dummyverb”,也就是说,其词语搭配的核心意义只是表达的后半部分。换句话说,就“表示赞同”和“表示反对”而言,后半部分“赞同”和“反对”可以单独发挥动词的作用而不失去原有意义。因此,在翻译这些MWU时,省略“表示”一词是一个不错的策略。从这一点来看,大多数学生都能掌握这些MWU的基本语义。然而,机器翻译的表现甚至比学生更好:它们也采用了这样的调控策略,尽管仍有三名学生发生了词汇迁移,但是没有进行负面的词汇迁移。
5.3.学生产出的负迁移
根据研究结果,所有10个小组的学生产出的负面迁移率都高于MT。本部分将(6)、(7)和(9)组作为典型例子。
就第6组而言,五个学生中有四个将“带来严峻挑战”字面翻译为“bringchallenges”,而根据母语为英文的人士的评价,在英语语境中没有这样的表达。换句话说,这是一个消极的词汇迁移。一个合适的表达是“poseseriouschallenges”。作为一个单独的词,“pose”在中文中的意思是造成。因此,“poseseriouschallenges”的表达方式似乎对应于“造成严峻挑战”,这在汉语中是不可接受的。这可能是没有学生意识到“pose”这个词可以在这个表达中使用的原因。另一个可能的解释是,当学生习得“pose”这个词时,他们只是学习了这个词作为一个不及物动词的意义(“tomoveintoandstayinaparticularposition,inordertobephotographedorpainted”),而忽略了它作为一个及物动词的意义,它可以与“challenge”一词搭配。同时,MT的翻译是“pose”,这表明机器翻译把MWU“带来的严峻挑战”作为了一个整体。
同样,在第(7)组中,“recovermarket’sconfidence”是“恢复市场信心”的负向迁移。“Recover”应该被修改为“regain”,而这两个词都有“togetbacksomethingthatthesubjectnolongerhave”的意思,在英汉词典中都有恢复的解释。这两个词的区别在于,“recover”指的是“stopsufferingfromanillnessorinjury”,而“regain”则与“getsomethingabstractbacksuchasanability,qualityorposition”有关。在这里,“confidence”属于一种抽象的东西,所以“regain”在这个语境中应该是合适的。这个错误的出现,说明学生在学习这个词时,没有学会在什么样的情况下可以正确使用“recover”。此外,可能在他们在思考时找不到其他的词来表达“恢复”的意思。毕竟,在《高考大纲》的3500个必考词中,“recover”是唯一一个有“恢复”的中文解释的词。
Table4.Dictionaryexplanationsofthewords“strengthen”,“enhance”and“reinforce”
5.4.总结:MT和学生在翻译过程中各自的优势和劣势
Figure3.TheadvantagesanddisadvantageofMTintranslatingprocess
Figure4.Theadvantageanddisadvantagesofstudentsintranslatingprocess
对于学生来说,唯一的优势体现在意象翻译的活动上,具体来说就是调控翻译。看起来学生翻译的优势数量比机器翻译少,然而,正如Vinay和Darbelnet[39]所说,“调制是一个好译者的试金石”。调制策略的运用表明了译者真正理解了源文本的语义。在“联系在一起”的例子中,在通过参考上下文理解了源表达的语义后,学生使用了另一个短语动词“bringtogether”,而不是直译的“linktogether”,这就避免了词汇迁移。另一个例子是“促进就业”,学生能够把它翻译成“创造更多的就业机会”,把表达方式从抽象的变为具体的,这就避免了词性迁移,尽管MT的直译“促进就业”也是正确的。
到目前为止的讨论可以解释为什么MT的词汇迁移率和负面迁移转移率都普遍低于学生的水平。具体来说,MT在MWU记忆的大小、记忆的准确性和选词方面比学生表现得好;而学生只是在意象翻译方面做得不错。在降低词性迁移率和错误率方面,MT比学生有更多的办法,所以如表所示,MT的词性迁移率比学生低。
Figure5.Theinfluencedproceduresduetothedecreasingofword’sfrequency