国内可外用免费语料库下载资源汇总,语言翻译必备:国内外23个语料库推荐xxxxxxxx1x2xxxxxxx

TheBabelEnglish-ChineseParallelCorpus,whichwascreatedonourresearchprojectContrastingEnglishandChinese(ESRCAwardReferenceRES-000-23-0553),consistsof327EnglisharticlesandtheirtranslationsinMandarinChinese.Ofthese115texts(121,493Englishtokensplus135,493Chinesetokens)werecollectedfromtheWorldofEnglishbetweenOctober2000andFebruary2001whiletheremaining212texts(132,140Englishtokensplus151,969Chinesetokens)werecollectedfromTimefromSeptember2000toJanuary2001.Thecorpuscontainsatotalof544,095words(253,633Englishwordsand287,462Chinesetokens).Hereisalistofthetitlesofthearticlesincludedinthecorpus.

Thecorpusistaggedforpartofspeechandalignedatthesentencelevel.TheEnglishtextsweretaggedusingtheCLAWSC7tagsetwhileChinesetextsweretaggedusingthePekingUniversitytagset.Sentencealignmentwasdoneautomaticallyandcorrectedbyhand.Thecorpusisalsomarkedforparagraphandsentence.Butdifferentmarkupsystemswereadoptedforthetwosubcorpora.ForthecomponentoftheWorldofEnglish,sentencesweremarkedconsecutivelythroughoutwhereasforTime,sentencesweremarkedwithineachparagraph.

语料库与翻译

管新潮陶友兰著

(复旦大学出版社,2017)

目录

第1章绪论

1.1语料库的起源与发展

1.1.1语料库的定义

1.1.2代表性语料库及其特征

1.2语料库的类型

1.2.1单语与双语(多语)类型

1.2.2平行与可比类型

1.2.3通用与专用类型

1.2.4单向与双向(多向)类型

1.2.5小结

1.3语料库语言学与翻译学

1.3.1语料库语言学

1.3.2语料库翻译学

1.4本书概要

本章亮点:

l对具有代表性的18种语料库进行了概述

l对各种语料库类型的定义与作用进行了说明

l对语料库语言学和语料库翻译学进行了实用性介绍

第2章语料库技术和翻译技术

2.1引言

2.2语料库技术

2.2.1语料格式转换工具

2.2.2语料降噪工具

2.2.3语料对齐工具

2.2.4语料库检索和分析工具

2.2.5问题与展望

2.3翻译技术

2.3.1文档管理类工具

2.3.2源文准备类工具

2.3.3译文处理类工具

2.3.4翻译管理类工具

2.3.5语料管理类工具

2.3.6本地化工具

2.3.7问题与展望

l实例介绍如何针对不同的PDF文档利用不同的转换工具,达到最佳效果

l举例说明如何使用最强降噪工具WORD软件

l系统介绍语料对齐工具、原则、效果与检索和应用

l详细描述系统的翻译技术需要用到的六大类工具:

文档管理类工具——内容管理系统、撰写系统、桌面排版系统

源文准备类工具——文字处理软件、语音识别软件

译文处理类工具——计算机辅助翻译、机器翻译、校订工具

翻译管理类工具——翻译管理系统、质量保证工具、项目管理软件

语料管理类工具——翻译记忆工具、术语管理工具

第3章语料库创建流程

3.1引言

3.2语料库的设计

3.3语料采集和降噪

3.3.1语料采集

3.3.2语料降噪

3.4语料对齐及其保存格式

3.4.1语料对齐

3.4.2语料对齐保存格式

3.5语料库应用

3.5.1案例1:计算机辅助翻译项目应用

3.5.2案例2:以组合语料库训练翻译能力

3.5.3案例3:某大型客车制造企业的语料质量提升

3.5.4案例4:对法律法规术语外译的建议

3.5.5案例5:语料库证据在美国的法庭应用

3.5.6案例6:两岸三地英汉科普历时平行语料库

3.5.7案例7:德汉《资本论》双语平行语料库

l讲述语料选择原则与操作标准、库容规模、文件名命名等细节

l提出如何给语料降噪,如何进行语料对齐操作以及保存格式、格式互换等,有些是作者个人实践心得,具体说明创建过程中遇到的不同问题以及解决方案

l列举了具有代表性的七个语料库案例,说明如何在翻译实践中利用语料库提升翻译效果和质量,如以组合语料库训练翻译能力、语料库证据的法庭应用等

第4章语料库质量

4.1引言

4.2语料库质量的多维性

4.2.1语料库的设计质量

4.2.2语料的翻译质量

4.2.3语料的采集与降噪质量

4.2.4平行语料库的对齐质量

4.2.5应用于具体项目的语料组合质量

4.3源自于翻译实践的语料库质量

4.3.2质量保证理念与工具

4.3.3句对库中的高质量句对

4.4应用于译学研究的语料库质量

l首次对语料库质量进行了多维性描述,包括语料库的设计质量、语料的翻译质量、语料的采集与降噪质量、平行语料库的对齐质量、语料组合质量

l分析了源自于翻译实践的语料库质量存在的一些问题,并提出相应对策

l根据译文错误类型与翻译质量关系模型,尝试提出翻译质量评估建模

l提出专门的质量保证理念来解决翻译质量问题

第5章语料库与翻译实践

5.1引言

5.1.1计算机辅助翻译的特点

5.1.2计算机辅助翻译的分类

5.2语料库与记忆库

5.2.1语料库与记忆库的区别

5.2.2记忆库的创建与维护

5.2.3记忆库的匹配

5.2.4记忆库的更新与组合

5.2.5记忆库的其他作用

5.3翻译项目中语料库的使用

5.3.1双语平行语料库的翻译应用

5.3.2可比语料库的翻译应用

5.3.3单语语料库的翻译应用

5.4双语平行语料库数据挖掘

5.4.1专业通用词概念

5.4.2法律双语平行语料库的数据挖掘

5.4.3医学双语平行语料库的数据挖掘

5.5译入非母语时的语料库作用

5.5.1汉译外现状

5.5.2语料库的应用

5.6大规模句对库与机器翻译

5.6.1句对库的定义和质量

5.6.2计算机辅助翻译与机器翻译的结合

l区别语料库和记忆库之间的关系,论述记忆库的创建、维护、匹配、更新、组合等概念与功能

l实例演示如何在翻译项目中使用双语平行语料库、可比语料库或单语语料库

l论述一种最大提升翻译实践成效的创新方法:从双语平行语料库(如医学、法律)中挖掘出特定领域专属的专业通用词,实践证明效果显著

第6章语料库与翻译教学

6.1引言

6.2基于语料库的翻译教学实践

6.2.1使用语料库自主学习

6.2.2创建学习者语料库

6.2.3学生自建英汉平行语料库

6.3语料库与翻译教材编写

6.3.2确定语料难易程度

6.3.3以真实语料编写翻译例句并提供多种译文范例

6.4翻译教学语料库平台设计与构想

l教会学生如何使用语料库进行自主学习

l教会学生如何创建学习者语料库、英汉平行语料库

l引导教师利用语料库编写翻译教材

l设计与构想一体化翻译教学语料库平台

附录

汉英双语对照术语表

本书特点

提笔写作本书的目的在于对自己20多年来从事翻译实践经验的总结,具体说是对翻译实践与翻译技术、语料库、翻译教学等相结合的实践经验的总结,期望能够通过经验总结进而在翻译实践理论上有所长进。文中所呈现的经总结归纳后的文字表述定能对翻译实践和MTI教学实践有所帮助。本人自认为本书已经具备了以下三大特点:

l对翻译实践的可应用性;

l对MTI教学的可适应性;

l对翻译理论的可拓展性。

第一,对翻译实践的可应用性。本书所呈现的知识均以本人多年来所做的大量翻译实践为依据,可以说有近80%的内容是完全依赖于经验的总结、归纳、提炼和升华。这是可应用性特点的一种面向翻译实践的体现。另一体现是将经过总结、归纳、提炼和升华后的文字表述交由业界专家审定,确认其对具体翻译实践具有指导意义后才予以定稿。本书对翻译实践的可应用性还体现在散落于书中不同章节的各种有关翻译或语料库技术应用的“小技巧”。

第二,对MTI教学的可适应性。MTI教学中的计算机辅助翻译是翻译技术的一部分或其中的一个环节,其并不能代表整个翻译技术。因而,翻译技术的MTI教学有其复杂性,即如何将不同的翻译技术知识揉合在一起并有效地传授给学生,以及如何教会学生以习得的翻译技术知识去解决实际应用问题。因为技术在不断更新和进步,而且更新和进步的速度在不断加快,现有的技术可能会在若干年后不见其踪影。由此可见,翻译技术或语料库技术教学的关键并不在于教会某项技术,而是如何使学生习得应用技术去解决问题的能力。

第三,对翻译理论的可拓展性。一种理论的产生在其初始阶段必然是进行实验,然后是总结归纳,最后才上升为理论层面。翻译技术理论的产生也不例外。翻译技术有多面内容可供学术研究,如人机互动翻译的边界研究、技术环境下的翻译策略、技术背景下的译者行为研究、企业翻译研究,等等。

作者简介

语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。下面推荐一些优质的语料库资源。

国内语料库资源

1.国家语委现代汉语语料库

现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

2.国家语委古代汉语语料库

网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。

3.北京大学“《人民日报》标注语料库”

4.北大语料库——北京大学中国语言学研究中心

北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。其中,北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。正在此基础上做汉英对照短语库,预计规模将达数十万条。(汉英双语语料库目前仅对北大校内用户开放)

5.北京语言大学高翻学院的“高翻记忆库”

6.清华大学汉语均衡语料库TH-ACorpus

7.中央研究院“现代汉语平衡语料库”

专门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。

8.中央研究院“近代汉语标记语料库”

9.中央研究院汉籍电子文献(瀚典全文检索系统)

包含整部25史整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。

10.红楼梦网络教学研究资料中心

元智大学中国文学网络系统研究室所开发的“网络展书读—中国文学网络系统”,为研究中心负责人罗凤珠老师主持,红楼梦是其中一个子系统,其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet最大中国文学研究数据库,提供用户最完整的中国文学研究数据。

11.《红楼梦》汉英平行语料库

12.搜文解字

包含“搜词寻字”、“文学之美”、“游戏解惑”、“古文字的世界”四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连结到出处,阅读原文。

13.中国传媒大学“传媒语言语料库在线分词标注系统”

14.中国传媒大学“媒体语言语料库(MLC)”

15.哈工大信息检索研究室对外共享语料库资源

该语料库为汉英双语语料库,10万对齐双语句对,同义词词林扩展版。77,343条词语,秉承《同义词词林》的编撰风格,同时采用五级编码体系,多文档自动文摘语料库。40个主题,同一主题下是同一事件的不同报道。汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,可以图形化查看。问答系统问题集,6264句,已标注问题类型,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到。单文档自动文摘语料库,211篇,分不同体裁,LTML化,文摘句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。

16.香港教育学院“LIVAC汉语共时语料库”

自1995年开始,以“共时”方式处理了超常的大量汉语语料,通过精密的技术,累积众多精确的统计数据,建立了LIVAC(LinguisticVariationinChineseSpeechCommunities)共时语料库。本语料库最大特点是采用“共时性”视窗模式,严谨地定时分别收集来自多地的定量同类语料,可供各种客观的比较研究,方便有关的信息科技发展与应用。此外,语料库又兼顾了“历时性”,方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。

17.中文语言资源联盟

ChineseLinguisticDataConsortium(简称ChineseLDC)是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。ChineseLDC将建设和收集中文信息处理所需要的各种语言资源,包括词典、语料库、数据、工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。(之所以排名这么后,是因为是国家出钱的项目,却没有什么免费资源。)

国外语料库资源

1.杨百翰大学语料库

杨百翰大学的MarkDavies教授开发的语料库统一检索平台,整合了美国当代英语语料库、美国历史英语语料库、美国时代杂志语料库、BNC、西班牙语料库、葡萄牙语料库等6个语料库的资源。该网站每月有60,000人的使用量,也许是目前最广泛使用的网络语料库。

2.联合国文件数据库

本文件系统包括了1993年以来联合国印发的所有正式文件。不过,联合国的早期文件也逐日添加到本系统。本文件系统也提供从1946年以来联合国大会、安全理事会、经济及社会理事会和托管理事会通过的所有决议。本系统不提供新闻稿、联合国出版物、联合国条约汇编或新闻部印发的新闻材料。由日本捐赠的3万多份数字化文件已被增添进正式文件系统。

3.兰开斯特汉语语料库(LCMC)

应学术界对免费对公众开放的平衡的现代汉语语料库的需求的情况下筹建的。LCMC语料库是由兰开斯特大学语言学系承担的并得到英国经社研究委员会资助(项目代号:RES-000-220135)的研究项目。LCMC语料库是与Freiburg-LOBCorpusofBritishEnglish(即FLOB)平行对应的汉语语料库,它有助于我们从事汉语的单语和英汉双语的对比研究。通过上述网址可以免费索取LCMC预料用于研究之用。

4.语言开放典藏社群(OLAC)

5.SKETCHENGINE多语言语料库

6.美国当代英语语料库(COCA)

CorpusofContemporaryAmericanEnglish(COCA),由美国BrighamYoungUniversity的MarkDavies教授开发的高达3.6亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。与其它语料库不同的是它是免费在线供大家使用,给全世界英语学习者带来了福音,是不可多得的一个英语学习宝库,也是观察美国英语使用和变化的一个绝佳窗口。

THE END
1.数据库课程设计案例:在线教育管理系统数据库课程设计案例:在线教育管理系统 一、项目背景 随着在线教育的兴起,传统的教学管理模式面临着新的挑战。在线教育管理系统旨在为学生、教师和管理员提供一个高效、便捷的学习与管理平台,以提升学习效果和管理效率。 二、系统功能需求 用户管理 用户注册与登录https://blog.csdn.net/l1337224493/article/details/142619051
2.基于SSM网络教学平台的设计与实现CD2813160535的技术博客社会的进步,教育行业发展迅速,人们对教育越来越重视,在当今网络普及的情况下,教学模式也开始逐渐网络化,各大高校开始网络教学模式。 本文研究的网络教学平台基于SSM框架,采用Java技术和MYSQL数据库设计开发。在系统的整个开发过程中,首先对系统进行了需求分析,设计出系统的主要功能模块,包括学生功能模块、教师功能模块以及https://blog.51cto.com/u_6668792/9025716
3.校园网络教学平台设计12篇(全文)网络教学平台的设计基于人性化原则,本着从教师和学生的角度出发,要求实用简单,且符合教师和学生提出的合理需求。 2.3.1系统结构设计 设计采用浏览器/服务器的三层体系结构,以IIS服务器为后台支持,采用Access数据库作为数据库平台。该网络教学平台的设计与开发,采用了目前主流的网页设计和开发工具,页面中的交互功能和动态https://www.99xueshu.com/w/ikey5sgnvxqe.html
4.网络课程教学平台设计(精选十篇)B/S模式能有效地保护数据平台和管理访问权限, 服务器数据库也很安全。这样就大大简化了客户端电脑载荷, 降低了客户端维护与升级的成本。[4] 三、网络课程教学平台功能结构设计 网络课程教学平台是网络课程展示、开展网上教学的平台, 是教师和学生进行教学互动的平台。在功能设计上主要是从教师和学生两个方面去考虑,https://www.360wenmi.com/f/cnkeyw80p401.html
5.网络课程的教学设计与技术实现摘要:随着计算机网络技术的发展,网络教学作为一种全新的授课形式为教育的发展注入了新的力量.如何更好地利用先进的教学设计思想开发出优秀的网上学习系统摆在教学设计人员面前.本文结合自己的开发实践和探索经验,以<数据库原理>课程为例对网络课程的基本功能、导航设计和界面设计进行了探讨. https://d.wanfangdata.com.cn/periodical/glxxxt200509030
6.最新互联网心得体会范文(通用25篇)要利用好“三通两平台”,因为“宽带网络校校通”实现提速增智,“优质资源班班通”和“网络学习空间人人通”实现提质增效,教育资源公共服务体系与教育管理公共服务体系有效融合;在教育资源共享、教学模式创新、教育治理优化等方面,形成一批可复制可推广的“互联网+教育”新模式。https://www.diyifanwen.com/fanwen/xindetihui/16715144.html
7.基于MVC模式的网络教学资源库平台的设计与实现本论文详细介绍了基于MVC模式的网络教学资源库平台的结构,各功能模块的设计与实现,并阐述了网络教学平台的关键技术以及使用数据库技术的方法,并对系统进行功能点测试,最后对网络教学资源库平台的完善和发展作了展望。 机构: 电子科技大学; 领域: 计算机软件及计算机应用; 关键词: MVC; J2EE; JSP;权限管理;网络教学https://wap.cnki.net/touch/web/Dissertation/Article/2010233654.nh.html
8.职业院校数字校园规范“管理服务”两章,加强了职业教育教学中信息化对产教融合办学、校企合作人才培养、实验实训与顶岗实习、职业培训等的支撑要求;将原“基础设施”改为“支撑条件”,并将其中的一节扩展为新的一章“网络安全”,以适应当前网络风险管控的需要;将信息化组织管理保障的相关内容从原“总体要求”中抽取出来,新设立一章“https://www.nbcc.edu.cn/2020/1029/c1114a34386/page.htm
9.工程项目管理实践应用分析思考论文五篇论文教师用户:可以在线浏览搜索本校教学工程建设项目,可在项目申报、检查、验收的限定时段内登录系统,对所负责项目的材料进行增删改等操作,查看自身项目的评审结果和评审意见。 各类用户的.业务操作流程如图2所示。 3平台设计与实现 3.1数据库设计 教学工程项目管理需包含大量的信息、数据多、类型繁杂。考虑到平台的安全性、https://www.unjs.com/lunwen/guanli/20190120040714_1861495.html
10.数字化网络教学平台的研究与实现AET毕业设计辅导主要包括毕业设计论文写作规范、科技论文写作方法和技巧、开题报告写作方法、外文资料和毕业答辩等内容,通过这些项目的辅导和训练,学生可以比较容易地完成毕业设计这一重要的教学任务,也为将来的就业提供了方便。《数据库基础》课程布置作业和辅导界面如图3、图4所示。http://www.chinaaet.com/article/213447/
11.信息管理系统中系统集成技术的应用论文(通用7篇)1.1设计思想 超市信息管理系统的设计思想主要分为以下几个方面:首先是为避免员工之间的冒名顶替,身份识别应用指纹识别技术,采集员工的指纹信息,当处理出货、入货或盘点业务时,要验证员工的指纹信息。其次是设置和管理不同管理级别员工的权限,建立不同数据表,建立专门员工数据库。最后是无线网络技术采用数据实时传输,以保https://bylw.yjbys.com/guanlixue/155033.html
12.高中信息技术课程标准信息技术科目的选修部分包括“选修1:算法与程序设计”“选修2:多媒体技术应用”“选修3:网络技术应用”“选修4:数据管理技术”和“选修5:人工智能初步”五个模块,每个模块2学分。选修部分强调在必修模块的基础上关注技术能力与人文素养的双重建构,是信息素养培养的继续,是支持个性发展的平台。模块内容设计既注重技术深https://www.fqkhzx.cn/index/article/view/id/94.html
13.信息化工作计划1、加强学校网站建设,增设教育科研论坛、班主任主任平台栏目,开展网上教学研究交流研讨;规划重建“少年象棋网”。 2、完善、整合教师个人和班级博客,使博客成为开展网络教研的信息平台、工作平台和资源平台。 3、继续加强网络教学管理平台资源库的共建共享工作。以学校备课组为单位为学校的教学资源库上传相关资源(教学课件https://www.yuwenmi.com/fanwen/jihua/3834420.html
14.中专电子商务教学计划(通用11篇)借助网络营销教学平台进行项目教学。 ASP基础:本课程包括的主要内容:讲述数据库基本概念,数据库结构,数据类型,建立数据库、查询、修改与统计数据。与ASP非常相关的VBScript代码格式、变量、过程和函数、数据类型、语句,ASP基础知识:ASP文件结构、基本语法、变量、脚本语言、ASP对象,ADO访问数据库,RecordSet访问数据库。以及https://www.oh100.com/kaoshi/jiaoxuejihua/644036.html
15.中央美术学院网络教学资源池目录中央美术学院网络教学资源池目录 往期经典:尹吉男的书房 中央美术学院网络教学资源池目录https://weibo.com/ttarticle/p/show?id=2309634605921186939101
16.电商工作总结(通用16篇)20xx年电子商务部工作仍分为3大块,一是软件和数据库管理方面、二网站平台管理方面、三是网络管理方面。 二、工作重点和计划 1、软件和数据库管理方面 (1)加强设备的检修和保养,对潜在有威胁的设备进行及早处理。 (2)改善现有的数据备份机制进行升级,对重要数据再此进行异地自动备份。 https://www.ruiwen.com/gongzuozongjie/7585162.html