编者按:语料库是对某一语用事实进行定量分析的重要工具,可以反映某一用法的分布情况。如果语料库中某一用法的量,大或者比较大,那么否定这一用法就可能不恰当。当然,我们也要注意分辨,有些错误的形式,其语料反而比正确的形式的语料多,这涉及如何辩证使用语料库的问题。
吕叔湘先生在《语文杂记》中说:“通不通是个约定俗成的问题,多数人都这样说,就算是通。”语料库就有助于判断某一用法是否是多数人在说。
在进行语言研究时,可以用北京大学中国语言学研究中心语料库,即常说的北大CCL语料库,也可以用读秀学术搜索(暂算作语料库)。当然,还有很多语料库可供查询使用,并不仅限于此二者。
通用单语语料库
1
国家语委现代汉语通用平衡语料库
网站地址:
2
北京语言大学语料库中心BCC语料库
BCC语料库是以汉语为主,兼有英语、西班牙语、法语、德语、土耳其语等语言的语料库,其中汉语语料规模约150亿字,涵盖了报刊、文学、微博、科技、综合和古汉语等多领域语料。BCC语料库包括了生语料、分词语料、词性标注语料和句法树,目前已对现代汉语、英语、法语的语料进行词性标注。
3
清华TH语料库
清华TH语料库于1994年6月建成,其总库根据对语料加工深度的不同采用分级管理的原则,分成了生语料和熟语料两大类,其中0级生语料分库涵盖了一般书、报纸、论文、杂志、工具书等五类子库语料素材。经过近年来不断的升级和更新,已更名为THCHS-30语料库。
4
北京大学CCL语料库
5
人民日报标注语料库
6
清华汉语树库
该语料库从包含文学、学术、新闻、应用四大体裁的200万汉字平衡语料库中提取了100万汉字规模的语料文本,经过自动断句、句法分析后再进行人工校对,形成了有完整句法结构树的汉语句法树库语料。
汉英双语平行语料库
7
中国科学院汉英平行语料库
中国科学院汉英平行语料库是在对中英文篇章对齐的双语文本进行段落对齐、句子对齐加工后建立的一个句子级对齐的双语语言信息和知识库,该语料库借助互联网等其他媒体搜集中英文篇章级对齐的双语文本,面向多领域多体裁,采用基于双语辞典的句子对齐方法进行了文本对齐,并对双语文本句子对齐结果实现自动评价。
8
南京大学双语词典研究中心
英汉双语平行语料库
9
清华大学中英平行语料库
清华大学中英平行语料库由清华大学自然语言处理与社会人文计算实验室在国家“863计划”项目“互联网语言翻译系统研制”的支持下,利用自身研发的互联网平行网页获取软件和双语句子自动对齐软件获取并处理得到的,共包含285万中英平行句对。
其他汉外平行语料库
10
北京大学计算语言研究所
双语平行语料库
该语料库为大型汉英、汉日双语语料库,包含汉英句子级对齐语料20万句对、汉日句子级对齐语料2万句对、汉英词汇级对齐语料1万对,旨在为机器翻译等应用系统的研发提供基础资源和标准的评测语料。
11
北京外国语大学双语平行语料库
由王克非负责构建的汉英和汉日两个平行语料库目前仍在建设中。该语料库包括2000万字的日汉对译文本语料库和3000万字词的通用型汉英平行语料库两个部分。目前2000万字的日汉对译文本语料库的平行对应语料分为文学与非文学、汉译日和日译汉存放,做到段落级对齐,运用所研制的检索工具可对汉日语料做各种词语、短语、句型和搭配上的检索。通用型汉英平行语料库分为,“百科语料库”“翻译文本库”“双语语句库”以及“专科语料库”四个子库,目前3000万字词语料已基本做到句级对齐,其中2000万字词语料已完成最终校对、标注、双语链接。
12
南京农业大学典籍平行语料库
基于十三经、《战国策》、前四史等典籍及其所对应的白话文和英文翻译,南京农业大学王东波结合深度学习相应模型设计了句对齐的算法,实现了古文句子与白话文和英文的对齐,并对古文、白话文和英文进行了分词、词性和实体标注,形成了独具特色的典籍平行语料库。
其他特色语料库
13
汉语中介语语料库汉语
中介语语料库由北京语言大学(原北京语言学院)于1992年开始建设。该语料库立足于汉语教学已收录1635位外国学生共5774篇成篇成段的汉语作文或练习材料,总字数约353万,其中1731篇约104万字的语料经过断句、分词和词性标注等加工处理。目前该全球汉语中介语料库仍处于努力建设过程中,北京语言大学仍然努力于建设全球汉语中介语语料库,其规模预计达5000万字,包括笔语语料、口语语料和多模态子库。笔语语料规模预计达4500万字,其中2000万字将加工成为熟语料;口语语料450小时,约合400万字;多模态语料110小时,约合100万字。
14
HSK动态作文语料库
15
中国传媒大学有声媒体文本语料库
该语料库由中国传媒大学国家语言资源检测与研究有声媒体中心开发,2003年开始建设,2005年上线,其后不断扩大语料规模,并于2016年进行了第三次改版。该语料库包括2008-2013年的3万多个广播、电视节目的转写文本,总字符数达到2.4亿个,并对所有文本进行了自动分词和词性标注。
翻译常用的22个语料库
16
中国特色话语对外翻译标准化术语库
中国特色话语对外翻译标准化术语库是中国外文局、中国翻译研究院主持建设的首个国家级多语种权威专业术语库,是服务国家话语体系建设和中国文化国际交流的基础性工程。项目团队与中国译协、外文社、南开大学、上海交通大学、上海师范大学、华东理工大学、兰州城市学院等机构开展合作,以习近平新时代中国特色社会主义思想术语和中国特色文化术语为主要内容。该术语库平台以语种的多样性、内容的权威性为突出特色,提供中文与英、法、俄、德、意、日、韩、西、阿等多种语言的术语对译查询服务。
17
中国思想文化术语库
18
中国核心词汇
中国核心语汇是一部多语种网络百科全书,海量收录具备中国特色的热点词条,数百位专家学者潜心解读,多语种权威翻译,致力于让全球网友与语言学习者正确解读中国文化。
19
联合国术语库
20
术语在线
21
中国规范术语
该数据库是中国知网和全国科学技术名词审定委员会的合作项目,根据名词委历年审定公布并出版的数据制作,供读者免费查询。本库旨在帮助专业工作者规范、正确使用本领域的专业术语,提高专业水平。
22
语料库
23
SchlumbergerOilfieldGlossary:
TheOilfieldGlossary
24
医学英语在线翻译词典
25
BCC汉语语料库
BCC汉语语料库,总字数约150亿字,包括:报刊(20亿)、文学(30亿)、微博(30亿)、科技(30亿)、综合(10亿)和古汉语(20亿)等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。