开通VIP,畅享免费电子书等14项超值服
首页
好书
留言交流
下载APP
联系客服
2017.01.26
提到语料库,很多人脑中浮现出这样的画面——
或者这样的——
但其实,语料库可以是我们做(语言)研究、学外语的好帮手。比如,你可以在某些语料库查到最地道的英语表达,也可以听到世界各地的英语口音。
今天就为大家介绍9个语料库网站——
1.语言结构世界地图集
WordAtlasofLanguageStructure
知道阿伯卡茨语有多少元音和辅音?波罗罗语的词缀有几种形态?恰卡通戈米斯特克语有几种声调?
想回答这些问题?
你需要的只是登陆这个名为TheWorldAtlasofLanguageStructuresOnline(语言结构世界地图册,简称WALS)的网站
这里有各类语言分布的详细地图,有对于世界上2600多种语言192个语言学特征的详细记录,非常适合语言爱好者。
嗯,妈妈再也不用担心我被多语狂魔们实力嘲讽了,随便选出一个语言了解一下,足以技惊四座!
2.语言口音档案馆
theSpeechAccentArchive
大家学英语这么多年,基本上属于身经百战了,哪个地方的英语口音没听过,什么纯正伦敦音,印度咖喱腔,苏格兰懵逼腔,布鲁克林街头腔,那是如数家珍。
但是,你听过刚果金非洲小哥的英语口语嘛?你了解玻利维亚大妈的英语口音嘛?喏,这个名为theSpeechAccentArchive的网站绝对可以满足各位英语语音控的猎奇愿望。
该数据库搜集了几百名来自世界各地,不同民族语言背景的人们针对同一段文字的录音资料,每段录音都详细记录了音频提供者的详细背景资料,每段语音也很详细的进行了转写。
对于研究者来说,可视之为研究英语使用者发音特征的独门利器;对普通人来说,则是一个了解各地英语口音的难得窗口。
3.当代美国英语语料库
COCA
想知道某个单词在新闻和小说中的使用有什么差异?英文写作的时候想知道自己写出来的英语搭配够不够地道?想知道背下多少单词就可以流利阅读各类小说报纸?
嗯,你需要的只是一个语料容量巨大的英语语料库,COCA恰好可以满足你的这些需求。
当代美国英语语料库(CorpusofContemporaryAmericanEnglish,简称COCA)是目前最大的免费英语语料库。
4.儿童语音语料库
CHILDS
午餐君曾经有过这么一个想法,将来如果成功升级为孩儿他爸,一定要把自己孩子学说话的过程进行录音,然后安心保存,处理,分析,说不定可以探究出语言习得的奥秘,然后提出理论,一战封神,著书立说,设馆招徒,麾下天启四骑士,再然后成为顶级公知(喂喂喂!快醒醒!你个单身狗!)
不过话说回来,实际记录儿童语言这个想法早就有学者付诸实践了,他们还创立了一个规模庞大的儿童语音语料库CHILDES(ChildLanguageDataExchangeSystem)。
在这里,你可以找到儿童语言习得过程的详细音频文件和转写文本,涉及的语言包括英语,德语,法语,日语,汉语,广东话等等。错过了记录自己牙牙学语的轨迹,或许这个数据库是一个不错的弥补手段。
5.语言学数据联盟
LinguisticDataConsortium
前不久AlphaGo席卷棋坛,人工智能再显神威;提到语言学中的人工智能,大家第一反应或许会是苹果的语音助手Siri。
不过各位有没有想过如果你有足够的数据资料,辅以适当的算法,做一个人工智能语言系统也许并不是那么困难,这不,LinguisticDataConsortium就为你提供了这种可能。
这个上世纪90年代初由宾夕法尼亚尼亚大学发起的数据共享平台,目前已经由上百所大学加盟,涵盖几百种语言数据,包含英语,法语,西班牙语,汉语等十多种语言。
说了这么多,就差一个程序员了...
6.北大&北语汉语语料库
CCLandBCC
刚刚说了好多英语数据库,我们再来聊聊汉语语料库。
汉语语料库里有两个不得不说,一个是老牌劲旅,北京大学汉语语料库(CCL);一个是后起之秀,北京语言大学汉语语料库(BCC)。
两个语料库各有千秋,各有特点,小编也不敢妄下评价,不过有一点是相同的,那就是两个语料库用来做汉语研究和日常搜索(比如教外国人汉语时找例句)都相当不错。
除了上述这些以外,语言学数据库还有很多很多,比如一些强大的专业性语料库,双语平行语料库,多模态语料库,依存树库等等。
在文末午餐君再为各位附上两个提供语料库索引功能的网站:
这个名为corpusfinder的网站提供了近60种语料库的资料信息和使用链接,感兴趣的朋友不妨试试看。