从破译外星人文字谈自然语言处理基础

我们试着开一下脑洞:假如你有一个优盘,里面存了大量“三体”人(刘慈欣小说中的高智能外星人)的网络文本信息,你会怎样通过这些信息去了解外星文明并从中获取有价值的技术情报?当然,“三体”人的文字都长这样儿:

“全是乱码,根本摸不着头脑!”

好吧,的确是这样。其实在计算机的眼中,人类的语言跟外星人的语言也没什么两样。

让计算机“理解”人类语言中的种种信息,甚至像人类一样做出反应,这些是自然语言处理的主要内容。

那我们怎么分析呢?首先,我们尝试找出最小观察对象,发现外星人文字好像是一块一块的方块字,每一个方块字可以作为我们的一个分析的基本语言单位。我们对这些方块字做一些基本的统计,大致就能知道“三体”人语言的基本词汇量、常用词、罕见词、常用固定搭配等等。可见统计方法是一个比较有用的利器。

而且,我们发现,有些方块字直接由一个空格将其隔开。因此将方块字区分成不同的区域,每一个区域是否可以理解成一句话?这个工作就是“断句”,也是自然语言处理当中的一个典型问题。

然后空行可以作为分段。按照人类语言的经验,可能段首第一句话会包含更多的信息。

还能继续分析吗?似乎比较难了。可是后来你发现,这个优盘中的外星人语料库有些是“标记”了的。比如有些信息是像在豆瓣网站中那样被组织的。里面每段话都有一些类似“好评”“差评”的标记。基于这些标记,你可以统计出某些词在好评中出现的概率比差评的更高,这些词可能就是“褒义词”。类似的,你也可以统计出一些“贬义词”。基于这些褒、贬义词,可以去判断其他文本的褒贬性。这就是自然语言处理中的“褒贬分析”过程。

……

由此可见,当面对一种一无所知的语言的时候,似乎最直接的方法就是掌握大量的语料库,而且这些语料最好是经过各种方式标注了的。然后对其进行各种各样的统计,发掘一些有价值的信息。这是传说中自然语言处理的经验主义视角。

其实,自然语言处理的应用非常广泛,如:

这里简单罗列了一些NLP的常见领域:分词,词性标注,命名实体识别,句法分析,语义识别,垃圾邮件识别,拼写纠错,词义消歧,语音识别,音字转换,机器翻译,自动问答……

如果对自然语言处理的应用场景不太了解,可以去腾讯的中文语义平台简单玩几个例子就熟悉了。

根据stafford教授DanJurafsky的介绍:

大家可能感受到了,自然语言处理的问题非常庞杂,一时还真不太好系统地梳理。

然而,从我们的学习自然语言处理的经验来看,通过机器学习的基本思路,可以将很多问题都抽象成同样的算法和模型来处理,这样会清晰很多。

比如,词性标注,垃圾邮件识别,褒贬分析,拼写纠错等问题都可以归结成简单的分类问题。这就好用我们之前掌握的机器学习分类方法去很好地处理。

又比如,对于机器翻译,语音识别,音字转换等等领域,都可以抽象成运用隐马尔科夫模型去处理,而这本身是一个更加复杂的分类问题。

对于英文等字符串类型的自然语言,正则表达式能够很好地做一些简单的处理工作。如词干提取,大小写转换等。

现在主流的编程语言对正则表达式都有较好的支持,如Grep、Awk、Sed、Python、Perl、Java、C/C++。可以通过简单的编程完成一些基本任务。

对于英文,分词比较直观。一般被空格区分开来的就是不同的词。但是有些不同的词汇表达需要我们细心判断:

这需要我们根据不同的条件做一些简单的判断规则。

编辑距离(MinimumEditDistance,MED),又称Levenshtein距离,是指两个字符串之间,由一个转成另一个所需要的最少编辑操作次数。

允许的编辑操作包括:

一个简单的示意图如下:

我们可以使用动态规划算法解最小编辑距离,其形式化定义如下:

通过这种方法,给字符串之间定义了一个量化的“距离”的概念,而且很有解释力。

在机器学习中,有了“距离”就可以做很多事情。比如判断两个字符串的相似性,做一些分类、聚类的工作。

在工程上,编辑距离可以用来提供用于拼写纠错的侯选单词。比如我用英文输入法输入一个“girlfriand”的单词。但是词库中没有“girlfriand”这个词。则可以寻找与“girlfriand”编辑距离为1或2的其他字符串,如“girlfriend”、“girlfriends”,作为纠正拼写错误的候选词。剩下的问题就是判断哪个侯选词的作为纠正词的概率更高而已。

由于自然语言处理中相当一部分都可以抽象成分类问题去处理。我们在这里补充一些分类问题的基本知识,方便以后探讨。

有时候管多选题叫做软分类,单选题叫硬分类。

对于一般二分类,我们评估的指标有召回率、精确度和F值。对于多分类我们也有类似的评价标准。如果cij为有多少篇ci的文档被自动分类到cj类别下,则有:

本文主要是讲了一些自然语言处理的浅层内容。我们从从破译外星人文字导出自然语言处理过程中的经验主义视角。因为业务场景十分繁杂,我们打算从机器学习算法的角度去观察这些业务场景,以便有个清晰的认识。文本处理的一些基础内容,如正则表达式、分词断句等是自然语言预处理过程中的常用手段。编辑距离是衡量两个字符串相似性的尺度。了解这些基础之后,就可以进行一些典型的自然语言处理问题了,比如文本分类。

THE END
1.AI智能写作:墨星在线创作网文生成器在数字时代,人工智能技术正以前所未有的速度改变着我们的生活从自动驾驶汽车到智能家居,从医疗诊断到艺术创作,AI的应用领域日益广泛今天,我们将探讨一个特别有趣且充满潜力的领域——AI智能写作特别是“墨星在线创作网文生成器”,这款工具如何借助AI技术,为网络文学创作者带来全新的创作体验。 http://www.noahtech.cn/list/xiezuo/10537.html
2.外星文字在线转换器在线转换字体分类发现字体标签: 在线转换 最后更新: 2024-12-16 共 6个字体 简介: 外星文字在线转换器 Guestservice语言:英文 下载 HANDYHANDY语言:英文 下载 Harabara语言:英文 下载 Hard Fox语言:英文 下载 HeFractions Bold语言:英文 下载 HeFractions BoldItalic语言:英文 下载http://www.qiuziti.com/fontlist2?id=797775
3.火星文转换器火星文转换器在线转换火星文在线转换复制 火星文在线转换器 火星文在线转换器为您提供汉字和火星文之间的互相转换,可以方便快速的把简体字转换为火星文,也可以快速的将火星文转为简体汉字。https://study.100xgj.com/huoxingwen/
4.火星文转换器火星文转换器在线转换火星文在线转换复制 火星文在线转换器 火星文在线转换器为您提供汉字和火星文之间的互相转换,可以方便快速的把简体字转换为火星文,也可以快速的将火星文转为简体汉字。https://tool.cpu.com.cn/text/nc/
5.火星文转换器,火星文转汉字在线转换器火星文在线转换器为您提供汉字和火星文之间的互相转换,可以方便快速的把简体字转换为火星文,也可以快速的将火星文转为简体汉字等https://tool.21lili.cn/huoxingwen/
6.火星文转换器,火星文转汉字在线转换器IP/数字地址转换 图片转Base64 UTF-8转GBK Unicode/ASCII转换 ASCII编码/解码 URL编码/解码 Native/Unicode编码转换 KeyCode键盘按键码 Android按键码 键盘测试工具 文本数字 Html在线编辑器 文章自动排版 文章内容采集 简繁字体转换 汉字转为拼音 火星文转换器 文本内容替换 文本内容对比 在线统计字数工具 文字竖排工具https://tool.hyx567.com/huoxingwen/
7.火星文转换器,火星文转汉字在线转换器火星文在线转换器为您提供汉字和火星文之间的互相转换,可以方便快速的把简体字转换为火星文,也可以快速的将火星文转为简体汉字等http://tool.pucms.com/huoxingwen/
8.火星文转换器,火星文转汉字在线转换器火星文在线转换器为您提供汉字和火星文之间的互相转换,可以方便快速的把简体字转换为火星文,也可以快速的将火星文转为简体汉字等http://www.lbu.cc/huoxingwen/
9.火星文转换器下载火星文字体转换器火星文在线转换器繁体字火星文转换器为用户推出的火星文字转换工具,独特又具有个性的文字,在网络非常的火爆,受到很多网友的喜欢,分享到自己的社交圈子中也是一大亮点,喜欢的朋友快来当易网下 非主流火星字体转换器 88KB / 2018-01-02 / v2.8 免费版 评分: 下载 非主流火星文转换器是一款非常有个性的文字转换器,在这里用户http://www.downyi.com/key/huoxingwenzhuanhuanqi/
10.火星文转换器,火星文转汉字在线转换器火星文转换器 火星文在线转换器 火星文在线转换器为您提供汉字和火星文之间的互相转换,可以方便快速的把简体字转换为火星文,也可以快速的将火星文转为简体汉字。https://tool.wenrr.com/huoxingwen/
11.火星文转换器,火星文转汉字在线转换器火星文转换器 火星文在线转换器 火星文在线转换器为您提供汉字和火星文之间的互相转换,可以方便快速的把简体字转换为火星文,也可以快速的将火星文转为简体汉字。https://tool.528sq.cn/huoxingwen/
12.火星文转换器输入在线转换火星字内容 输入文字,点击下面转换火星文按钮在线转换 繁体字转换器 使用说明:在框里输入要转换的文字,然后点击"转换火星文"按钮,即可将简繁体字准确转换成火星文 其他在线转换器https://www.aies.cn/huoxingwen.htm
13.在线火星文转换器艺术字文-->紋;呅;忟;彣;妏;攵;炆 大-->夶;?;汏;仧;猋;ナ;dà 全-->峑;洤;仝;絟;詮;佺;荃;铨 在线火星文转换器。 支持输入简体字、繁体字、真笔字、火星字、火星文、艺术字,一键帮您翻译多达五种语言。2024新版本的火星文转换器支持反向翻译。http://www.yishuzi.com/g/18.htm
14.火星文生成器火星文生成器,回到那么复古年代!http://www.apple110.com/tool/mars/
15.祖安文科生给你们推荐两个转换器让你口吐莲花除了这些祖传的绝“活”,目前这个抽象话转换器还有了两个新的功能:比如这个化学元素转换器,与上面的抽象话转换器类似,都是将你这句话用化学元素来代替。 再比如这个删减片段生成器,可以通过填入适当的词,可以得到一段最喜欢的删减语句: “这段视频拍摄于1999年,当时外星人入侵,辽宁朝阳巨魔为了激励广大民众积极https://news.mydrivers.com/1/673/673748.htm
16.三年级语文教学工作总结(精选20篇)在科幻画方面:梁大武老师辅导周靖文同学的《未来环保综合站》及关烷游同学的《空中转换器》分别获银奖,辅导罗烨玲同学的《超级节能处理器》获铜奖;在创新项目方面:凌康林老师辅导黄烨敏同学的《太阳能保温杯》获得铜奖。廖仁生、凌康林老师、黄烨敏同学参加了为期2天的第八届中山市青少年科技创新大赛展评活动。https://www.oh100.com/kaoshi/jiaoxuezongjie/649881.html
17.免费的广告语音生成器怎么免费制作广告语音一、广告配音制作;mc喊麦自动生成器;文字转语音软件? 可以使用PDF转化器软件。 1、打开PDF转化器软件,连续点击两次进入工具操作功能页面,在功能页面的顶端找到工具栏目,鼠标点击【文字语音转换】,第一步就完成,如下图所示。 2、添加文件,在上面步骤完成后随即底部的添加文件,会弹出一个如下图所示的框框,点击或者拖拽https://tool.a5.cn/article/show/81205.html
18.MOBI格式转换器有哪些?推荐几款MOBI转换软件给你MOBI格式转换器有哪些?推荐几款MOBI转换软件给你 当你想要在电子设备上阅读一本电子书时,可能会看到一个奇怪的文件格式,那就是MOBI。它听起来有点像科幻电影里的外星语言,但实际上,它是一种非常常见的电子书格式。虽然它是专门为Kindle电子书阅读器设计的一种格式,但也可以在其他设备上使用。它的全称是Mobipockethttps://cloud.tencent.com/developer/news/1028313
19.文字转语音"外星人声音淘声网描述:旧的睡眠谈话转录,用espeak转换为音频。大部分是在962001年之间。还有不少,当我有兴致时,我将上传。事实上,并不是所有的睡眠谈话,也有一些圣经和其他文字。 Tag: 梦想 声音 傻 说话 睡觉 espeak的 潜意识里 文本到语音 废话 心 夜间 睡眠谈话 男性 滑稽 文字转语音 " 主祷文 dtblkfx by toilethttps://www.tosound.com/sound/sound-eVMnRGE2
20.二十年后的我作文范文800字(通用54篇)在日常学习、工作和生活中,大家都不可避免地会接触到作文吧,作文是通过文字来表达一个主题意义的记叙方法。那么问题来了,到底应如何写一篇优秀的作文呢?下面是小编为大家收集的二十年后的我作文范文800字,供大家参考借鉴,希望可以帮助到有需要的朋友。 二十年后的我作https://m.ruiwen.com/zuowen/800zi/3402555.html
21.文泉书局导出pdf相信许多使用乐乐pdf转化器的小伙伴们或多或少都有这样的困扰,还有很多上班族和学生党在写自驾的毕业论文或者是老师布置的需要提交的Word文档之类的时候,会遇到文泉书局导出pdf的问题,不过没有关系,今天乐乐pdf的小编交给大家的就是如何使用乐乐pdf转换器,来解决各位遇到的问题吧? 工具/原料 演示机型:外星人操作系统:https://www.llpdf.com/tag/151537/
22.一周文化讲座被书撑起的生活翻书党澎湃新闻10月20日下午,我们邀请香港岭南大学历史系教授刘光临、清华大学社会科学学院长聘教授龙登高和青年文史作家张向荣,做客DT51,以“环境、移民与文明:从华北变迁看中国历史的周期转换”为主题,一起探讨中国历史的周期转换,在数据的分析中探察历史的变幻。 北京|百年人生中的传统哲学——《太和》新书分享会https://www.thepaper.cn/newsDetail_forward_29062434
23.钻探工程考试题(通用6篇)7、靠密闭容腔容积变化进行能量转换的泵称为()。A、叶片式泵 B、电磁泵 C、喷射泵 22、井管是垂直安装在地下的构筑物,包括()三个部分。A、井壁管 B、滤水管(过滤器) https://www.360wenmi.com/f/filej9t2p06r.html
24.儿童文学思维导图模板儿童文学作品的文字、语言组合和叙述方式的变化-->产生一种稚拙感 情节构成方式的变化-->带来一种稚拙的形式感 张天翼的童话《大林和小林》中“乔乔的鼻子掉下来” 鼻子掉下来的情态由于语言不断重复地叙述组合方式-->幼儿般稚拙的口语形式风格 儿童文学的美育功能 https://www.processon.com/view/5ecb36af7d9c08156c607a28
25.CAD图形图纸转换器CAD转换器2016免费版PDF转CAD转换器破解版Acme CAD Converter 2016是一款专业的CAD图形图纸转换器,又叫CAD转换器2016,可以将PDF转CAD,也可以快速将DXF、DWF和DWG文件转换为TIFF、PNG、TGA、BMP、WMF、GIF、JPEG、PCX、DXF、dwg、SVG、SVGZ、CGM、EPS、PDF、HPGL(PLT、HGL)等格式,还可以实现dxf和dwg文件版本(AutoCAD R2.5-R2016)之间的转换。CAD转换器2016https://www.yutu.cn/softhtml/showsoft_3016.html
26.sp1版本,文印室排版嘲使用金山文档在线编辑现已满足正文套红A. 频率误差转换为误差电压输出 B. 相位误差转换为误差电压输出 C. 幅度误差转换为误差电压输出 B. 外星人是存在的,因为你证明不了他不存在 C. 你应该相信世上有神,因为神确实是存在的 D. C. 执行器 D. 继电器 查看完整题目与答案 我们看到的文字一定是用文本工具制作出来的 A. 正确https://www.shuashuati.com/ti/8b3a3e06f40545239b3e24cee069ed10.html?fm=bda1df2d39df531085df71f5a2202df85b