开通VIP,畅享免费电子书等14项超值服
首页
好书
留言交流
下载APP
联系客服
2024.02.26北京
NLP总体介绍
一、NLP的本质
NLP是什么?
NLP是一种机器学习技术,使计算机能够解读、处理和理解人类语言。
NLP的本质:NLP的本质就是人类和机器之间沟通的桥梁!
NLP是人类和机器的沟通桥梁
人类:使用自然语言交流,如中文、英文等。
狗:通过汪汪汪和其他身体语言交流。
机器:使用数字信息进行交流。
人类与机器之间存在交流障碍,因为人类不直接理解数字信息,而机器不直接理解自然语言。
NLP就是人类和机器之间沟通的这座“桥梁”。
NLP技术允许机器理解和生成人类使用的自然语言。
比尔·盖茨说:“自然语言处理是人工智能领域皇冠上的明珠。”
NLP的价值:NLP的价值在于能够解锁非结构化数据的潜力,将文本转化为可分析的信息以支持企业决策,并推动人机交互向更自然、智能的方向发展。
结构化数据VS非结构化数据
NLP的技术是什么?
NLP的技术
NLP的基础技术:NLP基础技术涵盖语料库构建、中文分词、词性标注、句法分析、词干提取与词形还原、词向量化,以及命名实体消歧与识别,共同构成自然语言处理的核心框架。
定义:存放真实出现过的语言材料的电子资源。
用途:作为语言知识的基础,需经过加工处理才能有效利用。
定义:将汉字序列切分为单独的词的过程。
方法:字符串匹配、理解分词、统计分词、深度学习分词。
工具:StanfordNLP、HanLP等。
定义:为每个词赋予正确的词法标记。
方法:隐马尔科夫模型、最大熵模型、支持向量机、感知器模型、条件随机场模型、深度学习方法。
定义:分析句子的结构,确定词语间的语法关系。
方法:基于规则的分析、基于统计的分析。
词干提取:将词转换为词干或原型形式,去除变化或衍生部分。
词形还原:将词还原为词源或词典中的词目形式。
定义:将词语表示为实数向量,以捕捉语言与实数间的关系。
方法:Word2Vec等模型。
应用:自然语言处理任务的输入表示。
命名实体消歧:确定文本中提到的实体的具体含义,如区分同名不同义的实体。
命名实体识别:识别文本中具有特定意义的实体,并分类为人名、机构名、日期等。
方法:条件随机场(CRF)、字典法、混合方法等。
NLP的基础技术
NLP的核心技术:自然语言处理涵盖语义分析、信息检索与抽取、文本分类与挖掘、情感分析、问答系统、机器翻译及自动摘要等核心技术。
NLP的核心技术
二、NLP的原理
NLP核心组成:NLP=NLU+NLG,NLU负责理解内容,NLG负责生成内容。
NLP核心组成
自然语言理解(NLU):负责将机器变得像人一样,具备正常人的语言理解能力。
NLG
NLP语言模型:NLP语言模型用于捕捉语言的统计和结构特性。
NLP语言模型
独热编码将每个词表示为一个向量,其中只有一个维度是1(代表该词),其余维度都是0。这种方法简单但稀疏,且无法捕捉词之间的关系。
词袋模型忽略文本的语法和词序,将文本视为词的集合。它通常用于文本分类,其中每个文档被表示为一个词频向量。
Bi-gram模型考虑连续的两个词对的统计关系,而N-gram则考虑连续的N个词。这些模型用于捕捉词序信息,但受限于窗口大小。
分布式表示,如wordembeddings,将词编码为固定大小的向量,其中每个维度都捕获了词的某个方面的含义。这些向量是在大量文本上训练的,能够捕捉词之间的语义和语法关系。
共现矩阵记录词与词在文本中的共现频率。这种表示可以捕捉词之间的统计关系,但通常很稀疏且维度高。
NNLM使用神经网络来预测给定上下文的下一个词。它通过学习词的分布式表示来捕捉语言的结构和语义信息。
word2vec是一种特定的神经网络架构,用于学习词的分布式表示。它有两种主要方法:Skip-gram和ContinuousBagofWords(CBOW)。word2vec能够高效地处理大规模数据集,并生成高质量的词向量。