吴恩达deeplearning.ai五项课程完整笔记了解一下？|learn.deeplearning_在线学习

自吴恩达发布deeplearning.ai课程以来，很多学习者陆续完成了所有专项课程并精心制作了课程笔记，在此过程中机器之心也一直在为读者推荐优质的笔记。上个月，deeplearning.ai第五课发布，该系列课程最终结课。MahmoudBadry在GitHub上开源了五项课程的完整笔记，介绍了包括序列模型在内的详细知识点。机器之心简要介绍了该项目，并重点描述了第五项课程序列模型。

上周吴恩达在推特上展示了一份由TessFerrandez完成的深度学习专项课程信息图，这套信息图优美地记录了深度学习课程的知识与亮点。这一份信息图的详细介绍请查看：这是一份优美的信息图，吴恩达点赞的deeplearning.ai课程总结。

MahmoudBadry完成的笔记主要分为五部分，分别对应神经网络与深度学习基础、提升DNN性能的技巧与方法等、结构化机器学习项目、卷积神经网络和序列模型五门课程。值得注意的是，该项目完成的笔记十分详细，基本上五门课程的知识点全都覆盖到了。例如第一项课程以每周不同主题为序记录了从神经网络简介到Goodfellow采访等基本知识点。

由于前四课很多知识点都已经介绍过，因此本文我们着重介绍第五课的笔记概要，读者可自行查阅GitHub阅读完整的笔记，也可查看机器之心往期发过的一些课程资料。

第五课序列模型简介

本课程将讲授如何构建自然语言、音频和其他序列数据的模型。在深度学习的帮助下，序列算法比两年前效果更好，用于大量有趣的应用，如语音识别、音乐合成、聊天机器人、机器翻译、自然语言理解等。学完本课，你将：

适用人群：

该课程介绍循环神经网络（RNN）、自然语言处理和词嵌入还有序列模型和注意力机制等，以下将简要介绍MahmoudBadry所完成的序列模型笔记。

序列模型

序列模型（如RNN和LSTM）极大地改变了序列学习，序列模型可通过注意力机制获得增强。序列模型在语音识别、音乐生成、情感分类、DNA序列分析、机器翻译、视频活动识别、命名实体识别等方面得到应用。

循环神经网络模型（RNN）

RNN有很多应用，在自然语言处理（NLP）领域表现良好。下图是一个用于解决命名实体识别任务的RNN网络。

用于解决命名实体识别任务的RNN网络。

简化版RNN表示法。

RNN架构中的反向传播，w_a、b_a、w_y、b_y被序列中的所有元素共享。

这里使用交叉熵损失函数：

其中第一个公式是序列中一个元素的损失函数，整个序列的损失是每个元素的损失之和。

RNN的类型

RNN的不同类型。

RNN的梯度消失

门控循环单元（GRU）

带有门控循环单元的循环神经网络

以下展示了单个门控循环单元的具体结构。

门控循环单元

LSTM

以下是LSTM单元的详细结构，其中Z为输入部分，Z_i、Z_o和Z_f分别为控制三个门的值，即它们会通过激活函数f对输入信息进行筛选。一般激活函数可以选择为Sigmoid函数，因为它的输出值为0到1，即表示这三个门被打开的程度。

若我们输入Z，那么该输入向量通过激活函数得到的g(Z)和输入门f(Z_i)的乘积g(Z)f(Z_i)就表示输入数据经筛选后所保留的信息。Z_f控制的遗忘门将控制以前记忆的信息到底需要保留多少，保留的记忆可以用方程c*f（z_f）表示。以前保留的信息加上当前输入有意义的信息将会保留至下一个LSTM单元，即我们可以用c'=g(Z)f(Z_i)+cf(z_f)表示更新的记忆，更新的记忆c'也表示前面与当前所保留的全部有用信息。我们再取这一更新记忆的激活值h(c')作为可能的输出，一般可以选择tanh激活函数。最后剩下的就是由Z_o所控制的输出门，它决定当前记忆所激活的输出到底哪些是有用的。因此最终LSTM的输出就可以表示为a=h(c')f(Z_o)。

双向RNN（BRNN）

双向RNN和深度RNN是构建强大序列模型的有效方法。下图是一个命名实体识别任务的RNN模型：

BRNN架构

BRNN的缺点是在处理之前需要整个序列。

深度RNN

深度RNN可帮助构建强大的序列模型。

3层深度RNN图示。

RNN的反向传播

自然语言处理与词表征

词表征在自然语言处理中是必不可少的部分，从早期的One-Hot编码到现在流行的词嵌入，研究者一直在寻找高效的词表征方法。MahmoudBadry在笔记中详细记录了词嵌入方法，包括用于命名实体识别、人脸识别和翻译系统的词嵌入等，下图展示了用于人脸识别的词嵌入结构：

在这种词嵌入方法中，我们可以将不同的人脸编码压缩为一个向量，进而根据该向量比较是不是同一张脸。

一般来说，Word2Vec方法由两部分组成。首先是将高维one-hot形式表示的单词映射成低维向量。例如将10,000列的矩阵转换为300列的矩阵，这一过程被称为词嵌入。第二个目标是在保留单词上下文的同时，从一定程度上保留其意义。Word2Vec实现这两个目标的方法有skip-gram和CBOW等，skip-gram会输入一个词，然后尝试估计其它词出现在该词附近的概率。还有一种与此相反的被称为连续词袋模型（ContinuousBagOfWords，CBOW），它将一些上下文词语作为输入，并通过评估概率找出最适合（概率最大）该上下文的词。

对于连续词袋模型而言，Mikolov等人运用目标词前面和后面的n个词来同时预测这个词。他们称这个模型为连续的词袋（CBOW），因为它用连续空间来表示词，而且这些词的先后顺序并不重要。CBOW可以看作一个具有先知的语言模型，而skip-gram模型则完全改变将语言模型的目标：它不像CBOW一样从周围的词预测中间的词；恰恰相反，它用中心语去预测周围的词。

MahmoudBadry还展示了另一种学习词嵌入的方法GloVe，该方法虽然不像语言模型那样使用广泛，但它精简的结构非常容易理解：

序列模型与注意力机制

最后一部分作者着重介绍了注意力机制，包括编码器解码器架构的缺陷和引入注意力机制的解决方案。下图展示了使用语境向量C或注意力权重编码信息的过程。

THE END

吴恩达deeplearning.ai五项课程完整笔记了解一下？

深学习综述讨论简介deepLearning课件.pptx

Neuralnetworksanddeeplearning

SpringBoot集成DeepLearning4j实现图片数字识别1.什么是DeepLearning4j？Deep

Halcon深度学习2标注工具DeepLearningTool下载安装

吴恩达deeplearning.ai五项课程完整笔记了解一下？

deeplearningGraphEmbedding学习笔记（3）：GraphConvolutionNetworks数据实验室

ClassifyTimeSeriesUsingWaveletAnalysisandDeepLearning