激活函数的作用是对输入执行非线性变换,将输入乘以权重并添加到偏置项中。目前最常用的激活函数有ReLU、tanh和sigmoid。
AdamOptimization(Adam优化)
AdaptiveGradientAlgorithm(自适应梯度算法)
AveragePooling(平均池化)
AlexNet
Backpropagation(反向传播)
反向传播是一种用于调整网络权重以最小化神经网络损失函数的常用方法,它在神经网络中从后向前计算,通过对每个激活函数进行梯度下降重新调整权重。
BatchGradientDescent(BGD)
BGD是一种常规的梯度下降优化算法,它更新的是整个训练集的参数。在更新参数前,它必须计算整个训练集的梯度,因此如果数据集很大,BGD可能会很慢。
BatchNormalization
BatchNormalization指的是把神经网络层中的值归一化为0到1之间的值,方便更快训练神经网络。
Bias(偏差)
当模型在训练集上精度欠佳时,它被称为欠拟合。当模型具有高偏差时,它通常不会在测试集上又高准确率。
Classification(分类)
Convolution(卷积)
CostFunction(损失函数)
损失函数又称lossfunction,指的是模型的输出与实际情况之间的差异,这是深度神经网络学习的关键要素之一,因为它们构成了参数更新的基础。通过将前向传播的结果与真实结果相比较,神经网络能相应地调整网络权重以最小化损失函数,从而提高准确率。常用的损失函数有均方根误差。
DeepNeuralNetwork(深度神经网络)
Derivative(导数)
数是特定点处函数的斜率。计算导数的作用是用梯度下降算法将权重参数调整到局部最小值。
Dropout
End-to-EndLearning(端到端学习)
端到端学习指的是算法能够自行解决整个任务,不需要额外的人为干预(如模型切换或新数据标记)。案例:NVIDIA前年发表了一篇论文EndtoEndLearningforSelf-DrivingCars,他们训练了一个只需根据单个前置摄像头的原始图像就能让自动驾驶汽车自行转向的CNN。
Epoch
一个Epoch表示训练集中的每个样本都已经进行过一次完整的前向传播和反向传播。单个Epoch涉及每个训练样本的迭代。
ForwardPropagation(前向传播)
前向传播就是数据被输入神经网络后,经过隐藏层、激活函数,最后形成输出的过程。当节点权重经过训练后,前向传播能预测输入样本的结果。
Fully-Connectedlayer(全连接层)
全连接层指的是和上一层的节点完全连接的神经网络层,它把上一层的输出作为输入,并用其权重转换输入,将结果传递给下一层。
GatedRecurrentUnit(GRU)
Human-LevelPerformance从字面上理解就是人类级别的表现,它表示一组人类专家的最佳表现。作为神经网络性能的一种常用衡量标准,人类表现在改进神经网络的过程中一直发挥着作用。
超参数决定的神经网络的性能,常见的超参数有学习率、梯度下降迭代次数、隐藏层的数量和激活函数。不要将DNN自学的参数、权重和超参数混淆。
ImageNet
ImageNet是一个包含上千个图像及其注释的数据集,它是非常有用的图像分类任务资源。
Iteration(迭代)
迭代指的是神经网络前向传播和反向传播的总次数。例如,假设你的训练集有5个batch,一共训练了2个epoch,那么你就一共进行了10次迭代。
GradientDescent(梯度下降)
梯度下降是一种帮助神经网络决定如何调整参数以最小化损失函数的方法。我们可以用它重复调整参数,直到找到全局最小值。CSDN上翻译了SebastianRuder的《梯度下降优化算法综述》,非常值得阅读。
Layer
Layer指的是一组转换输入的激活函数。如下图所示,神经网络通常会使用多个隐藏层来创建输出,常见的有输入层、隐藏层和输出层。
LearningRateDecay(学习率衰减)
学习率衰减指的是在训练期间改变神经网络的学习率,它反映了学习的灵活性。在深度学习实践中,随着训练进行,学习率一般是逐渐衰减的。
MaximumPooling(最大池化)
最大池化表示只选择特定输入区域的最大值,它通常用于CNN。以减小输入的大小。
LongShort-TermMemory(LSTM)
Mini-BatchGradientDescent
Mini-BatchGradientDescent是一种优化算法,它先把训练数据分成一系列子集,再在上面进行梯度下降。由于这个过程是可以并行的,各个worker可以同时分别迭代不同的minibatch,因此它计算效率更高、收敛更稳健,是batch和SGD的一种有效组合。
Momentum(动量)
Momentum也是一种梯度下降优化算法,用于平滑随机梯度下降法的振荡。它先计算先前采取的步骤的方向的平均方向,并在此方向上调整参数更新。这一术语来自经典物理学中的动量概念,当我们沿着一座小山坡向下扔球时,球在沿着山坡向下滚动的过程中收集动量,速度不断增加。参数更新也是如此。
NeuralNetwork(神经网络)
神经网络是一种转换输入的机器学习模型,最基础的NN具有输入层、隐藏层和输出层,随着技术的不断发展,它现在已经成为查找数据中复杂模式的首选工具。
Non-MaxSuppression(非极大抑制)
RecurrentNeuralNetworks(RNN)
ReLU
ReLU是一个简单的线性变换单元,如果输入小于零,则输出为零,否则输出等于输入。它通常是现在首选的激活函数,可以帮助更快地训练。
Regression(回归)
和分类相对应,回归也是统计学习的一种形式,只不过它的输出是连续的变量,而不是分类值。分类为输入变量分配了一个类,但回归为输入变量分配的是无限多个可能的值,而且它通常是一个数字。常见的回归任务有房价预测和客户年龄预测。
RMSProp随机梯度下降优化方法的扩展,它以每个参数的学习率为特征,根据参数在先前迭代中的变化速度来调整学习率。
Parameters(参数)
参数即在应用激活函数之前转换输入的DNN的权重。神经网络的每一层都有自己的一组参数。利用反向传播算法,我们可以通过调整参数最小化损失函数。
Softmax
Softmax函数,或称归一化指数函数,是逻辑函数的一种推广,常用于DNN的最后一层。它的本质就是将一个K维的任意实数向量压缩(映射)成另一个K维的实数向量,其中向量中的每个元素取值都介于(0,1)之间。它非常适合有两个以上输出的分类任务。
StochasticGradientDescent(随机梯度下降)
随机梯度下降法是梯度下降法在机器学习领域的一个变种,它通过抽样的梯度来近似表示真实的梯度,从而避免大量的计算。
SupervisedLearning(监督学习)
TransferLearning(迁移学习)
迁移学习是一种将一个神经网络的参数用于不同任务而无需重新训练整个网络的技术。它的具体方法是使用先前训练过的网络中的权重并删除输出层,然后用你自己的softmax或logistic图层替换最后一层,再次训练网络。之所以有效,是因为较低的层通常会检测到类似的边缘,这些边缘对其他图像分类任务也是有效的。
UnsupervisedLearning(无监督学习)
无监督学习也是机器学习的一种形式,但是它的输出类是未知的。常见的无监督学习方法有GAN和VAE。
ValidationSet(验证集)
验证集通常被用于寻找深度神经网络的最佳超参数。训练好DNN后,我们可以在验证集上测试不同的超参数组合,然后选择性能最好的组合在测试集上做最终预测。在使用过程中,注意平衡各集的数据占比,比如在有大量数据可用的情况下,训练集的数据占比应该高达99%,而验证集合测试集应该各占0.5%。
VanishingGradients(梯度消失)
梯度消失是神经网络到达一定深度后会出现的问题。在反向传播中,权重根据其梯度或衍生物进行调整,但在深度神经网络中,较早层的梯度可能会变得非常小,以至于权重根本不会更新。避免这个问题的一种做法是使用ReLU激活函数。
Variance(方差)
当DNN过拟合训练数据时,我们称这之中存在方差。DNN无法将噪声与模式区分开来,并对训练数据中的每个方差进行建模,具有高方差的模型通常无法准确推广到新数据。
VGG-16
VGG-16是一种CNN流行网络架构,它简化了AlexNet,总共有16层。一些研究已经证实,许多经预训练的VGG模型可以通过迁移学习被用于其他新任务。
XavierInitialization(Xavier初始化)
YOLO
原文标题:什么是Adam/ReLU/YOLO?这里有一份深度学习(.ai)词典
长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)