入门机器学习常用术语超全汇总|在线学习算法有哪些_在线学习

刚接触机器学习框架TensorFlow的新手们，这篇由Google官方出品的常用术语词汇表，一定是你必不可少的入门资料！本术语表列出了基本的机器学习术语和TensorFlow专用术语的定义，希望能帮助您快速熟悉TensorFlow入门内容，轻松打开机器学习世界的大门。

转载自丨数据STUDIO

一种统计方法，用于将两种或多种技术进行比较，通常是将当前采用的技术与新技术进行比较。A/B测试不仅旨在确定哪种技术的效果更好，而且还有助于了解相应差异是否具有显著的统计意义。A/B测试通常是采用一种衡量方式对两种技术进行比较，但也适用于任意有限数量的技术和衡量方式。

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义如下：

在二元分类中，准确率的定义如下：

请参阅正例和负例。

一种函数（例如ReLU或S型函数），用于对上一层的所有输入求加权和，然后生成一个输出值（通常为非线性值），并将其传递给下一层。

一种先进的梯度下降法，用于重新调整每个参数的梯度，以便有效地为每个参数指定独立的学习速率。如需查看完整的解释，请参阅这篇论文。

一种会考虑所有可能分类阈值的评估指标。

ROC曲线下面积是，对于随机选择的正类别样本确实为正类别，以及随机选择的负类别样本为正类别，分类器更确信前者的概率。

在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算（并缓存）每个节点的输出值，然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

模型训练的一次迭代（即一次梯度更新）中使用的样本集。

另请参阅批次大小。

一个批次中的样本数。例如，SGD的批次大小为1，而小批次的大小通常介于10到1000之间。批次大小在训练和推断期间通常是固定的；不过，TensorFlow允许使用动态批次大小。

距离原点的截距或偏移。偏差（也称为偏差项）在机器学习模型中用b或w0表示。

请勿与预测偏差混淆。

一种分类任务，可输出两种互斥类别之一。例如，对电子邮件进行评估并输出“垃圾邮件”或“非垃圾邮件”的机器学习模型就是一个二元分类器。

请参阅分桶。

将一个特征（通常是连续特征）转换成多个二元特征（称为桶或箱），通常根据值区间进行转换。例如，您可以将温度区间分割为离散分箱，而不是将温度表示成单个连续的浮点特征。假设温度数据可精确到小数点后一位，则可以将介于0.0到15.0度之间的所有温度都归入一个分箱，将介于15.1到30.0度之间的所有温度归入第二个分箱，并将介于30.1到50.0度之间的所有温度归入第三个分箱。

一种预测后调整，通常是为了降低预测偏差的影响。调整后的预测和概率应与观察到的标签集的分布一致。

一种训练时进行的优化，会使用某种函数（例如softmax）针对所有正类别标签计算概率，但对于负类别标签，则仅针对其随机样本计算概率。例如，如果某个样本的标签为“小猎犬”和“狗”，则候选采样将针对“小猎犬”和“狗”类别输出以及其他类别（猫、棒棒糖、栅栏）的随机子集计算预测概率和相应的损失项。这种采样基于的想法是，只要正类别始终得到适当的正增强，负类别就可以从频率较低的负增强中进行学习，这确实是在实际中观察到的情况。候选采样的目的是，通过不针对所有负类别计算预测结果来提高计算效率。

一种特征，拥有一组离散的可能值。以某个名为housestyle的分类特征为例，该特征拥有一组离散的可能值（共三个），即Tudor,ranch,colonial。通过将housestyle表示成分类数据，相应模型可以学习Tudor、ranch和colonial分别对房价的影响。

有时，离散集中的值是互斥的，只能将其中一个值应用于指定样本。例如，carmaker分类特征可能只允许一个样本有一个值(Toyota)。在其他情况下，则可以应用多个值。一辆车可能会被喷涂多种不同的颜色，因此，carcolor分类特征可能会允许单个样本具有多个值（例如red和white）。

分类特征有时称为离散特征。与数值数据相对。

聚类的中心，由k-means或k-median算法决定。例如，如果k为3，则k-means或k-median算法会找出3个形心。

为标签枚举的一组目标值中的一个。例如，在检测垃圾邮件的二元分类模型中，两种类别分别是“垃圾邮件”和“非垃圾邮件”。在识别狗品种的多类别分类模型中，类别可以是“贵宾犬”、“小猎犬”、“哈巴犬”等等。

一种二元分类问题，在此类问题中，两种类别的标签在出现频率方面具有很大的差距。例如，在某个疾病数据集中，0.0001的样本具有正类别标签，0.9999的样本具有负类别标签，这就属于分类不平衡问题；但在某个足球比赛预测器中，0.51的样本的标签为其中一个球队赢，0.49的样本的标签为另一个球队赢，这就不属于分类不平衡问题。

一种机器学习模型，用于区分两种或多种离散类别。例如，某个自然语言处理分类模型可以确定输入的句子是法语、西班牙语还是意大利语。请与回归模型进行比较。

一种标量值条件，应用于模型预测的得分，旨在将正类别与负类别区分开。将逻辑回归结果映射到二元分类时使用。以某个逻辑回归模型为例，该模型用于确定指定电子邮件是垃圾邮件的概率。如果分类阈值为0.9，那么逻辑回归值高于0.9的电子邮件将被归类为“垃圾邮件”，低于0.9的则被归类为“非垃圾邮件”。

聚类算法有很多。例如，k-means算法会基于样本与形心的接近程度聚类样本，如下图所示：

之后，研究人员便可查看这些聚类并进行其他操作，例如，将聚类1标记为“矮型树”，将聚类2标记为“全尺寸树”。

再举一个例子，例如基于样本与中心点距离的聚类算法，如下所示：

根据很多其他用户的兴趣来预测某位用户的兴趣。协同过滤通常用在推荐系统中。

一种NxN表格，用于总结分类模型的预测效果；即标签和模型预测的分类之间的关联。在混淆矩阵中，一个轴表示模型预测的标签，另一个轴表示实际标签。N表示类别个数。在二元分类问题中，N=2。例如，下面显示了一个二元分类问题的混淆矩阵示例：

上面的混淆矩阵显示，在19个实际有肿瘤的样本中，该模型正确地将18个归类为有肿瘤（18个正例），错误地将1个归类为没有肿瘤（1个假负例）。同样，在458个实际没有肿瘤的样本中，模型归类正确的有452个（452个负例），归类错误的有6个（6个假正例）。

多类别分类问题的混淆矩阵有助于确定出错模式。例如，某个混淆矩阵可以揭示，某个经过训练以识别手写数字的模型往往会将4错误地预测为9，将7错误地预测为1。

混淆矩阵包含计算各种效果指标（包括精确率和召回率）所需的充足信息。

一种浮点特征，可能值的区间不受限制。与离散特征相对。

通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

另请参阅早停法。

另请参阅Boyd和Vandenberghe合著的ConvexOptimization（《凸优化》）。

一种函数，函数图像以上的区域为凸集。典型凸函数的形状类似于字母U。例如，以下都是凸函数：

相反，以下函数则不是凸函数。请注意图像上方的区域如何不是凸集：

严格凸函数只有一个局部最低点，该点也是全局最低点。经典的U形函数都是严格凸函数。不过，有些凸函数（例如直线）则不是这样。

很多常见的损失函数（包括下列函数）都是凸函数：

梯度下降法的很多变体都一定能找到一个接近严格凸函数最小值的点。同样，随机梯度下降法的很多变体都有很高的可能性能够找到接近严格凸函数最小值的点（但并非一定能找到）。

两个凸函数的和（例如L2损失函数+L1正则化）也是凸函数。

深度模型绝不会是凸函数。值得注意的是，专门针对凸优化设计的算法往往总能在深度网络上找到非常好的解决方案，虽然这些解决方案并不一定对应于全局最小值。

使用数学方法（例如梯度下降法）寻找凸函数最小值的过程。机器学习方面的大量研究都是专注于如何通过公式将各种问题表示成凸优化问题，以及如何更高效地解决这些问题。

如需完整的详细信息，请参阅Boyd和Vandenberghe合著的ConvexOptimization（《凸优化》）。

欧几里得空间的一个子集，其中任意两点之间的连线仍完全落在该子集内。例如，下面的两个图形都是凸集：

相反，下面的两个图形都不是凸集：

简单来说，卷积在数学中指两个函数的组合。在机器学习中，卷积结合使用卷积过滤器和输入矩阵来训练权重。

机器学习中的“卷积”一词通常是卷积运算或卷积层的简称。

如果没有卷积，机器学习算法就需要学习大张量中每个单元格各自的权重。例如，用2Kx2K图像训练的机器学习算法将被迫找出400万个单独的权重。而使用卷积，机器学习算法只需在卷积过滤器中找出每个单元格的权重，大大减少了训练模型所需的内存。在应用卷积过滤器后，它只需跨单元格进行复制，每个单元格都会与过滤器相乘。

卷积运算中的两个参与方之一。（另一个参与方是输入矩阵切片。）卷积过滤器是一种矩阵，其等级与输入矩阵相同，但形状小一些。以28×28的输入矩阵为例，过滤器可以是小于28×28的任何二维矩阵。

在图形操作中，卷积过滤器中的所有单元格通常按照固定模式设置为1和0。在机器学习中，卷积过滤器通常先选择随机数字，然后由网络训练出理想值。

下面的动画显示了一个由9个卷积运算（涉及5x5输入矩阵）组成的卷积层。请注意，每个卷积运算都涉及一个不同的3x3输入矩阵切片。由此产生的3×3矩阵（右侧）就包含9个卷积运算的结果：

一种神经网络，其中至少有一层为卷积层。典型的卷积神经网络包含以下几层的组合：

卷积神经网络在解决某些类型的问题（如图像识别）上取得了巨大成功。

如下所示的两步数学运算：

以下面的5x5输入矩阵为例：

现在，以下面这个2x2卷积过滤器为例：

每个卷积运算都涉及一个2x2输入矩阵切片。例如，假设我们使用输入矩阵左上角的2x2切片。这样一来，对此切片进行卷积运算将如下所示：

卷积层由一系列卷积运算组成，每个卷积运算都针对不同的输入矩阵切片。

与损失的含义相同。

对数损失函数向多类别分类问题的一种泛化。交叉熵可以量化两种概率分布之间的差异。另请参阅困惑度。

您按照这些说明自行编写的Estimator。与预创建的Estimator相对。

根据样本、测量结果和可视化内容来理解数据。数据分析在首次收到数据集、构建第一个模型之前特别有用。此外，数据分析在理解实验和调试系统问题方面也至关重要。

一组样本的集合。

一种高级别的TensorFlowAPI，用于读取数据并将其转换为机器学习算法所需的格式。tf.data.Dataset对象表示一系列元素，其中每个元素都包含一个或多个张量。tf.data.Iterator对象可获取Dataset中的元素。

如需详细了解DatasetAPI，请参阅《TensorFlow编程人员指南》中的导入数据。

在二元分类或多类别分类问题中，模型学到的类别之间的分界线。例如，在以下表示某个二元分类问题的图片中，决策边界是橙色类别和蓝色类别之间的分界线：

与全连接层的含义相同。

一种神经网络，其中包含多个隐藏层。深度模型依赖于可训练的非线性关系。与宽度模型相对。

一种大部分值是非零值的特征，通常是浮点值张量。与稀疏特征相对。

一类可运行TensorFlow会话的硬件，包括CPU、GPU和TPU。

一种特征，包含有限个可能值。例如，某个值只能是“动物”、“蔬菜”或“矿物”的特征便是一个离散特征（或分类特征）。与连续特征相对。

正则化的一种形式，在训练神经网络方面非常有用。丢弃正则化的运作机制是，在一个梯度步长中移除从神经网络层中随机选择的固定数量的单元。丢弃的单元越多，正则化效果就越强。这类似于训练神经网络以模拟较小网络的指数级规模集成学习。如需完整的详细信息，请参阅Dropout:ASimpleWaytoPreventNeuralNetworksfromOverfitting（《丢弃：一种防止神经网络过拟合的简单方法》）。

一种模型，以持续更新的方式在线接受训练。也就是说，数据会源源不断地进入这种模型。

一种正则化方法，是指在训练损失仍可以继续降低之前结束模型训练。使用早停法时，您会在验证数据集的损失开始增大（也就是泛化效果变差）时结束模型训练。

一种分类特征，以连续值特征表示。通常，嵌套是指将高维度向量映射到低维度的空间。例如，您可以采用以下两种方式之一来表示英文句子中的单词。

在TensorFlow中，会按反向传播损失训练嵌套，和训练神经网络中的任何其他参数一样。

用于选择可以将基于训练集的损失降至最低的函数。与结构风险最小化相对。

多个模型的预测结果的并集。您可以通过以下一项或多项来创建集成学习：

深度模型和宽度模型属于一种集成学习。

在训练时，整个数据集的一次完整遍历，以便不漏掉任何一个样本。因此，一个周期表示（N/批次大小）次训练迭代，其中N是样本总数。

数据集的一行。一个样本包含一个或多个特征，此外还可能包含一个标签。另请参阅有标签样本和无标签样本。

被模型错误地预测为负类别的样本。例如，模型推断出某封电子邮件不是垃圾邮件（负类别），但该电子邮件其实是垃圾邮件。

被模型错误地预测为正类别的样本。例如，模型推断出某封电子邮件是垃圾邮件（正类别），但该电子邮件其实不是垃圾邮件。

ROC曲线中的x轴。FP率的定义如下：

在进行预测时使用的输入变量。

指定模型应该如何解读特定特征的一种函数。此类函数的输出结果是所有Estimators构造函数的必需参数。

借助tf.feature_column函数，模型可对输入特征的不同表示法轻松进行实验。有关详情，请参阅《TensorFlow编程人员指南》中的特征列一章。

“特征列”是Google专用的术语。特征列在Yahoo/Microsoft使用的VW系统中称为“命名空间”，也称为场。

通过将单独的特征进行组合（求笛卡尔积）而形成的合成特征。特征组合有助于表达非线性关系。

特征工程有时称为特征提取。

训练机器学习模型时采用的一组特征。例如，对于某个用于预测房价的模型，邮政编码、房屋面积以及房屋状况可以组成一个简单的特征集。

用于描述如何从tf.Example协议缓冲区提取特征数据。由于tf.Example协议缓冲区只是一个数据容器，因此您必须指定以下内容：

EstimatorAPI提供了一些可用来根据给定FeatureColumns列表生成特征规范的工具。

一种机器学习方法（通常用于对象分类），旨在仅通过少量训练样本学习有效的分类器。

另请参阅单样本学习。

请参阅softmax。与候选采样相对。

一种隐藏层，其中的每个节点均与下一个隐藏层中的每个节点相连。

全连接层又称为密集层。

指的是模型依据训练时采用的数据，针对以前未见过的新数据做出正确预测的能力。

最小二乘回归模型（基于高斯噪声）向其他类型的模型（基于其他类型的噪声，例如泊松噪声或分类噪声）进行的一种泛化。广义线性模型的示例包括：

可以通过凸优化找到广义线性模型的参数。

广义线性模型具有以下特性：

广义线性模型的功能受其特征的限制。与深度模型不同，广义线性模型无法“学习新特征”。

偏导数相对于所有自变量的向量。在机器学习中，梯度是模型函数偏导数的向量。梯度指向最高速上升的方向。

在应用梯度值之前先设置其上限。梯度裁剪有助于确保数值稳定性以及防止梯度爆炸。

一种通过计算并且减小梯度将损失降至最低的技术，它以训练数据为条件，来计算损失相对于模型参数的梯度。通俗来说，梯度下降法以迭代方式调整参数，逐渐找到权重和偏差的最佳组合，从而将损失降至最低。

TensorFlow中的一种计算规范。图中的节点表示操作。边缘具有方向，表示将某项操作的结果（一个张量）作为一个操作数传递给另一项操作。可以使用TensorBoard直观呈现图。

一种非最优但实用的问题解决方案，足以用于进行改进或从中学习。

神经网络中的合成层，介于输入层（即特征）和输出层（即预测）之间。神经网络包含一个或多个隐藏层。

其中“y'”表示分类器模型的原始输出：

“y”表示真标签，值为-1或+1。

因此，合页损失与(y*y')的关系图如下所示：

训练期间故意不使用（“维持”）的样本。验证数据集和测试数据集都属于维持数据。维持数据有助于评估模型向训练时所用数据之外的数据进行泛化的能力。与基于训练数据集的损失相比，基于维持数据集的损失有助于更好地估算基于未见过的数据集的损失。

在模型训练的连续过程中，您调节的“旋钮”。例如，学习速率就是一种超参数。

与参数相对。

将一个空间划分为两个子空间的边界。例如，在二维空间中，直线就是一个超平面，在三维空间中，平面则是一个超平面。在机器学习中更典型的是：超平面是分隔高维度空间的边界。核支持向量机利用超平面将正类别和负类别区分开来（通常是在极高维度空间中）。

在TensorFlow中，用于将输入数据返回到Estimator的训练、评估或预测方法的函数。例如，训练输入函数会返回训练集中的一批特征和标签。

神经网络中的第一层（接收输入数据的层）。

与样本的含义相同。

模型的预测可解释的难易程度。深度模型通常不可解释，也就是说，很难对深度模型的不同层进行解释。相比之下，线性回归模型和宽度模型的可解释性通常要好得多。

模型的权重在训练期间的一次更新。迭代包含计算参数在单批次数据上的梯度损失。

k-means算法会挑选形心位置，以最大限度地减小每个样本与其最接近形心之间的距离的累积平方。

以下面的小狗高度与小狗宽度的关系图为例：

如果k=3，则k-means算法会确定三个形心。每个样本都被分配到与其最接近的形心，最终产生三个组：

假设制造商想要确定小、中和大号狗毛衣的理想尺寸。在该聚类中，三个形心用于标识每只狗的平均高度和平均宽度。因此，制造商可能应该根据这三个形心确定毛衣尺寸。请注意，聚类的形心通常不是聚类中的样本。

上图显示了k-means应用于仅具有两个特征（高度和宽度）的样本。请注意，k-means可以跨多个特征为样本分组。

请注意，距离的定义也有所不同：

一种分类算法，旨在通过将输入数据向量映射到更高维度的空间，来最大化正类别和负类别之间的裕度。以某个输入数据集包含一百个特征的分类问题为例。为了最大化正类别和负类别之间的裕度，KSVM可以在内部将这些特征映射到百万维度的空间。KSVM使用合页损失函数。

一种损失函数，基于模型预测的值与标签的实际值之差的绝对值。与L2损失函数相比，L1损失函数对离群值的敏感性弱一些。

请参阅平方损失函数。

一种正则化，根据权重的平方和来惩罚权重。L2正则化有助于使离群值（具有较大正值或较小负值）权重接近于0，但又不正好为0。（与L1正则化相对。）在线性模型中，L2正则化始终可以改进泛化。

在监督式学习中，标签指样本的“答案”或“结果”部分。有标签数据集中的每个样本都包含一个或多个特征以及一个标签。例如，在房屋数据集中，特征可能包括卧室数、卫生间数以及房龄，而标签则可能是房价。在垃圾邮件检测数据集中，特征可能包括主题行、发件人以及电子邮件本身，而标签则可能是“垃圾邮件”或“非垃圾邮件”。

包含特征和标签的样本。在监督式训练中，模型从有标签样本中学习规律。

与正则化率的含义相同。

神经网络中的一组神经元，负责处理一组输入特征，或一组神经元的输出。

此外还指TensorFlow中的抽象层。层是Python函数，以张量和配置选项作为输入，然后生成其他张量作为输出。当必要的张量组合起来后，用户便可以通过模型函数将结果转换为Estimator。

一种TensorFlowAPI，用于以层组合的方式构建深度神经网络。通过LayersAPI，您可以构建不同类型的层，例如：

在编写自定义Estimator时，您可以编写“层”对象来定义所有隐藏层的特征。

LayersAPI遵循KeraslayersAPI规范。也就是说，除了前缀不同以外，LayersAPI中的所有函数均与KeraslayersAPI中的对应函数具有相同的名称和签名。

在训练模型时用于梯度下降的一个标量。在每次迭代期间，梯度下降法都会将学习速率与梯度相乘。得出的乘积称为梯度步长。

学习速率是一个重要的超参数。

一种通过最小化L2损失训练出的线性回归模型。

一种回归模型，通过将输入特征进行线性组合输出连续值。

一种模型，通过将S型函数应用于线性预测，生成分类问题中每个可能的离散标签值的概率。虽然逻辑回归经常用于二元分类问题，但也可用于多类别分类问题（其叫法变为多类别逻辑回归或多项回归）。

分类模型生成的原始（非标准化）预测向量，通常会传递给标准化函数。如果模型要解决多类别分类问题，则对数通常变成softmax函数的输入。之后，softmax函数会生成一个（标准化）概率向量，对应于每个可能的类别。

此外，对数有时也称为S型函数的元素级反函数。如需了解详细信息，请参阅tf.nn.sigmoid_cross_entropy_with_logits。

二元逻辑回归中使用的损失函数。

某个事件几率的对数。

如果事件涉及二元概率，则几率指的是成功概率(p)与失败概率(1-p)之比。例如，假设某个给定事件的成功概率为90％，失败概率为10％。在这种情况下，几率的计算公式如下：

简单来说，对数几率即几率的对数。按照惯例，“对数”指自然对数，但对数的基数其实可以是任何大于1的数。若遵循惯例，上述示例的对数几率应为：

对数几率是S型函数的反函数。

一种衡量指标，用于衡量模型的预测偏离其标签的程度。或者更悲观地说是衡量模型有多差。要确定此值，模型必须定义损失函数。例如，线性回归模型通常将均方误差用作损失函数，而逻辑回归模型则使用对数损失函数。

每个样本的平均平方损失。MSE的计算方法是平方损失除以样本数。TensorFlowPlayground显示的“训练损失”值和“测试损失”值都是MSE。

您关心的一个数值。可能可以也可能不可以直接在机器学习系统中得到优化。您的系统尝试优化的指标称为目标。

一种用于评估模型的TensorFlowAPI。例如，tf.metrics.accuracy用于确定模型的预测与标签匹配的频率。在编写自定义Estimator时，您可以调用MetricsAPI函数来指定应如何评估您的模型。

从整批样本内随机选择并在训练或推断过程的一次迭代中一起运行的一小部分样本。小批次的批次大小通常介于10到1000之间。与基于完整的训练数据计算损失相比，基于小批次数据计算损失要高效得多。

一种采用小批次样本的梯度下降法。也就是说，小批次SGD会根据一小部分训练数据来估算梯度。VanillaSGD使用的小批次的大小为1。

机器学习的缩写。

Estimator中的函数，用于实现机器学习训练、评估和推断。例如，模型函数的训练部分可以处理以下任务：定义深度神经网络的拓扑并确定其优化器函数。如果使用预创建的Estimator，则有人已为您编写了模型函数。如果使用自定义Estimator，则必须自行编写模型函数。

有关编写模型函数的详细信息，请参阅创建自定义Estimator。

确定最佳模型的过程。

区分两种以上类别的分类问题。例如，枫树大约有128种，因此，确定枫树种类的模型就属于多类别模型。反之，仅将电子邮件分为两类（“垃圾邮件”和“非垃圾邮件”）的模型属于二元分类模型。

与多类别分类的含义相同。

模型中的一个数字在训练期间变成NaN，这会导致模型中的很多或所有其他数字最终也会变成NaN。

NaN是“非数字”的缩写。

在二元分类中，一种类别称为正类别，另一种类别称为负类别。正类别是我们要寻找的类别，负类别则是另一种可能性。例如，在医学检查中，负类别可以是“非肿瘤”。在电子邮件分类器中，负类别可以是“非垃圾邮件”。另请参阅正类别。

神经网络中的节点，通常会接收多个输入值并生成一个输出值。神经元通过将激活函数（非线性转换）应用于输入值的加权和来计算输出值。

多含义术语，可以理解为下列两种含义之一：

将实际的值区间转换为标准的值区间（通常为-1到+1或0到1）的过程。例如，假设某个特征的自然区间是800到6000。通过减法和除法运算，您可以将这些值标准化为位于-1到+1区间内。

另请参阅缩放。

用整数或实数表示的特征。例如，在房地产模型中，您可能会用数值数据表示房子大小（以平方英尺或平方米为单位）。如果用数值数据表示特征，则可以表明特征的值相互之间具有数学关系，并且与标签可能也有数学关系。例如，如果用数值数据表示房子大小，则可以表明面积为200平方米的房子是面积为100平方米的房子的两倍。此外，房子面积的平方米数可能与房价存在一定的数学关系。

并非所有整数数据都应表示成数值数据。例如，世界上某些地区的邮政编码是整数，但在模型中，不应将整数邮政编码表示成数值数据。这是因为邮政编码20000在效力上并不是邮政编码10000的两倍（或一半）。此外，虽然不同的邮政编码确实与不同的房地产价值有关，但我们也不能假设邮政编码为20000的房地产在价值上是邮政编码为10000的房地产的两倍。邮政编码应表示成分类数据。

数值特征有时称为连续特征。

一个开放源代码数学库，在Python中提供高效的数组操作。Pandas建立在Numpy之上。

算法尝试优化的指标。

生成一组预测，存储这些预测，然后根据需求检索这些预测。与在线推断相对。

一种稀疏向量，其中：

独热编码常用于表示拥有有限个可能值的字符串或标识符。例如，假设某个指定的植物学数据集记录了15000个不同的物种，其中每个物种都用独一无二的字符串标识符来表示。在特征工程过程中，您可能需要将这些字符串标识符编码为独热向量，向量的大小为15000。

一种机器学习方法，通常用于对象分类，旨在通过单个训练样本学习有效的分类器。

另请参阅少量样本学习。

假设某个分类问题有N种可能的解决方案，一对多解决方案将包含N个单独的二元分类器-一个二元分类器对应一种可能的结果。例如，假设某个模型用于区分样本属于动物、蔬菜还是矿物，一对多解决方案将提供下列三个单独的二元分类器：

根据需求生成预测。与离线推断相对。

TensorFlow图中的节点。在TensorFlow中，任何创建、操纵或销毁张量的过程都属于操作。例如，矩阵相乘就是一种操作，该操作以两个张量作为输入，并生成一个张量作为输出。

梯度下降法的一种具体实现。TensorFlow的优化器基类是tf.train.Optimizer。不同的优化器可能会利用以下一个或多个概念来增强梯度下降法在指定训练集中的效果：

甚至还包括NN驱动的优化器。

与大多数其他值差别很大的值。在机器学习中，下列所有值都是离群值。

离群值常常会导致模型训练出现问题。

神经网络的“最后”一层，也是包含答案的层。

创建的模型与训练数据过于匹配，以致于模型无法根据新数据做出正确的预测。

面向列的数据分析API。很多机器学习框架（包括TensorFlow）都支持将Pandas数据结构作为输入。请参阅Pandas文档。

机器学习系统自行训练的模型的变量。例如，权重就是一种参数，它们的值是机器学习系统通过连续的训练迭代逐渐学习到的。与超参数相对。

一种作业，负责在分布式设置中跟踪模型参数。

在训练期间（通常是在梯度下降法的单次迭代中）调整模型参数的操作。

在参数服务器间分割变量的算法。

多含义术语，具有以下含义：

一种衡量指标，用于衡量模型能够多好地完成任务。例如，假设任务是读取用户使用智能手机键盘输入字词时输入的前几个字母，然后列出一组可能的完整字词。此任务的困惑度(P)是：为了使列出的字词中包含用户尝试输入的实际字词，您需要提供的猜测项的个数。

困惑度与交叉熵的关系如下：

机器学习算法的基础架构。流水线包括收集数据、将数据放入训练数据文件、训练一个或多个模型，以及将模型导出到生产环境。

将一个或多个由前趋的卷积层创建的矩阵压缩为较小的矩阵。池化通常是取整个池化区域的最大值或平均值。以下面的3x3矩阵为例：

池化运算与卷积运算类似：将矩阵分割为多个切片，然后按步长逐个运行卷积运算。例如，假设池化运算按1x1步长将卷积矩阵分割为2x2个切片。如下图所示，进行了四个池化运算。假设每个池化运算都选择该切片中四个值的最大值：

池化有助于在输入矩阵中实现平移不变性。

与负类别相对。

一种分类模型指标。精确率指模型正确预测正类别的频率，即：

精确率正例数正例数假正例数

模型在收到输入样本后的输出。

一种值，用于表明预测平均值与数据集中标签的平均值相差有多大。

其他人已建好的Estimator。TensorFlow提供了一些预创建的Estimator，包括DNNClassifier、DNNRegressor和LinearClassifier。您可以按照这些说明构建自己预创建的Estimator。

已经过训练的模型或模型组件（例如嵌套）。有时，您需要将预训练的嵌套馈送到神经网络。在其他时候，您的模型将自行训练嵌套，而不依赖于预训练的嵌套。

在开始采用相应数据进行训练之前，您对这些数据抱有的信念。例如，L2正则化依赖的先验信念是权重应该很小且应以0为中心呈正态分布。

一种TensorFlow操作，用于实现队列数据结构。通常用于I/O中。

机器学习中的一个多含义术语，可以理解为下列含义之一：

为样本提供标签的人。有时称为“注释者”。

一种分类模型指标，用于回答以下问题：在所有可能的正类别标签中，模型正确地识别出了多少个？即：

一种激活函数，其规则如下：

一种模型，能够输出连续的值（通常为浮点值）。请与分类模型进行比较，分类模型会输出离散值，例如“黄花菜”或“虎皮百合”。

对模型复杂度的惩罚。正则化有助于防止出现过拟合，包含以下类型：

一种标量值，以lambda表示，用于指定正则化函数的相对重要性。从下面简化的损失公式中可以看出正则化率的影响：

最小化损失方程正则化方程

提高正则化率可以减少过拟合，但可能会使模型的准确率降低。

将数据映射到实用特征的过程。

不同分类阈值下的正例率和假正例率构成的曲线。另请参阅曲线下面积。

您指定的目录，用于托管多个模型的TensorFlow检查点和事件文件的子目录。

均方误差的平方根。

在图像分类问题中，即使图像的方向发生变化，算法也能成功地对图像进行分类。例如，无论网球拍朝上、侧向还是朝下放置，该算法仍然可以识别它。请注意，并非总是希望旋转不变；例如，倒置的“9”不应分类为“9”。

另请参阅平移不变性和大小不变性。

保存和恢复TensorFlow模型时建议使用的格式。SavedModel是一种独立于语言且可恢复的序列化格式，使较高级别的系统和工具可以创建、使用和转换TensorFlow模型。

如需完整的详细信息，请参阅《TensorFlow编程人员指南》中的保存和恢复。

一种TensorFlow对象，负责保存模型检查点。

特征工程中的一种常用做法，是指对某个特征的值区间进行调整，使之与数据集中其他特征的值区间一致。例如，假设您希望数据集中所有浮点特征的值都位于0到1区间内，如果某个特征的值位于0到500区间内，您就可以通过将每个值除以500来缩放该特征。

另请参阅标准化。

训练模型时采用的数据中，某些训练样本有标签，而其他样本则没有标签。半监督式学习采用的一种技术是推断无标签样本的标签，然后使用推断出的标签进行训练，以创建新模型。如果获得有标签样本需要高昂的成本，而无标签样本则有很多，那么半监督式学习将非常有用。

一种模型，其输入具有序列依赖性。例如，根据之前观看过的一系列视频对观看的下一个视频进行预测。

封装了TensorFlow运行时状态的对象，用于运行全部或部分图。在使用底层TensorFlowAPI时，您可以直接创建并管理一个或多个tf.session对象。在使用EstimatorAPI时，Estimator会为您创建会话对象。

一种函数，可将逻辑回归输出或多项回归输出（对数几率）映射到概率，以返回介于0到1之间的值。S型函数的公式如下：

在逻辑回归问题中，非常简单：

换句话说，S型函数可将转换为介于0到1之间的概率。

在某些神经网络中，S型函数可作为激活函数使用。

在图像分类问题中，即使图像的大小发生变化，算法也能成功地对图像进行分类。例如，无论一只猫以200万像素还是20万像素呈现，该算法仍然可以识别它。请注意，即使是最好的图像分类算法，在大小不变性方面仍然会存在切实的限制。例如，对于仅以20像素呈现的猫图像，算法（或人）不可能正确对其进行分类。

另请参阅平移不变性和旋转不变性。

一种函数，可提供多类别分类模型中每个可能类别的概率。这些概率的总和正好为1.0。例如，softmax可能会得出某个图像是狗、猫和马的概率分别是0.9、0.08和0.02。（也称为完整softmax。）

与候选采样相对。

一种特征向量，其中的大多数值都为0或为空。例如，某个向量包含一个为1的值和一百万个为0的值，则该向量就属于稀疏向量。再举一个例子，搜索查询中的单词也可能属于稀疏特征-在某种指定语言中有很多可能的单词，但在某个指定的查询中仅包含其中几个。

与密集特征相对。

一种张量表示法，仅存储非零元素。

例如，英语中包含约一百万个单词。表示一个英语句子中所用单词的数量，考虑以下两种方式：

例如，假设以两种方式来表示句子“Dogswagtails.”。如下表所示，密集表示法将使用约一百万个单元格；稀疏表示法则只使用3个单元格：

向量或矩阵中设置为0（或空）的元素数除以该向量或矩阵中的条目总数。以一个10x10矩阵（其中98个单元格都包含0）为例。稀疏性的计算方法如下：

特征稀疏性是指特征向量的稀疏性；模型稀疏性是指模型权重的稀疏性。

请参阅池化。

合页损失函数的平方。与常规合页损失函数相比，平方合页损失函数对离群值的惩罚更严厉。

在线性回归中使用的损失函数（也称为L2损失函数）。该函数可计算模型为有标签样本预测的值和标签的实际值之差的平方。由于取平方值，因此该损失函数会放大不佳预测的影响。也就是说，与L1损失函数相比，平方损失函数对离群值的反应更强烈。

离线训练的一种模型。

对一个批次的向前和向后评估。

与学习速率的含义相同。

批次大小为1的一种梯度下降法。换句话说，SGD依赖于从数据集中随机均匀选择的单个样本来计算每步的梯度估算值。

一种算法，用于平衡以下两个目标：

例如，旨在将基于训练集的损失和正则化降至最低的函数就是一种结构风险最小化算法。

与经验风险最小化相对。

在卷积运算或池化中，下一个系列的输入切片的每个维度中的增量。例如，下面的动画演示了卷积运算过程中的一个(1,1)步长。因此，下一个输入切片是从上一个输入切片向右移动一个步长的位置开始。当运算到达右侧边缘时，下一个切片将回到最左边，但是下移一个位置。

前面的示例演示了一个二维步长。如果输入矩阵为三维，那么步长也将是三维。

在TensorFlow中的某一步计算出的一个值或一组值，通常用于在训练期间跟踪模型指标。

根据输入数据及其对应的标签来训练模型。监督式机器学习类似于学生通过研究一系列问题及其对应的答案来学习某个主题。在掌握了问题和答案之间的对应关系后，学生便可以回答关于同一主题的新问题（以前从未见过的问题）。请与非监督式机器学习进行比较。

一种特征，不在输入特征之列，而是从一个或多个输入特征衍生而来。合成特征包括以下类型：

仅通过标准化或缩放创建的特征不属于合成特征。

与标签的含义相同。

TensorFlow程序中的主要数据结构。张量是N维（其中N可能非常大）数据结构，最常见的是标量、向量或矩阵。张量的元素可以包含整数值、浮点值或字符串值。

一种ASIC（应用专用集成电路），用于优化TensorFlow程序的性能。

请参阅等级。

张量在各种维度中包含的元素数。例如，张量[5,10]在一个维度中的形状为5，在另一个维度中的形状为10。

张量包含的标量总数。例如，张量[5,10]的大小为50。

一个信息中心，用于显示在执行一个或多个TensorFlow程序期间保存的摘要信息。

一个大型的分布式机器学习平台。该术语还指TensorFlow堆栈中的基本API层，该层支持对数据流图进行一般计算。

虽然TensorFlow主要应用于机器学习领域，但也可用于需要使用数据流图进行数值计算的非机器学习任务。

一个平台，用于将训练过的模型部署到生产环境。

数据集的子集，用于在模型经由验证集的初步验证之后测试模型。

与训练集和验证集相对。

一种标准协议缓冲区，旨在描述用于机器学习模型训练或推断的输入数据。

确定构成模型的理想参数的过程。

数据集的子集，用于训练模型。

与验证集和测试集相对。

将信息从一个机器学习任务迁移到另一个机器学习任务。例如，在多任务学习中，一个模型可以完成多项任务，例如针对不同任务具有不同输出节点的深度模型。迁移学习可能涉及将知识从较简单任务的解决方案迁移到较复杂的任务，或者将知识从数据较多的任务迁移到数据较少的任务。

大多数机器学习系统都只能完成一项任务。迁移学习是迈向人工智能的一小步；在人工智能中，单个程序可以完成多项任务。

在图像分类问题中，即使图像中对象的位置发生变化，算法也能成功对图像进行分类。例如，无论一只狗位于画面正中央还是画面左侧，该算法仍然可以识别它。

另请参阅大小不变性和旋转不变性。

被模型正确地预测为负类别的样本。例如，模型推断出某封电子邮件不是垃圾邮件，而该电子邮件确实不是垃圾邮件。

被模型正确地预测为正类别的样本。例如，模型推断出某封电子邮件是垃圾邮件，而该电子邮件确实是垃圾邮件。

与召回率的含义相同，即：

正例率正例数正例数假负例数，正例率是ROC曲线的y轴。

包含特征但没有标签的样本。无标签样本是用于进行推断的输入内容。在半监督式和非监督式学习中，在训练期间会使用无标签样本。

训练模型，以找出数据集（通常是无标签数据集）中的规律。

非监督式机器学习的另一个例子是主成分分析(PCA)。例如，通过对包含数百万购物车中物品的数据集进行主成分分析，可能会发现有柠檬的购物车中往往也有抗酸药。

请与监督式机器学习进行比较。

数据集的一个子集，从训练集分离而来，用于调整超参数。

与训练集和测试集相对。

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为0，则相应的特征对模型来说没有任何贡献。

一种线性模型，通常有很多稀疏输入特征。我们之所以称之为“宽度模型”，是因为这是一种特殊类型的神经网络，其大量输入均直接与输出节点相连。与深度模型相比，宽度模型通常更易于调试和检查。虽然宽度模型无法通过隐藏层来表示非线性关系，但可以利用特征组合、分桶等转换以不同的方式为非线性关系建模。

THE END

入门机器学习常用术语超全汇总

图解72个机器学习基础知识点算法聚类拟合神经网络人工智能技术

监督学习有哪些常见算法？都是如何应用的人工智能

机器学习术语表：机器学习基础知识 MachineLearning GoogleforDevelopers

入门机器学习常用术语超全汇总

基于Flink的机器学习算法平台Alink（二）推荐算法介绍

在线学习和离线学习淼淼兮予怀

多选题以下哪些是机器学习的监督学习算法？哪个A.聚类B.回归C.时

在线招聘详情

商务数据分析（第4次开课）大学慕课

TensorFlow机器学习常用算法解析和入门

在线学习(OnlineLearning)算法

学习软件免费推荐学习软件免费有哪些

社会公共利益范文