机器学习重要术语 – 清风亦平凡

准确性

在分类中，准确性是正确分类的项数目除以测试集内的项总数。范围从 0（最不准确）到 1（最准确）。准确性是模型性能的评估指标之一。将其与精度、撤回和 F 分数结合考虑。

曲线下面积 (AUC)

二元分类中的一项评估指标，即曲线下面积值，它绘制真阳性率（y 轴）与误报率（x 轴）进行对照。范围从 0.5（最差）到 1（最佳）。也称为 ROC 曲线下面积，即，接受者操作特征曲线。

二元分类

一个分类事例，其中标签仅为两个类中的一个。

分类

当使用这些数据来预测某一类别，监管式机器学习任务被称为“分类”。二元分类指的是仅预测两个类别（例如，将图像划分为“猫”或“狗”图片）。多类分类指的是预测多个类别（例如，当将图像划分为特定品种狗的图片）。

决定系数

回归中的一项评估指标，表明数据与模型的匹配程度。范围从 0 到 1。值 0 表示数据是随机的，否则就无法与模型相匹配。值 1 表示模型与数据完全匹配。这通常称为 2、R2 或 r 平方值。

功能

正在对其进行度量的现象的一个可度量属性，通常是一个数（双精度）值。多个特征被称为“特征向量”且通常存储为 double[]。这些特征定义所度量现象的重要特性。

特征工程

特征工程是涉及定义一组特征和开发软件以从可用现象数据中生成特征向量（即特征提取）的过程。

F 分数

分类中的一项评估指标，它平衡精度和撤回。

超参数

机器学习算法的参数。示例包括在决策林中学习的树的数量，或者梯度下降算法中的步长。在对模型进行定型之前，先设置超参数的值，并控制查找预测函数参数的过程，例如，决策树中的比较点或线性回归模型中的权重。

Label

使用机器学习模型进行预测的元素。例如，狗的品种或将来的股票价格。

对数损失

在分类中，描述分类器准确性的评估指标。对数损失越小，分类器越准确。

平均绝对误差 (MAE)

回归中的一项评估指标，即所有模型误差的平均值，其中模型误差是预测标签值和正确标签值之间的差距。

模型

就传统意义而言，它是预测函数的参数。例如，线性回归模型中的权重或决策树中的拆分点。

多类分类

一个分类事例，其中标签是三个或更多类中的一个。

N 元语法

文本数据的特征提取方案：N 个单词的任何序列都将转变为特征值。

数字特征向量

只包含数值的特征向量。这与 double[] 非常类似。

管道

要将模型与数据集相匹配所需的所有操作。管道由数据导入、转换、特征化和学习步骤组成。对管道进行定型后，它会转变为模型。

精度

在分类中，类的精度是正确预测为属于该类的项目的数量，除以预测为属于该类的项目的总数。

撤回

在分类中，类的撤回是正确预测为属于该类的项目的数量，除以实际属于该类的项目的总数。

回归测试

监管式机器学习任务，其中输出是一个实际值，例如，双精度值。示例包括预测股票价格。

相对绝对误差

回归中的一项评估指标，即所有绝对误差总和除以正确标签值和所有正确标签值的平均值之间的差值总和。

相对平方误差

回归中的一项评估指标，即所有绝对平方误差总和除以正确标签值和所有正确标签值的平均值之间的平方差值总和。

均方误差根 (RMSE)

回归中的一项评估指标，即误差平方平均值的平方根。

监管式机器学习

机器学习的一个子类，其中所需的模型预测尚不可见的数据标签。示例包括分类、回归以及结构化预测。

训练

识别给定定型数据集模型的过程。对于线性模型，这意味着查找权重。有关树信息，这涉及到标识拆分点。

Transform

转换数据的管道组件。例如，从文本到数字向量。

非监管式机器学习

机器学习的子类，其中所需的模型查找数据中的隐藏（或潜在）结构。示例包括聚类分析、主题建模和维数约简。

转载请注明：清风亦平凡 » 机器学习重要术语

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

准确性