周志华西瓜书

基础概念 #

真相（Ground Truth）：在机器学习和数据科学中，“真相"指的是实际情况或数据的真实状态。这通常是指标准答案或一个已知的事实，用于训练和验证机器学习模型。例如，在图像识别任务中，标记图像中对象的正确标签就是"真相”。

假设（Hypothesis）：在机器学习中，“假设"通常指的是模型对于数据的一种解释或预测。例如，在监督学习中，基于训练数据训练出的模型就是对如何从输入数据到输出标签的映射关系的一种假设。

学习器（leaner）：学到的模型，用来描述任何能够从数据中学习并做出预测或决策的系统。

在机器学习和统计分类中，“正例”（Positive Instance）和"反例”（Negative Instance）是两个基本概念，用于描述数据集中的不同类型的实例或观测值。

正例（Positive Instance）：
- 正例指的是那些标签或结果是积极、目标或感兴趣类别的实例。例如，在垃圾邮件检测系统中，所有实际为垃圾邮件的邮件都被视为正例。
- 在医学测试中，如果测试旨在检测某种疾病的存在，那么所有测试结果显示疾病存在的病例被视为正例。
反例（Negative Instance）：
- 反例是指那些标签或结果是消极、非目标或非感兴趣类别的实例。在垃圾邮件检测系统的例子中，所有非垃圾邮件的邮件都被视为反例。
- 在同样的医学测试例子中，所有测试结果显示没有疾病的病例被视为反例。

这些术语在二分类问题中特别常见，其中每个实例只能被归类为两个类别之一：正类或负类。正确识别正例和反例对于模型的性能评估至关重要，它影响着诸如准确率、召回率、精确率以及F1分数等评价指标。

值得注意的是，“正例"和"反例"的定义完全取决于分类任务的上下文和目标。在不同的问题中，同一类型的实例可能被视为正例，也可能被视为反例。例如，如果我们的目标是识别出非垃圾邮件，则非垃圾邮件将成为正例，而垃圾邮件则成为反例。

在机器学习和统计分类中，除了正例和反例，还有“真正例”、“假正例”、“真反例”和“假反例”这些概念，它们用于描述分类模型的预测结果与实际情况的对应关系。

真正例（True Positive, TP），假正例（False Positive, FP），真反例（True Negative, TN），和假反例（False Negative, FN）之间的区别如下所示：

真实情况 \ 预测结果	预测为正例	预测为反例
实际为正例	真正例 (TP)	假反例 (FN)
实际为反例	假正例 (FP)	真反例 (TN)

在这个表格中：

定义：均方误差（Mean Squared Error, MSE）是预测值与真实值差异的平方和的平均值。如果有 $n$ 个观测值，预测值是 $\hat{y}_i$，实际值是 $y_i$，则 MSE 计算公式为：

$$ \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i)^2 $$

因此，可以说，均方误差是衡量回归问题中预测准确性的标准，而最小二乘法是一种实现这一标准的优化方法。