机器学习 — 周志华西瓜树

周志华老师亲讲-西瓜书《机器学习》

手推笔记
https://github.com/Sophia-11/Machine-Learning-Notes

基础概念 #

真相(Ground Truth):在机器学习和数据科学中,“真相"指的是实际情况或数据的真实状态。这通常是指标准答案或一个已知的事实,用于训练和验证机器学习模型。例如,在图像识别任务中,标记图像中对象的正确标签就是"真相”。

假设(Hypothesis):在机器学习中,“假设"通常指的是模型对于数据的一种解释或预测。例如,在监督学习中,基于训练数据训练出的模型就是对如何从输入数据到输出标签的映射关系的一种假设。

学习器(leaner):学到的模型,用来描述任何能够从数据中学习并做出预测或决策的系统。

正例和反例 #

在机器学习和统计分类中,“正例”(Positive Instance)和"反例”(Negative Instance)是两个基本概念,用于描述数据集中的不同类型的实例或观测值。

  1. 正例(Positive Instance)

    • 正例指的是那些标签或结果是积极、目标或感兴趣类别的实例。例如,在垃圾邮件检测系统中,所有实际为垃圾邮件的邮件都被视为正例。
    • 在医学测试中,如果测试旨在检测某种疾病的存在,那么所有测试结果显示疾病存在的病例被视为正例。
  2. 反例(Negative Instance)

    • 反例是指那些标签或结果是消极、非目标或非感兴趣类别的实例。在垃圾邮件检测系统的例子中,所有非垃圾邮件的邮件都被视为反例。
    • 在同样的医学测试例子中,所有测试结果显示没有疾病的病例被视为反例。

这些术语在二分类问题中特别常见,其中每个实例只能被归类为两个类别之一:正类或负类。正确识别正例和反例对于模型的性能评估至关重要,它影响着诸如准确率、召回率、精确率以及F1分数等评价指标。

值得注意的是,“正例"和"反例"的定义完全取决于分类任务的上下文和目标。在不同的问题中,同一类型的实例可能被视为正例,也可能被视为反例。例如,如果我们的目标是识别出非垃圾邮件,则非垃圾邮件将成为正例,而垃圾邮件则成为反例。

在机器学习和统计分类中,除了正例和反例,还有“真正例”、“假正例”、“真反例”和“假反例”这些概念,它们用于描述分类模型的预测结果与实际情况的对应关系。

真正例(True Positive, TP),假正例(False Positive, FP),真反例(True Negative, TN),和假反例(False Negative, FN)之间的区别如下所示:

真实情况 \ 预测结果预测为正例预测为反例
实际为正例真正例 (TP)假反例 (FN)
实际为反例假正例 (FP)真反例 (TN)

在这个表格中:

  • 真正例 (TP):表示模型正确地将正例预测为正例。
  • 假反例 (FN):表示模型错误地将正例预测为反例。
  • 假正例 (FP):表示模型错误地将反例预测为正例。
  • 真反例 (TN):表示模型正确地将反例预测为反例。

PR 曲线和 ROC 曲线 #

均方误差 (MSE) #

  1. 定义:均方误差(Mean Squared Error, MSE)是预测值与真实值差异的平方和的平均值。如果有 $n$ 个观测值,预测值是 $\hat{y}_i$,实际值是 $y_i$,则 MSE 计算公式为:

$$ \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i)^2 $$

  1. 用途:MSE 是评估回归模型性能的常用指标,用于衡量预测值与实际值之间的平均误差大小。

最小二乘法 #

  1. 定义:最小二乘法是一种优化技术,用于寻找最佳函数匹配,以便最小化观测值和理论值之间的平方差总和。

  2. 应用:在线性回归中,最小二乘法用于找到系数,以使得模型的预测值与实际观测值之间的均方误差最小。

均方误差和最小二乘法的关系 #

  • 优化目标:最小二乘法的优化目标是最小化 MSE。在线性回归等回归问题中,通过调整模型参数使得 MSE 达到最小,即是应用最小二乘法的过程。

  • 计算过程:在执行最小二乘法时,实际上是在计算使得 MSE 最小的参数。这是通过求解正规方程或使用梯度下降等优化算法来完成的。

因此,可以说,均方误差是衡量回归问题中预测准确性的标准,而最小二乘法是一种实现这一标准的优化方法。

本文共 1610 字,上次修改于 Feb 16, 2024
相关标签: 机器学习, 数学, 读书笔记