机器学习 - 第三讲作业

分析 SVM 对噪声敏感的原因。(举例说明) ljmao@std,uestc.edu.cn

SVM 对噪声敏感的原因

SVM 是通过最大化两类样本间的几何间隔来学习分类模型。

SVM 对噪声敏感的主要原因

SVM 算法在训练过程中,对于噪声数据点赋予了较大的影响权重。(训练数据中存在噪声点,它们很可能成为支持向量,从而导致分类超平面的显著偏移)

二维例子

考虑一个线性可分的二维数据集,大部分样本遵循一定分布规律,但也存在一些离群的噪声数据点。

  1. 由于 SVM 学习的决策边界完全由支持向量确定,而支持向量正是那些离分类超平面最近的几个训练样本。

  2. 对于那些离群的噪声点,它们离理想的分类超平面通常会更近,因此很容易被选为支持向量。

  3. 一旦将噪声点确定为支持向量,它们对最终学习的决策边界的位置和方向影响就变得极为关键,从而使 SVM 对噪声点非常敏感。

  4. 这种噪声敏感性在高维情况下会更加明显,因为高维空间下,outlier 出现的可能性会更大。