机器学习 - 第三讲作业
分析 SVM 对噪声敏感的原因。(举例说明) ljmao@std,uestc.edu.cn
SVM 对噪声敏感的原因
SVM 是通过最大化两类样本间的几何间隔来学习分类模型。
SVM 对噪声敏感的主要原因
SVM 算法在训练过程中,对于噪声数据点赋予了较大的影响权重。(训练数据中存在噪声点,它们很可能成为支持向量,从而导致分类超平面的显著偏移)
二维例子
考虑一个线性可分的二维数据集,大部分样本遵循一定分布规律,但也存在一些离群的噪声数据点。
-
由于 SVM 学习的决策边界完全由支持向量确定,而支持向量正是那些离分类超平面最近的几个训练样本。
-
对于那些离群的噪声点,它们离理想的分类超平面通常会更近,因此很容易被选为支持向量。
-
一旦将噪声点确定为支持向量,它们对最终学习的决策边界的位置和方向影响就变得极为关键,从而使 SVM 对噪声点非常敏感。
-
这种噪声敏感性在高维情况下会更加明显,因为高维空间下,outlier 出现的可能性会更大。