机器学习 - 第二讲作业
试分析线性分类器的适用范围。如何设计一个线性分类器使其能在非线性分类问题上发挥有效分类。
作业命名: 机器学习作业 - 第 x 章 - 姓名 - 学号
线性分类器的适用范围
线性分类器本质上是在特征空间中寻找一个最优超平面,将不同类别的样本尽可能分开。其数学表示为:
其中 是权重向量, 是偏置项。分类面则由 这个超平面确定。
线性分类器的适用范围
线性分类器在以下数据分布时表现最优:
- 样本在特征空间中呈线性可分分布
- 样本遵循高斯分布且不同类别均值差别显著
提高线性分类器在非线性问题上的分类能力
(1) 特征工程
通过手工设计或者自动搜索的方式,构造一些非线性特征组合,使原本非线性可分的数据映射到一个更高维的线性可分空间。
如通过多项式、指数、三角函数等基函数组合原始特征,构造新的高阶或交叉特征。
(2) 核技巧
利用核函数在原始空间中等效地进行内积运算,从而在再生核希尔伯特空间中实现非线性分类。
常见的核函数有多项式核、高斯核 (RBF)、拉普拉斯核等。
(3) 切线分类面
将复杂的非线性决策边界 locally 近似为一系列的切线,利用多个线性分类器的加权组合来拟合整个非线性边界。
(4) 多层感知机
多层神经网络具有通用的非线性逼近能力,可以逼近任意的连续函数。在输入层和输出层之间引入一个或多个隐含层,并通过反向传播算法进行训练,就可以得到强大的非线性分类器。