其中,Y为输出变量,X为输入变量,L为损失函数.N为输入样本量,M为可能的类别数,yijy_{ij}yij是一个二值指标,表示类别j是否是输入实例xi的真实类别.pijp_{ij}pij为模型或分类器预测输入实例xi属于类别j的概率.
例如AdaBoost就是以指数损失函数为损失函数。
上式相似于下式
下面介绍能结合两种方法优点的小批量梯度下降法。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-63wl3g3F-1628138740229)(img/ch2/2.29/1.png)]
左图和右图是两种不同的投影方式。
假设高维空间数据由nnn维空间的数据通过映射\phi产生。
对于Noise:
红线为测试集上的Error,蓝线为训练集上的Error
第一种混淆矩阵:
第二种混淆矩阵:
Cost10Cost_{10}Cost10:表示实际为反例但预测成正例的代价。
Cost01Cost_{01}Cost01:表示实际为正例但是预测为反例的代价。
1、扩大数据集
2、对大类数据欠采样
3、对小类数据过采样
4、使用新评价指标
5、选择新算法
6、数据代价加权
7、转化问题思考角度
8、将问题细化分析
2、决策树算法可以用于小数据集。
5、能够处理多输出的问题。
6、对缺失值不敏感。
1、对连续性的字段比较难预测。
2、容易出现过拟合。
4、在处理特征关联性比较强的数据时表现得不是太好。
剪枝处理是决策树学习算法用来解决过拟合问题的一种办法。
THE END