随机森林:bagging思想,可以并行,训练集权值相同
可以是分类树,回归树
输出结果(分类树):多数投票 (回归树):均值
减少方差
对异常数据不敏感
GBDT:拟合损失函数
boosting思想,只能串行,训练集权值不同
以CART为基学习器
只能是回归树
输出结果:所有结果的累加或是加权累加
减少偏差
对异常数据敏感
boosting tree: 减少上一次的残差
将预测结果的差值作为新的训练数据
损失函数为平方损失或者指数损失
gradient boosting:消除残差,在残差减少的梯度方向上建立新模型
将预测结果带入梯度中求出新的训练数据
各类损失函数
GBDT分类:指数损失函数,此时GBDT退化为Adaboost算法
对数似然损失函数,类别的预测概率值和真实概率值的差来拟合损失
GBDT回归:均方差损失函数
绝对损失
Huber损失
分位数损失
GBDT正则化:增加步长
采样比例