1. 决策树
信息熵
信息增益
信息增益率
基尼指数
剪枝
连续值处理
缺失值处理
2. 随机森林
自助采样
简单投票
包外估计
随机属性
3. 提升树
4. 梯度提升树
5. GBDT
6. XGBboost
7. GBDT、XGBoost对比
XGBoost 是 GBDT的工程实现
XGBoost 加入正则项控制模型复杂度
XGBoost 使用泰勒二阶展开,梯度下降更快更准
XGBoost 支持多种基分类器
XGBoost 采用随机森林相似策略,对训练数据进行列抽样
XGBoost 自动学习缺失值的处理
XGBoost 缩减 Shringe,类似学习率,削弱每棵树的影响
XGBoost 特征粒度的并行化,特征预排序,保存为block,寻找最佳分割点
8. LGB特点
- 直方图寻找特征分裂点
- leaf-wise 对比 XGBoost level-wise 容易长出较深的决策树,加入最大深度限制