GBDT+LR模型简介

简而言之，GBDT+LR是特征工程模型化的开端。

此时的GBDT，不是用来做预测，而是基于原始特征生成新的特征。

LR模型简单，能够处理海量的数据，但是依赖于人工做特征工程。

GBDT是由多颗回归树组成的树模型，后一棵树将前面树模型预测的结果与真实结果的残差为拟合目标。每棵树生成的过程是一颗标准的回归树生成过程，因此回归树中每个节点的分裂是一个自然的特征选择过程，而多层节点的结构则对特征进行了有效的自动组合，也就非常高效地解决了特征选择和特征组合的问题。

因此，使用GBDT对训练数据进行特征选择与特征组合，然后将其结果作为特征加入到训练数据，再使用LR模型进行预测。

GBDT生成特征过程

GBDT特征选择

$x$ ，经过决策树的映射：

将上述的one-hot编码进行合并，可得向量：[0,0,1,0,1,0,0,0,0,0,0,1]，定义该向量为gbdt_feat。此过程也可以理解为使用GBDT模型对数据进行了Embedding。

$x\_{new} = \mathrm{concat}(x, gbdt\_feat)$

$x\_{new}$ 作为特征数据，使用LR模型进行训练即可。

$data$ ，下面详细说明如何基于GBDT+LR进行模型训练。