点击率预估

读入数据

字段说明:

特征加工

缺失值填充

数值特征 - 归一化

类别特征 - one-hot编码

把训练集和测试集分开

划分数据集

Logistic

特征加工

模型训练

GBDT

特征加工

训练模型

GBDT + LR

训练GBDT

获取数据

训练GBDT

获取样本在每棵树上的索引

生成gbdt特征的名字

有多少颗树,就有多少个特征

生成gbdt特征

将gbdt特征合并到原训练集

训练LR

对gbdt特征做one-hot编码

划分训练集和测试集

训练LR模型