返回列表

3th place solution - I CAn'T believe I won

351. Categorical Feature Encoding Challenge | cat-in-the-dat

开始: 2019-08-23 结束: 2019-12-09 数据算法赛
第三名方案 - 我不敢相信我赢了

第三名方案 - 我不敢相信我赢了

作者: Chung-Hsien Tsai | 比赛排名: 第3名

模型

逻辑回归

参数设置:C=0.095, class_weight={0: 1, 1: 1.4}, tol=0.00001, solver='liblinear', penalty='l2'

编码

  • 二分类特征: 0 和 1
  • 名义特征, 月份 和 日期: 独热编码
  • 有序特征: 序号编码

未见值处理 (仅针对 nom_7, nom_8 和 nom_9)

在训练集和测试集中均未找到的特征将被归为一类,称为“other”(其他)。

对于 nom_9,存在许多稀疏特征(特征计数很小)。为了防止过拟合,我们也将这些稀疏特征归入上述的“other”类中。

nom_9 中计数小于 3 的特征(这是一个需要调整的参数)将被视为稀疏特征。

同比赛其他方案