返回列表

4th place solution

351. Categorical Feature Encoding Challenge | cat-in-the-dat

开始: 2019-08-23 结束: 2019-12-09 数据算法赛
第4名方案

第4名方案

作者:Ilya Plemian | 排名:第4名

使用逻辑回归模型,各列的编码方式如下:

  1. 二值特征:线性变换至 [-1, 1] 区间。
  2. 名义特征:将训练集和测试集中出现的唯一值合并为单一值,然后进行独热编码转换为稀疏矩阵(这两个思路均参考了公开的 Kernel)。
  3. 有序特征:使用 sklearn.preprocessing.MinMaxScaler((-1, 1)) 转换至 [-1, 1] 区间。
  4. 周期特征:进行独热编码。观察发现“天”的回归系数呈现对称性,因此尝试对 abs(day-4) 而不是 day 进行独热编码。

优化器使用的是 sklearn.linear_model.LogisticRegression(solver='lbfgs', C=.121)。

大部分时间都花在尝试对“天”和“月”进行不同的编码上,希望能挖掘出这些列的周期性特征。

同比赛其他方案