370. Categorical Feature Encoding Challenge II | cat-in-the-dat-ii
恭喜所有参与这场精彩且充满挑战的表格数据竞赛的选手!感谢 Kaggle 组织这次比赛。
我的解决方案非常简单,神经网络(NN)发挥了关键作用。类别特征,尤其是高基数特征,非常适合神经网络发挥其威力。
使用了 4 个神经网络模型,1 个 Catboost 模型,并融合了一些公开的 Kernel。所有的神经网络模型都基于相同的特征,其中一个模型在公开排行榜上得分 0.78672。感谢 @sergey 和 @siavash 分享的公开 Kernel,我在融合中使用了它们。
就是这样。我也尝试过使用各种其他方法来处理特征,但它们都导致了过拟合。
神经网络使用了多种用于 CTR 预测的最先进模型,包括 xDeepFM 中的 CIN、PNN、DCN 中的 Cross、AutoInt 等。
表格数据特征提取有许多可用的组件,它们可以通过多种方式组合。每次都从头开始编码尝试是一项巨大的工作量。Deeptables 仅用几行代码就极大地简化了这项工作。