返回列表

26th Place Solution / Source Code

407. Mechanisms of Action (MoA) Prediction | lish-moa

开始: 2020-09-03 结束: 2020-11-30 药物研发 数据算法赛
第26名解决方案 / 源代码

第26名解决方案 / 源代码

作者:Kazumitsu Sakurai | 比赛排名:第26名

我要感谢哈佛大学创新科学实验室、Kaggle 团队以及所有给了我很多启发的参赛者。

源代码

分数

最终提交分数:

  • Private: 0.01608
  • Public: 0.01820
  • CV: 0.01550 (不含 ctl_vehicle)

总结

去噪自动编码器

我使用了普通的去噪自动编码器来代替交换方法,并将其与原始特征连接起来。这将公开测试分数从 0.01842 提高到了 0.01834,但 CV 分数并没有提升。

加权损失

我使用了加权损失,对训练数据中出现次数很少的目标赋予更高的权重(我使用了 40)。这显著提高了 CV 分数(约 -0.0003),但公开测试分数并未提升。为了避免对训练数据过拟合,我混合了加权损失模型和非加权损失模型。

模型融合

我采用了简单的加权平均法,融合了以下模型:

  • 2 层隐藏层神经网络(7 个种子,7 折 OOF,分别训练加权损失和非加权损失模型)
  • 3 层隐藏层神经网络(同上)
  • 4 层隐藏层神经网络(同上)
  • TabNet(6 个种子)
  • DeepInsight 模型(2 个种子,不同设置)

其他有效技巧

  • Rank gauss (秩高斯变换)
  • 添加统计特征(求和、均值、标准差、峰度、偏度、中位数等)
  • PCA (仅应用于 TabNet)
  • 平滑损失
同比赛其他方案