26th Place Solution / Source Code

407. Mechanisms of Action (MoA) Prediction | lish-moa

开始: 2020-09-03 结束: 2020-11-30 药物研发数据算法赛

第26名解决方案 / 源代码

第26名解决方案 / 源代码

作者：Kazumitsu Sakurai | 比赛排名：第26名

我要感谢哈佛大学创新科学实验室、Kaggle 团队以及所有给了我很多启发的参赛者。

源代码

分数

最终提交分数：

Private: 0.01608
Public: 0.01820
CV: 0.01550 (不含 ctl_vehicle)

总结

去噪自动编码器

我使用了普通的去噪自动编码器来代替交换方法，并将其与原始特征连接起来。这将公开测试分数从 0.01842 提高到了 0.01834，但 CV 分数并没有提升。

加权损失

我使用了加权损失，对训练数据中出现次数很少的目标赋予更高的权重（我使用了 40）。这显著提高了 CV 分数（约 -0.0003），但公开测试分数并未提升。为了避免对训练数据过拟合，我混合了加权损失模型和非加权损失模型。

模型融合

我采用了简单的加权平均法，融合了以下模型：

2 层隐藏层神经网络（7 个种子，7 折 OOF，分别训练加权损失和非加权损失模型）
3 层隐藏层神经网络（同上）
4 层隐藏层神经网络（同上）
TabNet（6 个种子）
DeepInsight 模型（2 个种子，不同设置）

其他有效技巧

Rank gauss (秩高斯变换)
添加统计特征（求和、均值、标准差、峰度、偏度、中位数等）
PCA (仅应用于 TabNet)
平滑损失

同比赛其他方案

1st Place Winning Solution - Hungry for Gold

2nd Place Solution - with 1D-CNN (Private LB: 0.01601)

3rd source code(To fulfill requirement of prize)

4th Place Solution

5th place solution [Updated]