返回列表

35th place solution

407. Mechanisms of Action (MoA) Prediction | lish-moa

开始: 2020-09-03 结束: 2020-11-30 药物研发 数据算法赛
第35名解决方案

第35名解决方案

作者: Kon (DSG团队) | 排名: 第35名

DSG的第35名解决方案

代码笔记本

我们的方法

1. 数据增强

我们尝试了高斯噪声、Cutout、Mixup和CutMix,其中CutMix对CV分数的提升最大。特别是当我们增加超参数alpha时,效果很好。移除ctl_vehicle后,CutMix的效果变差了。

2. 加权种子-折平均

由于Deotte的CV方案考虑了drug_id,因此经常出现训练数据中没有正样本的情况,尤其是对于次要类别。在这种情况下创建的模型预测完全没有意义。因此,我们计算了每个折训练数据中每个类别的正样本数量,并使用这些数量作为权重对预测进行加权。

3. 分类别融合

我们改进了Zhang的笔记本来计算权重,以最小化每个类别的对数损失。

weights.shape = (n_classes, n_models)

为了找到最佳的模型组合,我们通过CV评估了性能。此外,还进行了早停和标签平滑以避免过拟合。我们总共创建了近20个模型,上述组合是最佳的。

同比赛其他方案