返回列表

4rd Place Solution for the "ICR - Identifying Age-Related Conditions"

568. ICR - Identifying Age-Related Conditions | icr-identify-age-related-conditions

开始: 2023-05-11 结束: 2023-08-10 基因组学与生物信息 数据算法赛
```html ICR竞赛第四名解决方案

"ICR - 识别年龄相关疾病"竞赛第四名解决方案

作者:Andrej Vetrov | 发布日期:2023年8月12日

看到排行榜出现如此剧烈的波动让我感到非常惊喜,这使我最终登上了排行榜首位。毫无疑问,当我两个月前提交第三次尝试时(公开榜得分0.16),我完全没想到它最终会在私有榜上获得第四名(0.34分)。此后我注意到公开榜分数急剧下降,意识到这些解决方案都存在严重的过拟合问题,而这正是我在以往所有方案中努力避免的。

解决方案关键特点

1) 使用CatBoostRegressor(默认超参数)递归填充特征缺失值
2) greeks['Epsilon']中的未知值用该列最小值填充
3) row_id - 按Epsilon排序后训练集和测试集中的行序号
4) 针对'Alpha'、'Beta'、'Gamma'、'Delta'的每个类别值,使用CatBoostClassifier生成对应概率特征(方法参考此讨论)。为避免测试集过拟合,采用5折交叉验证并取平均值
5) 最终模型使用未经调参和特征消除的CatBoostClassifier

在后续尝试中,我尝试通过创造新特征、改进缺失值填充方法来扩展特征空间(例如预测epsilon和row_id),但交叉验证结果不仅没有提升反而更加不稳定。我意识到这些复杂化只会导致过拟合,因此停止了此类尝试。

```
同比赛其他方案