返回列表

3rd Place Solution for the "ICR - Identifying Age-Related Conditions" Competition

568. ICR - Identifying Age-Related Conditions | icr-identify-age-related-conditions

开始: 2023-05-11 结束: 2023-08-10 基因组学与生物信息 数据算法赛

"ICR - 识别年龄相关疾病"竞赛第三名解决方案

作者:siguo (MASTER)
发布日期:2023-08-11
竞赛排名:第3名

首先,我真的很惊讶能够获得这个成绩。事实上,在参加比赛并简单地实现了基线代码后,我就很少再关注这场比赛了,因为公司通常加班😅。
最终的结果是当时基于catboost模型的基线代码,其公开得分为0.21。
由于数据特征是匿名的且与医疗健康相关,我最初的想法是通过不同特征之间的比率来构建新特征,就像体检报告中的某些指标也是通过其他指标计算比率得到的一样。
在此之前,我计划通过相关系数(corr)筛选掉一些匿名特征,以免构建太多无效特征。然而,由于没有进一步尝试,最终代码仍然是对所有特征进行交叉计算。
这场比赛中更有效的操作应该是以下两点:
1. 特征交叉计算
2. catboost模型
因为我使用相同特征的lightgbm模型在公开得分上为0.22,在私有得分上为0.38。

关于lightgbm模型和catboost模型的参数选择,似乎是参考了一些notebook的内容,但抱歉,有些已经忘记了。

同比赛其他方案