返回列表

15th Place Solution for the "ICR - Identifying Age-Related Conditions"

568. ICR - Identifying Age-Related Conditions | icr-identify-age-related-conditions

开始: 2023-05-11 结束: 2023-08-10 基因组学与生物信息 数据算法赛
ICR竞赛第15名解决方案 - 识别年龄相关疾病

ICR竞赛第15名解决方案 - 识别年龄相关疾病

作者:Hard Money Sniper | 发布日期:2023年8月13日

我非常幸运能够在比赛中获得第15名。我一开始参考了熟悉的基线代码(https://www.kaggle.com/code/aikhmelnytskyy/public-krni-pdi-with-two-additional-models),通过深入研究全面的笔记和讨论,我不断学习并调整优化了自己的方法。

尝试但未奏效的方法

  • 避免使用希腊字母特征中的Epsilon,因为存在潜在的数据漂移风险
  • 去匿名化处理(虽然这种方法对我这样数学不好的人来说仍然像魔法一样神奇,但仍要感谢分享!)和特征推导
  • 使用目标排列进行特征选择,发现通过"增益"和"分裂"筛选的特征一致性不佳
  • Optuna超参优化、后处理以及过采样技术,这些方法均未产生效果

行之有效的策略

  • 通过嵌套K折交叉验证(使用StratifiedKFold)模拟本地验证流程。不是选择单一最佳模型,而是使用外循环交叉验证的全部模型
  • 采用多样化的集成模型配合概率重新加权
  • 将希腊字母特征中的Alpha纳入模型训练

这次比赛我非常幸运(与现实生活形成鲜明对比...orz)。衷心感谢Kaggle社区成员慷慨无私的知识分享,也深深敬佩那些勇于提问、敢于挑战现状的探索精神。如有疏漏之处,敬请包涵!

同比赛其他方案