返回列表

9th Place Solution for the "ICR - Identifying Age-Related Conditions" Competition

568. ICR - Identifying Age-Related Conditions | icr-identify-age-related-conditions

开始: 2023-05-11 结束: 2023-08-10 基因组学与生物信息 数据算法赛
作者:Anna | 竞赛排名:第9名 | 发布时间:2023-08-11 | 最后更新:2023-12-04 | 得票数:21

ICR竞赛第9名解决方案:识别年龄相关疾病

你好!这个结果出乎意料,我非常开心!

背景部分

方法概述

我非常担心模型过拟合问题。由于讨论区存在各种不同观点,且因数据集较小难以准确评估技术效果,我不确定应采取何种最佳方案。

因此,我决定整合多种不同模型以及多种数据预处理技术。

提交详情

第一部分:

  • 数据预处理:
    • 使用上采样器平衡数据分布
    • 在测试集中使用希腊字母Epsilon,取值为Epsilon.max() + 1
    • 采用SimpleImputer填补缺失值,策略设为'constant'
  • 模型:
    • 集成两个XGB分类器和两个TabPFN分类器
    • 使用5折交叉验证,选择最优模型

第二部分:

  • 数据预处理:
    • 不使用希腊字母Epsilon
    • 实施特征缩放
    • 采用特征选择,选取40个特征子集
  • 模型:
    • XGB分类器和LGBM分类器
    • 采用15折交叉验证,最终取集成平均值

结论

我发现最优结果来自首个集成模型的加权平均值:其权重设为3,其余两个模型权重各为1。

无效尝试:

  • 后处理(显而易见的失败!😉)
  • 其他模型如树分类器和神经网络
  • 在希腊字母字段中使用Epsilon以外的字段

参考来源

第一部分思路受以下公开笔记启发:https://www.kaggle.com/code/aikhmelnytskyy/public-krni-pdi-with-two-additional-models

衷心感谢所有积极参与讨论的参赛者,这段经历让我受益匪浅!

同比赛其他方案