返回列表

13th Place Solution for the "ICR - Identifying Age-Related Conditions" Competition

568. ICR - Identifying Age-Related Conditions | icr-identify-age-related-conditions

开始: 2023-05-11 结束: 2023-08-10 基因组学与生物信息 数据算法赛

第13名解决方案:ICR - 识别年龄相关疾病竞赛

作者:ryo-Ichi(专家)

排名:第13名

发布时间:2023年8月13日

投票:10票(10个赞同)

正如你在评论中所说,预计这场比赛会有大变动,但说实话,我对这个结果感到惊讶。为了确保万无一失,我将在下面提供我的解决方案。

背景

业务背景:
数据背景:

方法概述

数据处理

  • 缺失值:创建缺失值标记并用均值填充
  • 列"EJ":标签编码
  • 添加分组特征:对于除目标变量外的变量,添加按"EJ"列分组后每个特征的['min', 'max', 'mean', 'std']统计量

训练

根据Chris下方的讨论,我创建了下采样的三个模型,并在训练时添加了类别权重。所有模型均使用StratifiedKFold进行验证,n_splits=10,然后使用种子平均法聚合结果。

  • 模型1:LGBMClassifier(特征=全部)
  • 模型2:LGBMClassifier(使用模型1中影响最大的20个特征进行训练)
  • 模型3:CatBoostClassifier(特征=全部)

提交详情

  • 提交公式:submission["class_1"] = 模型1×0.2 + 模型2×0.2 + 模型3×0.6
  • 结果:Public=0.22, Private=0.36
同比赛其他方案