返回列表

Wow (and our solution)

568. ICR - Identifying Age-Related Conditions | icr-identify-age-related-conditions

开始: 2023-05-11 结束: 2023-08-10 基因组学与生物信息 数据算法赛

哇(以及我们的解决方案)

比赛排名:第2名
作者:opamusora (Ivan Viakhirev)
发布时间:2023年8月11日
获得票数:80票

说得委婉些,我完全震惊了。今天早上队友向我祝贺时,我很好奇我们究竟得了第几名?看到第二名时我大笑起来,最有趣的是我的解决方案纯粹是交叉验证——没有探测,什么都没有。

这里是我们的解决方案:
https://www.kaggle.com/code/opamusora/main-notebook

我们的做法:

  • 和大多数人一样,我们使用时间特征和 max(time)+1 作为测试集
  • 移除时间值为空的行,我在使用UMAP可视化时发现一个远离所有其他数据的异常簇,正是那些缺少时间的行
  • 用-100填充缺失值,使用中位数还是较小数值可能并无影响
  • 使用UMAP降维后通过KMeans标记聚类,虽然对分数提升不大,但有一定作用
  • 手动进行特征排列,删除任何使分数略微下降的列
  • 模型方面使用Catboost、XGB(参数来自公开笔记本)和TabPFN。LGBM似乎不适用,它总是降低我的交叉验证分数
  • 最后对测试集预测结果取平均值即可

另外想说,我们曾尝试修改TabPFN获取嵌入向量,甚至考虑微调TabPFN,但都没有成功。

我还尝试用Optuna优化模型,同样没有效果。集成学习对我的分数提升也不明显。

补充:我在本次比赛最后两次提交都获得了最高分数 😅

团队成员:
• opamusora (Ivan Viakhirev) - 队长
• kvis
• Konstantin Kobylkin
同比赛其他方案