返回列表

43rd Place : Summary and What Worked Well

517. Open Problems - Multimodal Single-Cell Integration | open-problems-multimodal

开始: 2022-08-15 结束: 2022-11-15 基因组学与生物信息 数据算法赛
第43名:总结与成功经验

第43名:总结与成功经验

作者:tarick.morty | 排名:第43名

非常感谢组织者举办这场有趣的多模态挑战赛,并为我们提供了独特的多目标时间序列数据集来进行构思。

数据准备与特征工程

  • 对 cite 和 multi 输入进行 TruncatedSVD 降维 - 100个成分
  • 对二值化后的 cite 和 multi 输入数据进行 TruncatedSVD 降维 - 100个成分
  • 对 multi 目标进行 TruncatedSVD 降维 - 256个成分
  • 对 cite 和 multi 输入进行 PCA 降维 - 40个成分 - 仅在部分模型中用作附加特征
  • 针对单个 cite 目标的最相关原始特征
  • 使用“天数(Day)”作为一个特征

交叉验证方案

  • 对 cite 和 multi 均采用按供体分组的 GroupKFold - 在最终流程中赋予较高权重
  • 对 cite 和 multi 均采用 KFold - 因为相关性也不错,在最终流程中保留但赋予较低权重

建模流程

  • 针对 cite 和 multi 使用不含二值化组件的多层感知机(MLP),层数各异(公开榜得分 0.813)
  • 针对 cite 和 multi 使用混合了二值化和非二值化组件的 MLP(公开榜得分 0.813)
  • 在经过降维的 cite 数据和 multi 数据上使用 TabNet 和 LGBM 模型(公开榜得分 0.812)
  • 针对 cite 数据,使用 LGBM、XGB 和 CatBoost 构建的单目标模型,配合高度相关的重要特征(公开榜得分跃升至 0.8142,成为最佳集成模型)

心得体会

  • pyBoost
  • 日期相似性分析(正如 @l0glikelihood 仅在 multiome 的第7天数据上进行训练那样)

原本预期随着榜单震动名次会上升,但意识到其他团队确实表现非常出色,衷心祝贺他们。这是一场精彩的比赛,独具一格。

干杯!

同比赛其他方案