第43名:总结与成功经验
第43名:总结与成功经验
作者:tarick.morty | 排名:第43名
非常感谢组织者举办这场有趣的多模态挑战赛,并为我们提供了独特的多目标时间序列数据集来进行构思。
数据准备与特征工程
- 对 cite 和 multi 输入进行 TruncatedSVD 降维 - 100个成分
- 对二值化后的 cite 和 multi 输入数据进行 TruncatedSVD 降维 - 100个成分
- 对 multi 目标进行 TruncatedSVD 降维 - 256个成分
- 对 cite 和 multi 输入进行 PCA 降维 - 40个成分 - 仅在部分模型中用作附加特征
- 针对单个 cite 目标的最相关原始特征
- 使用“天数(Day)”作为一个特征
交叉验证方案
- 对 cite 和 multi 均采用按供体分组的 GroupKFold - 在最终流程中赋予较高权重
- 对 cite 和 multi 均采用 KFold - 因为相关性也不错,在最终流程中保留但赋予较低权重
建模流程
- 针对 cite 和 multi 使用不含二值化组件的多层感知机(MLP),层数各异(公开榜得分 0.813)
- 针对 cite 和 multi 使用混合了二值化和非二值化组件的 MLP(公开榜得分 0.813)
- 在经过降维的 cite 数据和 multi 数据上使用 TabNet 和 LGBM 模型(公开榜得分 0.812)
- 针对 cite 数据,使用 LGBM、XGB 和 CatBoost 构建的单目标模型,配合高度相关的重要特征(公开榜得分跃升至 0.8142,成为最佳集成模型)
心得体会
原本预期随着榜单震动名次会上升,但意识到其他团队确实表现非常出色,衷心祝贺他们。这是一场精彩的比赛,独具一格。
干杯!