返回列表

Public 7th and Private 15th solution (Nothing but just multiplied a factor of 1.2)

584. Open Problems – Single-Cell Perturbations | open-problems-single-cell-perturbations

开始: 2023-09-12 结束: 2023-11-30 基因组学与生物信息 数据算法赛
公开榜第7名与私有榜第15名解决方案(不过是乘了1.2的系数)

公开榜第7名与私有榜第15名解决方案(不过是乘了1.2的系数)

作者:Jie Wu (Kaggle Grandmaster)

比赛排名:私有榜第15名

发布时间:2023年12月6日

首先,非常感谢那些创建了0.574和0.577公开笔记本的参赛者。

当我两个月前开始这场比赛时,我发现公开排行榜的波动非常大,与CV(交叉验证)结果差异显著。和大多数人一样,我发现集成一些表现较差的公开排行榜结果(例如0.702 LB)反而能提升最终成绩。因此,我认为这会是一场"洗牌"式的比赛。于是,我没有花太多时间构建更多样化或更稳健的模型(我认为自己做不到),而是专注于一些排行榜探测和技巧。例如,将我的任何结果乘以一个系数(在公开排行榜上1.2效果最佳),就能提升成绩。这让我更加确信会有重大洗牌,但我也相信一些金牌队伍会相当稳定,保持在前列。

使用的模型

我使用了公开的0.574和0.577结果,加上我自己的模型(公开排行榜0.578):

我的模型包括:

  • Conv1D神经网络
  • LSTM
  • MLP
  • LGBM

特征工程:

  • 对神经网络模型使用StandardScaler处理训练标签列
  • 对cell_type和sm_name进行独热编码
  • 将SMILES字符串拆分为字符并使用TFIDF获取嵌入

最终结果生成步骤

第一步

  • sub_pub[:128] = 0.55 × 公开0.574结果的前128个样本 + 0.45 × 公开0.577结果的前128个样本
  • sub_pub[128:] = 0.6 × 公开0.574结果的剩余样本 + 0.4 × 公开0.577结果的剩余样本
  • 然后使用https://www.kaggle.com/code/jeffreylihkust/op2-eda-lb中的方法进行后处理

第二步

  • final_sub = 1.2 × (0.95 × sub_pub + 0.05 × my_0578)

关于系数1.2的说明

我尝试了多个系数:0.95、1.05、1.1、1.15、1.2、1.25、1.3、1.4、1.5,其中1.2在公开排行榜上表现最佳。

有点遗憾的是,我有几个结果本可以进入金牌区域,但它们的公开排行榜分数比最优结果差了0.02。

同比赛其他方案