Public 7th and Private 15th solution (Nothing but just multiplied a factor of 1.2)

公开榜第7名与私有榜第15名解决方案（不过是乘了1.2的系数）

作者：Jie Wu (Kaggle Grandmaster)

比赛排名：私有榜第15名

发布时间：2023年12月6日

首先，非常感谢那些创建了0.574和0.577公开笔记本的参赛者。

当我两个月前开始这场比赛时，我发现公开排行榜的波动非常大，与CV（交叉验证）结果差异显著。和大多数人一样，我发现集成一些表现较差的公开排行榜结果（例如0.702 LB）反而能提升最终成绩。因此，我认为这会是一场"洗牌"式的比赛。于是，我没有花太多时间构建更多样化或更稳健的模型（我认为自己做不到），而是专注于一些排行榜探测和技巧。例如，将我的任何结果乘以一个系数（在公开排行榜上1.2效果最佳），就能提升成绩。这让我更加确信会有重大洗牌，但我也相信一些金牌队伍会相当稳定，保持在前列。

使用的模型

我使用了公开的0.574和0.577结果，加上我自己的模型（公开排行榜0.578）：

我的模型包括：

Conv1D神经网络
LSTM
MLP
LGBM

特征工程：

对神经网络模型使用StandardScaler处理训练标签列
对cell_type和sm_name进行独热编码
将SMILES字符串拆分为字符并使用TFIDF获取嵌入

最终结果生成步骤

第一步

sub_pub[:128] = 0.55 × 公开0.574结果的前128个样本 + 0.45 × 公开0.577结果的前128个样本
sub_pub[128:] = 0.6 × 公开0.574结果的剩余样本 + 0.4 × 公开0.577结果的剩余样本
然后使用https://www.kaggle.com/code/jeffreylihkust/op2-eda-lb中的方法进行后处理

第二步

final_sub = 1.2 × (0.95 × sub_pub + 0.05 × my_0578)

关于系数1.2的说明

我尝试了多个系数：0.95、1.05、1.1、1.15、1.2、1.25、1.3、1.4、1.5，其中1.2在公开排行榜上表现最佳。

有点遗憾的是，我有几个结果本可以进入金牌区域，但它们的公开排行榜分数比最优结果差了0.02。

参考后处理代码 https://www.kaggle.com/code/jeffreylihkust/op2-eda-lb