667. NeurIPS - Open Polymer Prediction 2025 | neurips-open-polymer-prediction-2025
副标题:ChemBERTa, GNN, GREA, CatBoost 的集成
我们的最终模型是三个模型的加权平均集成:
通过实验,我发现集成权重 (BERT = 0.33, GNN-GREA = 0.24, CatBoost = 0.43) 将 LB 分数最小化至 0.065。
起初,我从 EUOS/SLAS 联合挑战赛:化合物溶解度 的第 1 名解决方案中获得了灵感。
(图片引用自 PDF。)
我的目标是通过连接嵌入并使用 MLP 进行预测来实现类似的想法。
基于 torch-molecule 仓库 中的实现,我创建了训练/推理管道,并稍微修改了库以输出隐藏状态向量。
代码:GREA+GNN 集成
基于实现参考,我创建了代码,使用 2GPU 训练 ChemBERTa。
代码:ChemBERTa 推理
我使用了基线,它采用 Mordred 描述符作为特征。
我发现添加以下指纹将 LB 分数从 0.068 提高到了 0.065:
最初,我尝试连接 BERT 和 GNN 的隐藏状态向量,随后训练一个 MLP (代码在此),达到了 LB = 0.066,但表现并未超越。
相反,我尝试了另一个想法,即三种不同模型类型(ChemBERTa, GNN+GREA, CatBoost)的加权平均集成。
经过多次实验,最优权重为 (BERT = 0.33, GNN-GREA = 0.24, CatBoost = 0.43),达到了最佳 LB = 0.060。
我在整个竞赛中使用了广泛共享的增强技术:
未应用后处理。
这是我第二次参加 Kaggle 竞赛。成功的一个关键因素是利用类似竞赛中先前顶级解决方案的想法。
正如广泛讨论的那样,公共测试数据和私有测试数据之间存在分布偏移,导致排行榜出现显著的上下波动。有趣的是,许多顶级解决方案都应用了后处理,但由于我没有应用,我预期会有更大的排名下滑。然而,我的最终位置保持相对稳定,这相当令人惊讶。