返回列表

2nd Place Solution

667. NeurIPS - Open Polymer Prediction 2025 | neurips-open-polymer-prediction-2025

开始: 2025-06-16 结束: 2025-09-15 化学与材料 数据算法赛
2nd Place Solution - 第二名解决方案

第二名解决方案

作者:Ezra
发布时间:2025-09-23
竞赛排名:第 2 名
获赞数:20

初始观察

我一开始分析了当时得分最高的公共 Notebook 和公共排行榜,得出了以下观察结果:

  • 得分最高的公共 Notebook 中包含许多不同的模型。
  • 顶尖的公共 Notebook 与公共排行榜上的顶尖表现者差距不大。
  • 复杂模型的得分并没有显著优于简单模型。
  • 集成学习(Ensembling)有益处。

选择策略

我参加这次比赛时并没有化学领域的专业知识。此外,由于许多不同的模型(无论是简单还是复杂)都取得了非常相似的结果,我认为创建自己的模型并没有多大成效。相反,我会以公共 Notebook 中看起来有希望的内容作为起点。在比赛过程中,我使用了几个不同的公共 Notebook 作为基础。

我不会详细说明我最终使用的模型,因为我将它们视为黑盒。我将早期精力集中在优化最后的集成步骤上。

数据异常

测试数据更改后,有人注意到给 Tg 加 273.15 会大幅提高公共排行榜分数。这被归因于单位问题(摄氏度和开尔文)。但在我自己调查后,我发现加 300 会比 273.15 得到更高的分数。单位问题修复后,我发现加 30 仍然能提高分数。这成为了我努力的重点。我首先检查了其他目标是否有类似问题,但发现没有。所以我专注于寻找 Tg 的最佳调整值。虽然尝试了很多方法,但最终发现简单的 +40 偏移效果最好。

乘以 9/5,然后加 32?

比赛接近尾声时,我试图确定为什么偏移有效,并意识到这可能是另一个单位问题。我尝试了摄氏度 -> 华氏度的转换公式 ((9/5)x + 32),但它降低了公共排行榜分数,所以我放弃了这个想法。然而,比赛结束后我注意到这个提交在私有排行榜上的得分为 0.068,显著优于第一名的提交。

虽然这看起来像是一个单位问题,但未必如此。一个变换有效并不意味着它是最优的。比赛结束后,我发现使用 (9/5x) + 45 表现更好(私有排行榜得分为 0.066)。

结论

比赛结束后,我回到了我最初的提交,它使用了 ExtraTreesRegressor,在私有排行榜上大约排在第 1300 位。我添加了 (9/5) x + 32 变换并重新运行。 resulting private LB 得分——0.077——与我最终的提交(使用效果较差的 +40 变换和模型集成)相同。

所以最终,尽管有五个属性需要预测,但这次比赛的绩效取决于其中一个属性的分布偏移。这种分布偏移存在于公共排行榜数据中,但在私有排行榜数据中更为强烈。

同比赛其他方案