667. NeurIPS - Open Polymer Prediction 2025 | neurips-open-polymer-prediction-2025
我一开始分析了当时得分最高的公共 Notebook 和公共排行榜,得出了以下观察结果:
我参加这次比赛时并没有化学领域的专业知识。此外,由于许多不同的模型(无论是简单还是复杂)都取得了非常相似的结果,我认为创建自己的模型并没有多大成效。相反,我会以公共 Notebook 中看起来有希望的内容作为起点。在比赛过程中,我使用了几个不同的公共 Notebook 作为基础。
我不会详细说明我最终使用的模型,因为我将它们视为黑盒。我将早期精力集中在优化最后的集成步骤上。
测试数据更改后,有人注意到给 Tg 加 273.15 会大幅提高公共排行榜分数。这被归因于单位问题(摄氏度和开尔文)。但在我自己调查后,我发现加 300 会比 273.15 得到更高的分数。单位问题修复后,我发现加 30 仍然能提高分数。这成为了我努力的重点。我首先检查了其他目标是否有类似问题,但发现没有。所以我专注于寻找 Tg 的最佳调整值。虽然尝试了很多方法,但最终发现简单的 +40 偏移效果最好。
比赛接近尾声时,我试图确定为什么偏移有效,并意识到这可能是另一个单位问题。我尝试了摄氏度 -> 华氏度的转换公式 ((9/5)x + 32),但它降低了公共排行榜分数,所以我放弃了这个想法。然而,比赛结束后我注意到这个提交在私有排行榜上的得分为 0.068,显著优于第一名的提交。
虽然这看起来像是一个单位问题,但未必如此。一个变换有效并不意味着它是最优的。比赛结束后,我发现使用 (9/5x) + 45 表现更好(私有排行榜得分为 0.066)。
比赛结束后,我回到了我最初的提交,它使用了 ExtraTreesRegressor,在私有排行榜上大约排在第 1300 位。我添加了 (9/5) x + 32 变换并重新运行。 resulting private LB 得分——0.077——与我最终的提交(使用效果较差的 +40 变换和模型集成)相同。
所以最终,尽管有五个属性需要预测,但这次比赛的绩效取决于其中一个属性的分布偏移。这种分布偏移存在于公共排行榜数据中,但在私有排行榜数据中更为强烈。