2nd Place Solution - 第二名解决方案

第二名解决方案

作者：Ezra

发布时间：2025-09-23

竞赛排名：第 2 名

获赞数：20

初始观察

我一开始分析了当时得分最高的公共 Notebook 和公共排行榜，得出了以下观察结果：

得分最高的公共 Notebook 中包含许多不同的模型。
顶尖的公共 Notebook 与公共排行榜上的顶尖表现者差距不大。
复杂模型的得分并没有显著优于简单模型。
集成学习（Ensembling）有益处。

选择策略

我参加这次比赛时并没有化学领域的专业知识。此外，由于许多不同的模型（无论是简单还是复杂）都取得了非常相似的结果，我认为创建自己的模型并没有多大成效。相反，我会以公共 Notebook 中看起来有希望的内容作为起点。在比赛过程中，我使用了几个不同的公共 Notebook 作为基础。

我不会详细说明我最终使用的模型，因为我将它们视为黑盒。我将早期精力集中在优化最后的集成步骤上。

数据异常

测试数据更改后，有人注意到给 Tg 加 273.15 会大幅提高公共排行榜分数。这被归因于单位问题（摄氏度和开尔文）。但在我自己调查后，我发现加 300 会比 273.15 得到更高的分数。单位问题修复后，我发现加 30 仍然能提高分数。这成为了我努力的重点。我首先检查了其他目标是否有类似问题，但发现没有。所以我专注于寻找 Tg 的最佳调整值。虽然尝试了很多方法，但最终发现简单的 +40 偏移效果最好。

乘以 9/5，然后加 32？

比赛接近尾声时，我试图确定为什么偏移有效，并意识到这可能是另一个单位问题。我尝试了摄氏度 -> 华氏度的转换公式 ((9/5)x + 32)，但它降低了公共排行榜分数，所以我放弃了这个想法。然而，比赛结束后我注意到这个提交在私有排行榜上的得分为 0.068，显著优于第一名的提交。

虽然这看起来像是一个单位问题，但未必如此。一个变换有效并不意味着它是最优的。比赛结束后，我发现使用 (9/5x) + 45 表现更好（私有排行榜得分为 0.066）。

结论

比赛结束后，我回到了我最初的提交，它使用了 ExtraTreesRegressor，在私有排行榜上大约排在第 1300 位。我添加了 (9/5) x + 32 变换并重新运行。 resulting private LB 得分——0.077——与我最终的提交（使用效果较差的 +40 变换和模型集成）相同。

所以最终，尽管有五个属性需要预测，但这次比赛的绩效取决于其中一个属性的分布偏移。这种分布偏移存在于公共排行榜数据中，但在私有排行榜数据中更为强烈。

2nd Place Solution

第二名解决方案

初始观察

选择策略

数据异常

乘以 9/5，然后加 32？

结论

相关链接

同比赛其他方案