返回列表

20th Place Solution: NeurIPS - Open Polymer Prediction 2025

667. NeurIPS - Open Polymer Prediction 2025 | neurips-open-polymer-prediction-2025

开始: 2025-06-16 结束: 2025-09-15 化学与材料 数据算法赛
第 20 名解决方案:NeurIPS - 2025 开放聚合物预测

第 20 名解决方案:NeurIPS - 2025 开放聚合物预测

副标题:从第 407 名到第 20 名:聚合物属性预测中的特征工程、分层交叉验证和目标特定集成

作者:ISAKA Tsuyoshi

发布时间:2025-09-16

最终排名:20

介绍

感谢组织这次比赛。我在 revisiting 早期机器学习心态的同时编写了代码。因为公共榜(Public LB)基于测试集的 8%,我预料到会有排名震荡(shake-up),因此专注于加强交叉验证(CV)。这帮助我从第 407 名移动到了第 20 名。

最终提交:CV = 0.0436, 公共榜 = 0.065, 私有榜 = 0.085

验证

  • 尝试了几种方案,采用了分层 K 折交叉验证(Stratified K-Fold CV, k=5),这与公共榜的相关性最好。
  • 为五个目标中的每一个训练了单独的模型,每个模型都有自己的验证集。
    • 通过将每个目标分箱为五个等频率箱(每个 20%)来进行分层。

特征工程

  • 添加了受"POINT2: A Polymer Informatics Training and Testing Database"启发的所有能改善 CV 和 LB 的特征:
    • MACCS Keys
    • Morgan 指纹
    • RDKit 指纹
    • 原子对指纹 (Atom pair fingerprints)
    • 拓扑扭转指纹 (Topological torsion fingerprints)
    • 基于图的描述符
    • 聚合物结构特征
    • AUTOCORR2D
  • 特征过滤:
    • 常数特征
    • 高度相关的特征

最终特征集:1,072 列。

建模

逐步添加能改善 CV 和 LB 的模型。权重按每个目标自动确定。

目标 模型权重
Tg xgb=0.789, knn=0.112, cat=0.052, hist=0.039, et=0.008, lgb=0.000
FFV xgb=0.385, hist=0.273, lgb=0.218, knn=0.123, cat=0.000, et=0.000
Tc lgb=0.643, et=0.167, hist=0.108, cat=0.082, xgb=0.000, knn=0.000
Density cat=0.327, xgb=0.256, et=0.213, lgb=0.147, hist=0.058, knn=0.000
Rg cat=0.401, et=0.250, xgb=0.196, lgb=0.094, hist=0.058, knn=0.000

后处理

  • 对于每个目标,通过匹配均值或标准差将预测值与训练分布对齐。在公共榜上,这些方法有帮助:
    • Tg: 均值匹配
    • FFV: 均值和标准差匹配

其他调整会降低性能,因此未使用。

同比赛其他方案