667. NeurIPS - Open Polymer Prediction 2025 | neurips-open-polymer-prediction-2025
副标题:利用自由基拓扑和几何描述符改进聚合物性质预测。
NeurIPS 2025 开放聚合物预测挑战赛旨在从分子结构预测关键的聚合物性质。这些性质包括密度、热导率 (Tc) 和玻璃化转变温度 (Tg),以及两个衡量分子大小和堆积效率的指标:回转半径 (Rg) 和分数自由体积 (FFV)。
我的解决方案基于 LightGBM 基线模型,在此基础上我添加了一组从聚合物化学结构 derived 的新特征。
主要目标是捕捉 SMILES 中自由基标记 * 之间的位置关系,因为拓扑结构和局部邻域强烈影响诸如 Tc 和 Rg 等性质。
除了标准的 2D 描述符外,我还结合了从 RDKit 生成的构象中计算的 3D 几何描述符。
这些属性捕捉了分子的全局形状和原子的空间分布,提供了超越拓扑结构的互补视角。
为了提供更全面的分子表示,我引入了与结构中芳香环和脂肪环的存在及特征相关的特征。
处理玻璃化转变温度 (Tg) 是比赛的主要挑战之一。Tg 值显示出高度的变异性,并且深受细微结构变化的影响。为了改进学习过程,我对 Tg(以及 Rg)使用了 α = 0.85 的分位数回归目标,专注于从分布中的较高值学习。对于其他目标(Tc、密度和 FFV),我保持了标准的 0.5 分位数(中位数)。
在误差分析期间,我 identified 了 Rg 和 Tc 预测最差的分子。
针对这些困难案例,我设计了一个受控数据增强流程,
生成具有微小程序结构变化的合成 SMILES。
这用结构上合理的示例扩展了训练集,
帮助模型学习局部取代趋势,并提高其
在具有不常见拓扑结构的分子上的泛化能力。
为了训练,我结合了多个 SMILES 数据集,以扩大结构多样性并改善每个目标性质的覆盖率。
| 目标性质 | SMILES 数量 |
|---|---|
| Tg | 8,244 |
| FFV | 7,030 |
| Tc | 866 |
| 密度 | 1,247 |
| Rg | 614 |
本解决方案建立在 Dmitry Uarov 的公开 Notebook NeurIPS 基线 + 外部数据 之上。
我将其作为基础,并通过以下几种方式进行了扩展以提高预测性能:
*) 的位置关系。