返回列表

4th Place Solution — LightGBM with SMILES-Derived Features

667. NeurIPS - Open Polymer Prediction 2025 | neurips-open-polymer-prediction-2025

开始: 2025-06-16 结束: 2025-09-15 化学与材料 数据算法赛
第四名解决方案 — 基于 SMILES 衍生特征的 LightGBM

第四名解决方案 — 基于 SMILES 衍生特征的 LightGBM

副标题:利用自由基拓扑和几何描述符改进聚合物性质预测。

作者:Felipe Ferreira
排名:第 4 名
发布时间:2025-09-19

特征工程

NeurIPS 2025 开放聚合物预测挑战赛旨在从分子结构预测关键的聚合物性质。这些性质包括密度、热导率 (Tc) 和玻璃化转变温度 (Tg),以及两个衡量分子大小和堆积效率的指标:回转半径 (Rg) 和分数自由体积 (FFV)。

我的解决方案基于 LightGBM 基线模型,在此基础上我添加了一组从聚合物化学结构 derived 的新特征。

主要目标是捕捉 SMILES 中自由基标记 * 之间的位置关系,因为拓扑结构和局部邻域强烈影响诸如 TcRg 等性质。

除了标准的 2D 描述符外,我还结合了从 RDKit 生成的构象中计算的 3D 几何描述符。

这些属性捕捉了分子的全局形状和原子的空间分布,提供了超越拓扑结构的互补视角。

为了提供更全面的分子表示,我引入了与结构中芳香环和脂肪环的存在及特征相关的特征。

处理玻璃化转变温度 (Tg) 是比赛的主要挑战之一。Tg 值显示出高度的变异性,并且深受细微结构变化的影响。为了改进学习过程,我对 Tg(以及 Rg)使用了 α = 0.85 的分位数回归目标,专注于从分布中的较高值学习。对于其他目标(Tc、密度和 FFV),我保持了标准的 0.5 分位数(中位数)。


通过 SMILES 取代进行数据增强

在误差分析期间,我 identified 了 Rg 和 Tc 预测最差的分子。

针对这些困难案例,我设计了一个受控数据增强流程,

生成具有微小程序结构变化的合成 SMILES。

这用结构上合理的示例扩展了训练集,

帮助模型学习局部取代趋势,并提高其

在具有不常见拓扑结构的分子上的泛化能力。


  • 官能团取代
    我引入了简单的取代基,如 F、Cl、CN 和 CF₃(倾向于增加刚性和极性),
    以及更灵活的基团,如 CH₃、OCH₃ 和 O(通常减少 Rg)。
    → 每个取代基都被分配了一个 ΔRg(正或负),并调整了
    少量随机噪声以降低过拟合风险。

数据集

为了训练,我结合了多个 SMILES 数据集,以扩大结构多样性并改善每个目标性质的覆盖率。

用于训练的 SMILES 数量

目标性质 SMILES 数量
Tg 8,244
FFV 7,030
Tc 866
密度 1,247
Rg 614

数据集来源

代码参考

本解决方案建立在 Dmitry Uarov 的公开 Notebook NeurIPS 基线 + 外部数据 之上。
我将其作为基础,并通过以下几种方式进行了扩展以提高预测性能:

  • 添加了新的化学衍生特征,以捕捉 SMILES 中自由基 (*) 的位置关系。
  • 集成了从 RDKit 生成的构象中计算的 3D 几何描述符。
  • 包含了与芳香环和脂肪环相关的描述符,以考虑刚性、共轭和灵活性。
  • 通过针对 TcRg 预测不佳的分子进行 SMILES 变换,应用了受控数据增强。
同比赛其他方案