返回列表

[5th solution]: Ensemble of CNN1d, Transformer, Mamba models

616. NeurIPS 2024 - Predict New Medicines with BELKA | leash-BELKA

开始: 2024-04-04 结束: 2024-07-08 药物研发 数据算法赛
[第 5 名方案]:CNN1d、Transformer、Mamba 模型集成
作者: hengck23 (Grandmaster)
竞赛排名: 第 5 名
发布时间: 2024-07-23
竞赛: LEASH - Predicting molecular properties (BELKA)

[第 5 名方案]:CNN1d、Transformer、Mamba 模型集成

GitHub 代码:

https://github.com/hengck23/solution-leash-BELKA


方法简述:

1. 分词 (Tokenization)

我们仅使用字符分词。我们使用 CNN 嵌入(kernel size=3, stride=1)来学习字符的组合。我们尝试了其他分词器,如 BPE、sentence piece、基于原子/SMILES 的分词等。但所有表现都不如最简单的基于字符的分词。

Tokenization Comparison

2. 网络架构

最终方案是 3 种网络架构的集成:cnn1d、transformer、mamba (SSM)。我们将输入视为序列,任务视为 3 类('BRD4', 'HSA', 'sEH')多标签问题。我们使用大批次训练:cnn1d=5000, transformer=2500, mamba=2000。对于 cnn1d,性能对大批次下的 BN 非常敏感。我们认为这是因为:

  • 分布内和分布外样本具有不同的特征值。
  • 类别不平衡(正类少于 1%)。正样本和负样本也具有不同的特征值。

对于 cnn1d 网络,我们使用较高的 eps=5e-3 和较低的 momentum=0.2。

Network Architecture Diagram 1 Network Architecture Diagram 2

关键观察:

拥有 9800 万训练分子,训练每个神经网络需要相当多的时间。我们没有足够的时间为每个折叠训练不同的网络。相反,我们为不同的网络使用不同的折叠以提高集成多样性。

  • cnn1d 7 小时(一个折叠)
  • transformer 28 小时(一个折叠)
  • mamba 36 小时(一个折叠)

这使得比较不同网络的性能变得困难。比赛结束后,我们进行了一些迟交提交。以下是结果。可以看出 transformer 是最稳健的网络。

Model Performance Comparison

接下来,我们比较一些由 gradCAM 生成的热力图:

GradCAM Heatmap 1 GradCAM Heatmap 2 GradCAM Heatmap 3

正如预期(?),cnn1d 的激活相当局部。Transformer 具有更多的全局激活。


致谢

"我们要感谢 HP 提供 Z8 Fury-G5 数据科学工作站,这赋能了我们的深度学习实验。高计算能力和大 GPU 内存使我们能够迅速设计模型。"

同比赛其他方案