返回列表

13th place solution

378. University of Liverpool - Ion Switching | liverpool-ion-switching

开始: 2020-02-24 结束: 2020-05-25 药物研发 数据算法赛
第13名解决方案

第13名解决方案

作者:Vicens Gaitan (Grandmaster)
比赛排名:第13名

恭喜获胜者们,在最后一周这场比赛变得非常艰难!

最困难的部分是找到一种好的方法来清理信号的微漂移(这在批次之间以及训练集和测试集之间是不同的)。为了做到这一点,我对10万个点的批次拟合了一个高斯混合模型,并线性地“提升”信号,以使高斯均值适应一组预先计算的固定信号水平,这些水平在训练和测试数据中是通用的。高斯混合拟合还为训练和测试数据提供了开放通道概率的无监督估计。

利用该概率作为开放通道的猜测,很容易使用 FFT 发现 50Hz 及其谐波交流分量,并对其进行“手术式”移除。(计算细节请见此笔记本:1-remove-drift-ac

起初我尝试使用 LightGBM 进行建模,因此需要进行一些特征工程。我构建了一些时间对称的滚动特征(对信号和时间反转信号进行平均)。使用这些特征和高斯混合概率的基于树的模型在公共排行榜上的得分约为 0.942。

改变游戏规则的是 WaveNet 架构。使用相同的变量集配合一个简单的 WaveNet(没有 LSTM,没有批归一化,没有 Dropout,没有花哨的头部结构),使用交叉熵损失,我们可以轻松达到 0.946 的公共分数(私有分数 0.945)。单个模型几乎就能达到金牌水平。

相关笔记本:2-wavenet-swa

我的第13名成绩是通过对5个具有不同种子和学习率的模型进行装袋集成得到的。

我很怀念10通道数据的 5+5 结构……太遗憾了。

仍然有一个谜团:排行榜的结果(公共和私有)比 CV 值(按批次构成校正后)要好 0.004 分。似乎测试数据有一些来自训练数据的“泄漏”,也许这与比赛获胜者获得的高分有关。

同比赛其他方案