silver solution (44th)

银牌方案 (第44名)

作者：RB (MASTER)
发布时间：2020-02-11

恭喜各位获奖者！也感谢 Kaggle 举办这次比赛。

我的 Bert 模型结合了 USE 特征 + Crawl 词向量。USE 特征显著提高了我的分数。Crawl 词向量的效果则没那么明显。我原本将答案和问题模型分开处理，后来才意识到如果直接在模型中加入 QA 分支可以节省很多时间（可惜太晚了）。我的后处理代码参考了公开的 Kernel。（全部使用 PyTorch）

RoBERTa 的表现出乎意料地好，在公开排行榜（Public LB）上的分数非常接近 Bert，考虑到我在 RoBERTa 上花费的时间远少于 Bert，这很让人惊喜。今天早上我才意识到我的 RoBERTa 模型没有使用 USE 特征——但已经太晚了，只能作罢。

预处理：Bert 没有进行预处理，对于 Crawl 词向量，我使用了公开 Kernel 中的预处理方法。

分词方法：使用了 Head + Tail（头+尾）截断方式。

使用了自定义损失函数。

我会把训练代码上传到 GitHub，同时也会公开我的推理 Kernel。

期待阅读更优秀的解决方案！

推理 Kernel (Inference Kernel) 点击查看 Kaggle 上的代码

银牌方案 (第44名)

同比赛其他方案