返回列表

Quick 1st place solution overview before the night

386. Tweet Sentiment Extraction | tweet-sentiment-extraction

开始: 2020-03-23 结束: 2020-06-16 自然语言处理 数据算法赛
深夜速览:第一名解决方案概述

深夜速览:第一名解决方案概述

作者:Theo Viel | 比赛:Tweet Sentiment Extraction

更新:

这是一个简短的帖子,旨在快速介绍我们的解决方案,明天我们会整理出更详细的版本。

非常感谢我的队友 @cl2ev1@aruchomu@wochidadonggua 的出色工作,如果我们不是在一起合作,肯定无法走得这么远。

我们的整体解决方案可以用以下流程图来展示:

Pipeline

其核心思想是使用 Transformer 模型来提取 Token 级别的起始和结束概率。利用偏移量,我们可以检索出输入文本对应的处理后的概率。

然后,我们将这些概率输入到一个字符级模型中。

棘手的部分在于如何正确地拼接所有内容,正如这里所解释的那样。

然后……见证奇迹的时刻!
不需要后处理。纯粹依靠建模。

我们选择了两个模型,在 Public LB 上的得分为 0.734 / CV 得分为 0.736+。每个模型使用了 4 个不同的字符级模型,并结合了多种 Transformer 模型。最终的 Private 得分分别为 0.735 和 0.736 :)

感谢阅读!

同比赛其他方案