返回列表

5th solution

362. Google QUEST Q&A Labeling | google-quest-challenge

开始: 2019-11-22 结束: 2020-02-10 自然语言处理 数据算法赛
第5名方案

第5名方案

作者:AIFIRST (Grandmaster) 及团队
比赛排名:第5名

首先,我要感谢我的队友们。在这里我将简要介绍我们的解决方案。

模型

1. 模型结构。我们设计了不同的模型结构。我们主要参考了CCF互联网情感分析的解决方案,拼接了不同的CLS embedding。这是链接 BDCI2019-SENTIMENT-CLASSIFICATION

2. 通过分析我们发现了30个标签,其中一类是与问题相关的评价,另一类是与答案相关的评价。为了让模型学习得更好,我们设计了Q模型来处理去除问题相关标签的数据,以及A模型来处理答案相关的标签。这比QA模型效果更好。

3. 不同模型的测试结果排名:RoBERTa Base > RoBERTa Large > XLNet Base > BERT Base > T5 Base。

后处理

1. 通过分析评估方法和比赛数据,我们使用了0、1重置的方法。这使LB分数提高了0.05或更多。

特征工程

1. 我们希望模型学习到的特征不仅仅局限于文本,因此我们添加了host和category的embedding特征以及其他统计特征。这使CV和LB分数都提高了约0.005。

文本清洗

1. 我们还进行了文本清洗,去除了停用词和一些符号,这使分数提高了约0.002。

堆叠

1. 我们最好的私有模型得分为0.42787,但我们没有选择它。它是由RoBERTa Large、RoBERTa Base和XLNet Base堆叠而成的。

blend.loc[:,targets] = roberta_large_oof_test.loc[:,targets].values*0.4 + 0.3*roberta_base_oof_test.loc[:,targets].values + xlnet_base_oof_test.loc[:,targets].values*0.3

堆叠使CV和LB分数都提高了约0.02,帮助很大。

同比赛其他方案