5th solution

第5名方案

作者：AIFIRST (Grandmaster) 及团队
比赛排名：第5名

首先，我要感谢我的队友们。在这里我将简要介绍我们的解决方案。

模型

1. 模型结构。我们设计了不同的模型结构。我们主要参考了CCF互联网情感分析的解决方案，拼接了不同的CLS embedding。这是链接 BDCI2019-SENTIMENT-CLASSIFICATION。

2. 通过分析我们发现了30个标签，其中一类是与问题相关的评价，另一类是与答案相关的评价。为了让模型学习得更好，我们设计了Q模型来处理去除问题相关标签的数据，以及A模型来处理答案相关的标签。这比QA模型效果更好。

3. 不同模型的测试结果排名：RoBERTa Base > RoBERTa Large > XLNet Base > BERT Base > T5 Base。

后处理

1. 通过分析评估方法和比赛数据，我们使用了0、1重置的方法。这使LB分数提高了0.05或更多。

特征工程

1. 我们希望模型学习到的特征不仅仅局限于文本，因此我们添加了host和category的embedding特征以及其他统计特征。这使CV和LB分数都提高了约0.005。

文本清洗

1. 我们还进行了文本清洗，去除了停用词和一些符号，这使分数提高了约0.002。

堆叠

1. 我们最好的私有模型得分为0.42787，但我们没有选择它。它是由RoBERTa Large、RoBERTa Base和XLNet Base堆叠而成的。

blend.loc[:,targets] = roberta_large_oof_test.loc[:,targets].values*0.4 + 0.3*roberta_base_oof_test.loc[:,targets].values + xlnet_base_oof_test.loc[:,targets].values*0.3

堆叠使CV和LB分数都提高了约0.02，帮助很大。

第5名方案

模型

后处理

特征工程

文本清洗

堆叠

同比赛其他方案