最终模型的关键点

如果文本长度超过 max_seq_length，则使用文本的开头和结尾部分
对 4 个 BERT base-uncased 模型的结果进行平均
后处理：利用训练数据拟合目标分布（针对部分目标列）
- 详情见下文。
将 bert_layer 的 pool_output 和 sequence_output 拼接，用于 GlobalAveragePooling1D
使用 MultilabelStratifiedKFold 进行 10 折交叉验证（感谢 @ratthachat ！）
独自参赛需要一颗强大的心脏

对我无效的方法

使用 Stack Overflow 数据进行预训练（150,000 个句子）
Multi-sample dropout（多样本 dropout）
其他模型
- Roberta
- Albert
- XLNet
拼接“仅问题”输出模型和“仅回答”模型
将类别 MLP 与 BERT 模型拼接
在 BERT 模型上使用 LSTM 头代替 Dense 层
冻结一半的 BertLayer 以降低模型复杂度
跳过一半的 BertLayer 以降低模型复杂度
USE + MLP
使用 gensim 嵌入的 LSTM 模型
自定义损失函数
- BCE & MSE
- Focal loss
词数特征
将标题和问题主体拼接为一个块（移除了它们之间的 ["SEP"]）
对不平衡的目标列进行上采样

我的后处理类

class OptimPreds(object):
    def __init__(self, df_train):
        self.score_range_dict = {}
        for i, c in enumerate(df_train.columns[11:]):
            cnt = df_train[c].value_counts(normalize=True).sort_index()
            self.score_range_dict[i] = [cnt.index.values.tolist(), cnt.values.tolist()]
    def predict(self, preds, i):
        return pd.cut(rank_average(preds), [-np.inf] + np.cumsum(self.score_range_dict[i][1])[:-1].tolist() + [np.inf], labels = self.score_range_dict[i][0])

def optim_predict(pred, do_round=True, target=[ 2,  5,  7,  9, 11, 12, 13, 14, 15, 16, 19]):
    for i in range(pred.shape[1]):
        if i in target:
            pred[:,i] = optim.predict(pred[:,i], i)
    return pred

47th place solution

最终模型的关键点

对我无效的方法

我的后处理类

同比赛其他方案