Private 20th Solution

第20名私人解决方案

作者： takai380（Kaggle Master）
发布日期： 2024年1月10日

最终获得了第20名，并赢得了一枚个人银牌。感谢主办方。我的解决方案包括两部分：基于决策树和特征工程的解决方案（与公开的notebook几乎相同）以及一个从重建文本进行预测的BERT模型。

特征工程

（由于与公开的notebook相似，我将省略这部分。）

我使用了与公开notebook类似的特征，包括：

在使用该模型之前，我参考了以下notebook进行预处理并重建了文本。感谢这份优秀的notebook：

Essay Constructor Notebook https://www.kaggle.com/code/kawaiicoderuwu/essay-contructor

在处理BERT模型之前，会进行文本预处理。例如：

qqqq qq qqqq (qq qqqqq qq). q'q q qqqqqq qqqqqq.
4 2 4 (2 5 2). 1'1 1 6 6.

连续的'q'会被转换为连续的数字。然后进行训练。这使得预测可以基于连续词数的序列和各种符号的特征（如.,;: () '! \n \n\n等）进行。

即使直接使用公开的notebook，Private LB的分数也能从0.568提升到0.565。

这些模型的预测结果通过加权进行了集成。