592. Linking Writing Processes to Writing Quality | linking-writing-processes-to-writing-quality
最终获得了第20名,并赢得了一枚个人银牌。感谢主办方。我的解决方案包括两部分:基于决策树和特征工程的解决方案(与公开的notebook几乎相同)以及一个从重建文本进行预测的BERT模型。
(由于与公开的notebook相似,我将省略这部分。)
我使用了与公开notebook类似的特征,包括:
在使用该模型之前,我参考了以下notebook进行预处理并重建了文本。感谢这份优秀的notebook:
在处理BERT模型之前,会进行文本预处理。例如:
qqqq qq qqqq (qq qqqqq qq). q'q q qqqqqq qqqqqq. 4 2 4 (2 5 2). 1'1 1 6 6.
连续的'q'会被转换为连续的数字。然后进行训练。这使得预测可以基于连续词数的序列和各种符号的特征(如.,;: () '! \n \n\n等)进行。
即使直接使用公开的notebook,Private LB的分数也能从0.568提升到0.565。
这些模型的预测结果通过加权进行了集成。