592. Linking Writing Processes to Writing Quality | linking-writing-processes-to-writing-quality
感谢 @kaggle 和 The Learning Agency Lab 举办这场精彩的竞赛。同时感谢制作优秀公开笔记本的Kagglers们。
虽然我没有进行充分研究来验证我的假设,但我认为使用多标签分层K折(Multilabel Stratified K-Fold)https://github.com/trent-b/iterative-stratification 使我的交叉验证策略更加稳健,并帮助我构建了更稳定的解决方案。
除了公开笔记本中的特征外,我还使用了TF-IDF向量化器(char_wb)和计数向量化器(仅字符)从重构的文章中提取更多特征。但缺点是这使得特征工程过程更加耗时。
我将其他重要特征作为分数之外的附加标签使用。这些特征是基于探索性数据分析和线性相关性分析选择的。

在建模部分,我使用了6个随机种子和10折的LGBM进行训练,并对模型结果取平均作为最终的LGBM预测部分。
最终预测 = 0.65 × LGBM预测结果 + 0.35 × Denselight预测结果(来自公开笔记本)
该流程的得分为: