返回列表

Private 20th Solution

592. Linking Writing Processes to Writing Quality | linking-writing-processes-to-writing-quality

开始: 2023-10-02 结束: 2024-01-09 智能评测 数据算法赛
第20名私人解决方案

第20名私人解决方案

作者: takai380(Kaggle Master)
发布日期: 2024年1月10日

最终获得了第20名,并赢得了一枚个人银牌。感谢主办方。我的解决方案包括两部分:基于决策树和特征工程的解决方案(与公开的notebook几乎相同)以及一个从重建文本进行预测的BERT模型。

特征工程

(由于与公开的notebook相似,我将省略这部分。)

我使用了与公开notebook类似的特征,包括:

文本特征

  • 字符数量
  • 句子统计
  • 段落统计
  • 标点统计
  • 换行符统计
  • 双换行符统计
  • 等等

事件日志特征

  • 计数和唯一值数量的最大值、最小值等特征
  • 所有数值列的统计聚合
  • P和R的突发特征
  • 暂停时间聚合

BERT部分

在使用该模型之前,我参考了以下notebook进行预处理并重建了文本。感谢这份优秀的notebook:

在处理BERT模型之前,会进行文本预处理。例如:

qqqq qq qqqq (qq qqqqq qq). q'q q qqqqqq qqqqqq.
4 2 4 (2 5 2). 1'1 1 6 6.

连续的'q'会被转换为连续的数字。然后进行训练。这使得预测可以基于连续词数的序列和各种符号的特征(如.,;: () '! \n \n\n等)进行。

即使直接使用公开的notebook,Private LB的分数也能从0.568提升到0.565。

使用模型

  • deberta-v3-base
  • deberta-xlarge

这些模型的预测结果通过加权进行了集成。

同比赛其他方案