返回列表

5th Place Solution: Features are all you need!

592. Linking Writing Processes to Writing Quality | linking-writing-processes-to-writing-quality

开始: 2023-10-02 结束: 2024-01-09 智能评测 数据算法赛

第5名解决方案:特征就是一切!

作者:Priyanshu Chaudhary
发布日期:2024年1月10日
团队排名:第5名

我要向Kaggle和学习代理实验室(Learning Agency Lab)表示感谢,感谢他们组织了这场精彩的比赛。从比赛开始以来,我们的交叉验证分数与排行榜分数保持了高度一致性,所有三个最终提交的方案都进入了金牌区,这令人非常欣慰。

我要感谢我的队友们:@jaideepvalani@rohitsingh9990@mori123@phoenix9032,感谢他们的贡献和坚持到最后一刻的努力。

我将简要总结哪些方法有效,哪些没有效果。

我将大部分时间花在了特征工程上,其余时间用于确保交叉验证(CV)和排行榜(LB)分数的可靠性。

推理笔记本链接:

https://www.kaggle.com/code/chaudharypriyanshu/light-automl-lgbm-22/notebook

特征工程

大多数特征都基于一个问题:
问: "评估者最终会看到什么?"
答: 文章文本。因此最重要的特征将从文章的结构中衍生出来。

我创建了以下几类特征:

  1. 段落长度(第一段、第二段、第三段...):单词计数和字符长度,以及一些累积长度特征
  2. 句子长度(第一句、第二句、第三句):单词计数和字符长度
  3. 文本中大写字母的总数
  4. 文本中名词的总数(大写字母总数 - 句子总数)
  5. 非顺序添加的单词数量
  6. 以相同单词开头的句子数量(第一个单词、前两个单词、前三个单词)
  7. 基于时间窗口的特征:在7/15/22/35分钟前添加了多少单词
  8. 逗号总数
  9. Tfidf特征(1-gram),共20个特征
  10. 更多标点符号统计,主要是基于数量的统计
  11. 问号和感叹号的总数
  12. 超过1个字符的替换操作总数
  13. 基于光标位置的特征:使用重构文章中存在的光标位置,计算实际标准差,作者将光标移动到多个位置的次数
  14. 编写特定长度单词所需的总操作时间
  15. 其余特征来自公开的笔记本

建模

我们的团队使用了4个神经网络模型和3个基于树的模型(共7个模型)。

神经网络

大多数神经网络模型来自lightautoML,在此公开笔记本中分享。

CV与LB分数
模型 CV LB
MLP0.589-
Denselight0.590-
Autoint0.599-
NODE0.593-
1DCNN0.6020.592
集成0.58680.582
训练策略:

1) Light autoML模型训练10个epoch
2) 由于结果有些不稳定,我使用了随机加权平均,并采用了最佳的3个验证分数(使用早停)
3) 由于CV可能过于乐观,我将它们与未使用早停的模型分开集成

梯度提升树:

CV与LB分数
模型 CV LB
LGBM0.5980.580
CATBoost0.6007-
XGBoost0.6001-
集成0.59630.582
训练策略:

1) 训练1500次迭代,不使用早停

最终CV设置

1) 按分数进行分层K折交叉验证
2) 使用5个随机种子训练:[42, 2022, 7, 4, 1]
3) 所有模型和CV使用相同的随机种子

集成方法

1) 我们独立优化神经网络和树模型的权重,并给予两者相等的权重
2) 使用Optuna确定每个模型的权重
最终CV分数为0.5858,LB = 0.578,Private = 0.560

如何避免分数暴跌?

  1. 集成时使用相同的随机种子
  2. 不过度拟合CV,而是尝试同时提高CV和LB以及两者的平均值
  3. 通过使用不同的特征集来增加多样性,因为在不同特征上训练的模型会产生多样化的结果
  4. 分别集成神经网络(使用早停)和梯度提升树(不使用早停)
  5. 减小CV与LB之间的差距(最重要)
  6. 所有模型使用相同的随机种子进行训练

结果:
- 采用此策略后,我们前15个可靠且更新的提交方案中有12个进入了金牌区
- 所有三个最终提交的方案都在金牌区内
- 最佳CV方案 = 最佳Private LB方案

无效的方法

1) 超过1个n-gram的TFIDF
2) 来自以往比赛的数据(如Feedback比赛)
3) Word2vec特征
4) svd+tfidf
5) 基于时间窗口的文章结构特征

同比赛其他方案