第5名解决方案：特征就是一切！

作者：Priyanshu Chaudhary
发布日期：2024年1月10日
团队排名：第5名

我要向Kaggle和学习代理实验室（Learning Agency Lab）表示感谢，感谢他们组织了这场精彩的比赛。从比赛开始以来，我们的交叉验证分数与排行榜分数保持了高度一致性，所有三个最终提交的方案都进入了金牌区，这令人非常欣慰。

我要感谢我的队友们：@jaideepvalani、@rohitsingh9990、@mori123 和 @phoenix9032，感谢他们的贡献和坚持到最后一刻的努力。

我将简要总结哪些方法有效，哪些没有效果。

我将大部分时间花在了特征工程上，其余时间用于确保交叉验证（CV）和排行榜（LB）分数的可靠性。

推理笔记本链接：

https://www.kaggle.com/code/chaudharypriyanshu/light-automl-lgbm-22/notebook

特征工程

大多数特征都基于一个问题：
问： "评估者最终会看到什么？"
答：文章文本。因此最重要的特征将从文章的结构中衍生出来。

我创建了以下几类特征：

段落长度（第一段、第二段、第三段...）：单词计数和字符长度，以及一些累积长度特征
句子长度（第一句、第二句、第三句）：单词计数和字符长度
文本中大写字母的总数
文本中名词的总数（大写字母总数 - 句子总数）
非顺序添加的单词数量
以相同单词开头的句子数量（第一个单词、前两个单词、前三个单词）
基于时间窗口的特征：在7/15/22/35分钟前添加了多少单词
逗号总数
Tfidf特征（1-gram），共20个特征
更多标点符号统计，主要是基于数量的统计
问号和感叹号的总数
超过1个字符的替换操作总数
基于光标位置的特征：使用重构文章中存在的光标位置，计算实际标准差，作者将光标移动到多个位置的次数
编写特定长度单词所需的总操作时间
其余特征来自公开的笔记本

建模

我们的团队使用了4个神经网络模型和3个基于树的模型（共7个模型）。

神经网络

大多数神经网络模型来自lightautoML，在此公开笔记本中分享。

CV与LB分数

模型	CV	LB
MLP	0.589	-
Denselight	0.590	-
Autoint	0.599	-
NODE	0.593	-
1DCNN	0.602	0.592
集成	0.5868	0.582

训练策略：

1) Light autoML模型训练10个epoch
2) 由于结果有些不稳定，我使用了随机加权平均，并采用了最佳的3个验证分数（使用早停）
3) 由于CV可能过于乐观，我将它们与未使用早停的模型分开集成

梯度提升树：

CV与LB分数

模型	CV	LB
LGBM	0.598	0.580
CATBoost	0.6007	-
XGBoost	0.6001	-
集成	0.5963	0.582

训练策略：

1) 训练1500次迭代，不使用早停

最终CV设置

1) 按分数进行分层K折交叉验证
2) 使用5个随机种子训练：[42, 2022, 7, 4, 1]
3) 所有模型和CV使用相同的随机种子

集成方法

1) 我们独立优化神经网络和树模型的权重，并给予两者相等的权重
2) 使用Optuna确定每个模型的权重
最终CV分数为0.5858，LB = 0.578，Private = 0.560

如何避免分数暴跌？

集成时使用相同的随机种子
不过度拟合CV，而是尝试同时提高CV和LB以及两者的平均值
通过使用不同的特征集来增加多样性，因为在不同特征上训练的模型会产生多样化的结果
分别集成神经网络（使用早停）和梯度提升树（不使用早停）
减小CV与LB之间的差距（最重要）
所有模型使用相同的随机种子进行训练

结果：
- 采用此策略后，我们前15个可靠且更新的提交方案中有12个进入了金牌区
- 所有三个最终提交的方案都在金牌区内
- 最佳CV方案 = 最佳Private LB方案

无效的方法

1) 超过1个n-gram的TFIDF
2) 来自以往比赛的数据（如Feedback比赛）
3) Word2vec特征
4) svd+tfidf
5) 基于时间窗口的文章结构特征

比赛中帮助我们的笔记本

请给他们点赞

特征工程：句子与段落特征 https://www.kaggle.com/code/hiarsl/feature-engineering-sentence-paragraph-features LGBM和NN在句子上的应用 https://www.kaggle.com/code/alexryzhkov/lgbm-and-nn-on-sentences 银弹 | 单模型 | 165个特征 https://www.kaggle.com/code/awqatak/silver-bullet-single-model-165-features 进入时间序列空间 - 第三部分新聚合特征 https://www.kaggle.com/code/abdullahmeda/enter-ing-the-timeseries-space-sec-3-new-aggs

5th Place Solution: Features are all you need!

第5名解决方案：特征就是一切！

推理笔记本链接：

特征工程

建模

神经网络

CV与LB分数

训练策略：

梯度提升树：

CV与LB分数

训练策略：

最终CV设置

集成方法

如何避免分数暴跌？

无效的方法

比赛中帮助我们的笔记本

同比赛其他方案