返回列表

23th Place Solution

592. Linking Writing Processes to Writing Quality | linking-writing-processes-to-writing-quality

开始: 2023-10-02 结束: 2024-01-09 智能评测 数据算法赛

第23名解决方案

作者:Anil Ozturk(大师级)
发布时间:2024年1月10日
最终排名:第23名

哇,我原本信任交叉验证结果,期待排名会有变动,但没想到能冲进上银牌区。😅

你可以通过以下链接查看完整代码:https://github.com/nlztrk/Linking-Writing-Processes-to-Writing-Quality/

以下是我提取并使用的主要特征和方法:

文本特征

  • 对提取的文章进行预处理,删除重复的制表符、空格和换行符
  • 基于词、句子和段落的统计聚合特征
  • 标点符号使用统计
  • 标点符号错误统计(例如:句点后缺少空格、逗号前出现空格、换行前缺少标点符号等)

事件日志特征

  • 事件计数和唯一值计数特征
  • 所有数值列的统计聚合
  • 暂停时间聚合(分别针对全文、词间、句间和段间暂停)
  • P(按键)和R(释放)的爆发时间及按键次数特征

模型训练

  • 使用10折分层交叉验证
  • 采用CatBoost、LGBM和XGBoost三种模型
  • 使用Optuna对所有模型进行超参数调优
  • 跟踪记录OOF(Out-of-Fold)预测结果
  • 使用Optuna基于OOF结果优化的权重进行模型集成

我很高兴所有的努力没有白费。祝贺所有参赛者取得的优异成绩!

同比赛其他方案