返回列表

10th place solution

531. Playground Series Season 3, Episode 4 | playground-series-s3e4

开始: 2023-01-24 结束: 2023-01-30 反欺诈与反洗钱 数据算法赛
第10名方案

第10名方案

作者:Melkozerov Leonid | 排名:第10名

大家好,对于排名的突然提升我感到有点惊讶,以下是我所做的工作:

特征工程

  • 同时使用了比赛数据集和原始数据集。
  • Time 列转换为 Hour(小时)和 Day(天)。
  • 参考了这个很棒的 Notebook 中的除法特征。
  • 删除了 IdTime 列。

模型

使用带有自定义 Focal Loss(焦点损失)的 CatBoost 模型(链接:https://github.com/rahowa/catboost_focal_loss

交叉验证

基于这个编写良好的 Notebook:

  • 10折分层交叉验证。
  • 在每个分割上训练模型,计算预测结果,然后取平均值。

优化

使用带有 TPESampler 的 Optuna,运行速度非常慢,所以只进行了大约 50 次迭代。

优化的超参数包括:depthlearning_ratel2_leaf_regsubsamplemin_data_in_leaf 以及 Focal Loss 的 gamma 参数。

为那些提供了帮助的作者点赞!

这个结果可能纯属运气,或者这些系列赛本质上不需要过度复杂的处理。
谢谢!

同比赛其他方案