475. Jigsaw Rate Severity of Toxic Comments | jigsaw-toxic-severity-rating
首先,祝贺所有的获胜者。
虽然非常幸运地获得了金牌,但这个结果可能90%(甚至更多?)只是运气好而已。
因此,我的解决方案可能对大家来说并不是那么有趣、特别或有价值。
我所做的仅仅是:
如果没问题的话,请阅读我的解决方案(或者说是我的诗)。
步骤1:使用大量数据集的 TF-IDF 训练 Ridge 回归器
步骤2:毒性预测库
步骤3:将 validation_data.csv 转换为“更具毒性比率”用于训练
步骤4:使用这些特征和额外的朴素特征训练 LightGBM
我从这个 Ridge 回归 Notebook 开始。
该 Notebook 的内容包括:
在阅读并运行了这个 Notebook 后,我想到了:
该 Notebook 包含以下用于训练 Ridge 回归的数据:
而我添加了:
我使用它们来训练 Ridge 回归器,并使用该回归器的输出来训练 LightGBM。
(接步骤4)
我使用了 Detoxify。这是一个通过基于 Bert 的模型训练而成的毒性评分库,使用了过去的 Jigsaw 竞赛数据。
我还找到了一个离线运行 Notebook。
该库有三种预