返回列表

42nd place submission | jumped 880 places = lucky seed?

386. Tweet Sentiment Extraction | tweet-sentiment-extraction

开始: 2020-03-23 结束: 2020-06-16 自然语言处理 数据算法赛
第42名方案 | 飙升880名 = 幸运种子?

第42名方案 | 飙升880名 = 幸运种子?

作者:Dave Lorenz | 比赛排名:第42名

我的公开榜单(Public LB)分数是 0.712,当私有榜单(Private LB)发布时,我以 0.719 的私有分数飙升了 880 名。这确实很令人惊讶!因为我的工作很大程度上依赖于 @cdeotte 的代码,所以我保留了他原本的种子值 777。

我的这次提交与几周前分享的 BERTweet 公开 Notebook 非常相似(链接:https://www.kaggle.com/davelo12/bertweet)。那次提交获得了 0.718 的私有分数(银牌位置)和 0.709 的交叉验证(CV)分数。

我对这个 Notebook 做的唯一改动是:当遇到未知标记(即单词不在 BERTweet 词汇表中)时,使用 RoBERTa 的预测结果代替 BERTweet。这个最终获得第42名的方案取得了 0.719 的私有分数、0.712 的公开分数和 0.709 的 CV 分数。

我选择使用 BERTweet 而不是 RoBERTa,是因为我发现 BERTweet 更加稳定(即各折之间的标准差更低)。我发现 BERTweet 和 RoBERTa 在 CV 和公开榜单上的表现相似。

特别感谢 @cdeotte 提供的公开 Notebook,我从中受益匪浅。祝贺所有的获奖者!

同比赛其他方案