#7 私人榜与#2 公开榜解决方案

作者：Sarun P M（Kaggle 专家）

发布日期：2023年11月14日

比赛排名：第7名（私人榜得分：0.87926）

公开榜最高排名：第2名（得分：0.88136）

首先，我谨向所有获奖者以及“基于生物信号预测吸烟者状态”比赛的参与者表示祝贺。

最初，我使用XGBoost模型，通过optuna进行了大量迭代优化，未添加任何特征（公开榜得分：0.87392）。
随后，我加入了@cv13j0在公开笔记本中使用的伪标签技术，使公开榜得分提升至0.87901（进入前100名）。我尝试将测试数据集以高达85%的比例混入训练数据集，但公开榜得分的提升非常有限。
接着，我参考了@zhukovoleksiy和@arunklenin的公开笔记本，它们看起来非常相似。但@arunklenin的笔记本的独特之处在于添加了大量的衍生特征以及对公开榜排名靠前的选手的预测概率进行平均（平均方法）。结合这些特征使我的公开榜得分进入前20名（0.88116）。
我还观察到血红蛋白、体重、身高、Gtp、血清肌酐和龋齿等特征是重要特征，并添加了诸如血红蛋白×血红蛋白、血红蛋白×身高、血红蛋白×体重、体重×身高、血红蛋白×Gtp、血红蛋白×血清肌酐等特征，以及与血红蛋白组合的更多特征，这些特征使我的公开榜得分进入前2名（0.88126）。在比赛最后一天，我通过将SEED从42改为43，将得分提高到0.88136。（改变种子值竟有如此大的影响！！？？！！）
最终，在比赛结果公布后，我的最终排名为第7名，私人榜得分为0.87926。但是，我发现一些过去提交的、公开榜得分较低的提交，其私人榜得分却高于排行榜上显示的分数。为什么？？

无论如何，我为取得的成就感到高兴，并特别感谢以下作者分享他们的笔记本，这些笔记本被用于制作我的加权提交文件：@rukenmissonnier、@paddykb、@arunklenin、@cv13j0、@alexryzhkov。我也感谢@ravi20076、@oscarm524、@yaaangzhou和@armanzhalgasbayev，我从他们那里学到了许多新想法，并且已经复刻了他们在本场比赛中的公开笔记本。

谢谢大家！

#7 Private LB and #2 Public LB solution

#7 私人榜与#2 公开榜解决方案

同比赛其他方案