1st place, pseudocode | 优胜方案

第1名方案，伪代码

作者：Ivan Kontic
发布时间：2021-09-03

大家好，

首先，对于像我这样的人来说，Kaggle 社区真的是一个非常有趣的地方。我在这里还比较新，我很高兴我决定“试一试”并参加了一些 Kaggle 比赛。TPS（Tabular Playground Series）是我特别喜欢的部分。

关于八月份的 TPS 比赛：

我有一个想法，核心非常简单，但也可能不那么简单。
如果我们有足够好的测试数据集伪标签会怎样？
如果我们在这种组合上训练模型会怎样？
你们可能明白我在想什么了 😊

# test_df, train_df, train_y 都是显而易见的变量

test_y = pseudolabels # 伪标签
learning_rate = 0.2

lgbm_reg_1 = lgb.LGBMRegressor()
lgbm_reg_1.fit(test_df, test_y)

new_y = train_y - lgbm_reg_1.predict(train_df)
# 现在我们有了包含正值和负值的标签（'loss' 不再是一个好词，'error' 更好）

lgbm_reg_2 = lgb.LGBMRegressor()
lgbm_reg_2.fit(train_df, new_y)

error_prediction = lgbm_reg_2.predict(test_df)
test_y = test_y + (error_prediction * learning_rate)

我们可以在分数不断提高的同时多次执行此操作，并使用最后的 test_y 生成 submission.csv。

这是一种某种形式的提升算法。我试图寻找是否有人使用过类似的方法，但没有找到。

我制作了一个新的初始 notebook，我的最终 notebook 实在太乱了，我不好意思公开它 😊

感谢阅读
Ivan