返回列表

1st place, pseudocode

452. Tabular Playground Series - Aug 2021 | tabular-playground-series-aug-2021

开始: 2021-08-01 结束: 2021-08-31 信贷风控 数据算法赛
第1名方案,伪代码

第1名方案,伪代码

作者:Ivan Kontic
发布时间:2021-09-03

大家好,

首先,对于像我这样的人来说,Kaggle 社区真的是一个非常有趣的地方。我在这里还比较新,我很高兴我决定“试一试”并参加了一些 Kaggle 比赛。TPS(Tabular Playground Series)是我特别喜欢的部分。

关于八月份的 TPS 比赛:

我有一个想法,核心非常简单,但也可能不那么简单。
如果我们有足够好的测试数据集伪标签会怎样?
如果我们在这种组合上训练模型会怎样?
你们可能明白我在想什么了 😊

# test_df, train_df, train_y 都是显而易见的变量

test_y = pseudolabels # 伪标签
learning_rate = 0.2

lgbm_reg_1 = lgb.LGBMRegressor()
lgbm_reg_1.fit(test_df, test_y)

new_y = train_y - lgbm_reg_1.predict(train_df)
# 现在我们有了包含正值和负值的标签('loss' 不再是一个好词,'error' 更好)

lgbm_reg_2 = lgb.LGBMRegressor()
lgbm_reg_2.fit(train_df, new_y)

error_prediction = lgbm_reg_2.predict(test_df)
test_y = test_y + (error_prediction * learning_rate)

我们可以在分数不断提高的同时多次执行此操作,并使用最后的 test_y 生成 submission.csv。

这是一种某种形式的提升算法。我试图寻找是否有人使用过类似的方法,但没有找到。

我制作了一个新的初始 notebook,我的最终 notebook 实在太乱了,我不好意思公开它 😊

感谢阅读
Ivan