452. Tabular Playground Series - Aug 2021 | tabular-playground-series-aug-2021
大家好,
首先,对于像我这样的人来说,Kaggle 社区真的是一个非常有趣的地方。我在这里还比较新,我很高兴我决定“试一试”并参加了一些 Kaggle 比赛。TPS(Tabular Playground Series)是我特别喜欢的部分。
我有一个想法,核心非常简单,但也可能不那么简单。
如果我们有足够好的测试数据集伪标签会怎样?
如果我们在这种组合上训练模型会怎样?
你们可能明白我在想什么了 😊
# test_df, train_df, train_y 都是显而易见的变量
test_y = pseudolabels # 伪标签
learning_rate = 0.2
lgbm_reg_1 = lgb.LGBMRegressor()
lgbm_reg_1.fit(test_df, test_y)
new_y = train_y - lgbm_reg_1.predict(train_df)
# 现在我们有了包含正值和负值的标签('loss' 不再是一个好词,'error' 更好)
lgbm_reg_2 = lgb.LGBMRegressor()
lgbm_reg_2.fit(train_df, new_y)
error_prediction = lgbm_reg_2.predict(test_df)
test_y = test_y + (error_prediction * learning_rate)
我们可以在分数不断提高的同时多次执行此操作,并使用最后的 test_y 生成 submission.csv。
这是一种某种形式的提升算法。我试图寻找是否有人使用过类似的方法,但没有找到。
我制作了一个新的初始 notebook,我的最终 notebook 实在太乱了,我不好意思公开它 😊
感谢阅读
Ivan