640. Playground Series - Season 5, Episode 2 | playground-series-s5e2
决心 – 创造力 – 运气
我把运气的定义留给你们决定。
大家好!
我叫 Sebastian,首先,我要感谢 Paweł Godula 先生 – narsil (jobs-in-data.com) 在波兰传播 Kaggle 理念,最重要的是,他在多年后帮助我发现了我将在生活中追求什么,以及我将在哪个领域成为世界上最好的人之一。
Chris Deotte – 感谢你所做的一切以及你做事的方式。WooHoo!!!
我的解决方案中必不可少的一部分是其他竞争对手分享的代码。主要角色包括:@cdeotte, @masayakawamata, @mikhailnaumov 和 @vyacheslavbolotin。
feh_distance)
train_raw 和 test_raw,基于选定属性之间的距离(映射为数值后)计算新变量。_2_1, _2_2, … _5_1 等列,它们代表选定(映射)属性的平方差之和的平方根,例如 (x1 - x3)² + (x2 - x4)² 等。Brand, Style, Color 等),通过与 Weight Capacity (kg) 结合创建一个新特征。new_col = Brand * 100 + Weight Capacity (kg)。orig_price_*)
Noisy_Student_Bag_Price_Prediction_Dataset.csv),计算以下值:orig_price_mean, orig_price_std, orig_price_min, orig_price_max, 和 orig_price_median。orig_price_missing 用于捕捉给定组合未出现在外部数据集中的情况。cudf)以更快地计算统计信息,如均值、标准差、最小值、最大值、中位数、计数和偏度。Weight Capacity (kg) 和 COMBO 特征分组。BASE_FEATURES 中的列应用了 目标编码(通过 cuml.preprocessing.TargetEncoder 实现)。结果,每个特征都被其类别内的(平滑)平均 Price 替换。_NaN_*)
Brand 等于'Missing',则 _NaN_Brand = 1)。_7_NaNs 总结了所有关键字段中缺失值的数量。Weight Capacity (kg)),Price)。latent)包含数值特征的表示,同时也“知道”如何协助预测价格。latent 向量成为一个有价值的特征,附加到模型的最终输入中。总结:
该笔记本大量使用了特征工程——既有经典的(分组聚合、目标编码、处理缺失值),也有更高级的(自编码器、距离特征、外部价格数据)。最终的集成结合了几个基于树的模型,并在最后一层利用 BayesianRidge,这进一步稳定了结果并降低了 RMSE。
我一生中做过很多事情,但没有一件与 IT 有关。大约三个月前,我开始学习 Python 和 SQL,直到两个月前才发现 Kaggle,所以我写的关于比赛经历的所有内容都可能包含错误,我可能会出错。
我玩过很多游戏,通常决定因素是游戏是否具有足够的挑战性。Kaggle 是我知道的最具挑战性的游戏,它带来的满足感完全处于另一个水平。
一些随笔 – 来自新手给新手,这些想法在 背包预测挑战赛 结束时掠过我的脑海。也许明天我会有不同的结论,所以请不要太重视它们。比赛结束时的反思主要是非技术性的,因为我几个月后才会准备好解决那些问题。
你怎么看?你有什么经验?
祝大家在未来的比赛中好运。
谢谢大家带来了一场精彩的比赛。
我们在 trail 上见,在排行榜(LB)的顶端见。
Sebastian Kruszek
automatylicza@gmail.com
每天更强!(Codziennie Silniejsi!)