533. Playground Series - Season 3, Episode 5 | playground-series-s3e5
感谢主办方举办了又一次充满挑战和趣味的比赛。
我尝试了许多不同的方法,其中最有趣的可能是根据预测类别从高到低对测试实例进行排名(使用实数而不是简单的整数),然后根据{训练集加上原始数据集}的预期分布对其进行拟合。
在{训练集加上原始数据}中,去除重复项后,我们的质量值分布如下:
| 质量等级 | 占比 |
|---|---|
| 8 | 1.8% |
| 7 | 14.8% |
| 6 | 38.6% |
| 5 | 41.4% |
| 4 | 2.9% |
| 3 | 0.6% |
我们导入一个包含按这些比例分配的整数的文件,整数数量与测试集中的数量相同。然后,我们将排名前1.8%的葡萄酒匹配到类别8,接下来的14.8%匹配到类别7,依此类推。
我在这里实现了这一点。
鉴于其他人在简单集成方面取得的成功,我也尝试在这里使用了公开榜顶级方案的简单中位数方法。
最终,理想化匹配在公开榜上普遍较差的分数说服我选择了两个基于中位数的提交,结果证明这并不是最优的。事实上,我甚至有一个两个模型的简单集成,如果当时我知道选择它,本可以拿到第六名。