Solution high light and how to choose submission

解决方案亮点及如何选择提交结果

作者：Correlation (Grandmaster) | 排名： 13

亮点

在训练完 GMM 模型后，通过将每个类别的均值初始化为以下数值来重新训练 GMM，以避免陷入局部极小值：

[(means[0]+ means[1])/2, (means[1]+ means[2])/2, (means[2]+ means[0])/2]
假设你的样本均值为 u，类别 0 的均值为 init_u0，类别 1 的均值为 init_u1。

因为部分目标被翻转了（5%）。所以真实的类别均值为：

u0 = init_u0 + 0.05 * (init_u0 - init_u1)

u1 = init_u1 + 0.05 * (init_u1 - init_u0)

因此，我使用 x0' = 2 * u0 – x0 和 x1' = 2 * u1 - x1 来进行数据增强。

如何选择提交结果

我在由 make_classification 生成的数据上测试了我的模型。我发现 512*512 测试样本的 AUC 总是接近 0.975。我推断（Public score + Private score）/ 2 会接近 0.975。因此，我选择了一个 Public score 较低的模型作为我的一次提交。

我的 Kernel：https://www.kaggle.com/daishu/gmm-3-3-2

对我来说，用英语发帖真的很难。

解决方案亮点及如何选择提交结果

亮点

如何选择提交结果

同比赛其他方案