392. Prostate cANcer graDe Assessment (PANDA) Challenge | prostate-cancer-grade-assessment
恭喜大家,也感谢主办方筹备这次比赛!
我们非常惊讶能获得第一名,我们简单的标签去噪方法(令人惊讶地)提升了 PB(Private Board)分数。
这次比赛的核心在于处理噪声标签,因此我们努力寻找好的去噪方法。
这是 @kyoshioka47 提出的简单去噪方法:
pred。我们通过 ISUP 真实值(GT)与预测值之间的绝对差值来计算 差异。差异大于 1.6 的数据被简单移除。
以下是伪代码。probs_raw 是原始预测结果(ISUP)
# Base arutema method
def remove_noisy(df, thresh):
gap = np.abs(df["isup_grade"] - df["probs_raw"])
df_removed = df[gap > thresh].reset_index(drop=True)
df_keep = df[gap <= thresh].reset_index(drop=True)
return df_keep, df_removed
df_keep, df_remove = remove_noisy(df, thresh=1.6)
show_keep_remove(df, df_keep, df_remove)
使用去噪后的标签重新训练模型。
使用简单的带有 k-folds 的 Qishen Eff-b0 模型,我们获得了 CV 0.94,LB 0.90,PB 0.934 的成绩。
与不同模型集成进一步助推我们获得了第一名。
我们也尝试了 CleanLab,但在 CV/LB 上表现不佳,所以我们坚持使用了这种方法。
1 : 1)令人惊讶的是,即使尝试了多种权重组合,PB 分数仍达到了 0.940。
这是我们最好的 LB 模型。