525. Novozymes Enzyme Stability Prediction | novozymes-enzyme-stability-prediction
非常感谢主办方和 Kaggle 举办这场有趣的比赛。祝贺其他参赛者分享了出色的解决方案和结果。特别感谢在比赛期间无私分享知识的参赛者:@cdeotte, @tilii7, @ropeonmars, @roberthatch, @dschettler8845, @jinyuansun, @kvigly55, @vslaykovsky, @oxzplvifi, @shlomoron 等。如果我遗漏了谁,请告诉我。
我选择了距离突变氨基酸最近的 21 个氨基酸来构建特征。
def sigmoid_w_adjustment(x, adjustment_factor=3.0):
return 1-(1/(1+np.exp(-x/adjustment_factor)))
该模型的公开分数为 0.52132,私有分数为:0.46642。
我们使用 D1 来训练我的第一个 Xgboost 模型。该数据集是从 Kaggle 训练集中选出的野生型和突变体,包含 4000 多行训练数据。首先,我对数据集做了一些简单的处理,去除重复行和缺失突变,删除与 pdb 不匹配的行,保留突变样本 > 20 的组。最后,我们得到了一个包含 1800 多行的训练集。
我们使用了上述特征,并以 Tm 排名为目标来训练模型,因此我们的模型共有 298 个特征。
该模型的公开分数为 0.40512,私有分数为