大家好,
请查看我在Kaggle上的笔记本:https://www.kaggle.com/code/tolgayan/language-modeling-for-tabular-data
我采用了一种独特的方法来处理表格数据,即将每一行数据转换为文本格式。例如,一个在sudden_fever、headache、nose_bleed列上均为1的行将被转换为"一个具有突然发烧、头痛、流鼻血症状的人。"我使用了emilyalsentzer/Bio_ClinicalBERT模型作为骨干网络来训练BERT模型,该模型非常适合医疗数据。
一些观察结果:
- 没有进行任何预处理,仅使用原始数据,展示了BERT方法的潜力。
- 我的最佳公开排行榜分数为0.40728,而在Kaggle笔记本中由于随机状态的影响,最佳分数为0.39072。
- 由于数据量较小,NLP模型容易过拟合。
- 使用外部数据生成的合成数据可能会有所帮助。
- 基础分数表现良好,适合用于集成架构。
我还对训练一个二元句子对分类模型很感兴趣,其中第一句是文本格式的表格数据行,第二句是疾病名称。
请分享您对此的看法。我很期待看到这种方法可以有哪些应用。
谢谢!