返回列表

31th Place Solution | Using NLP for tabular data!

547. Playground Series - Season 3, Episode 13 | playground-series-s3e13

开始: 2023-04-18 结束: 2023-05-01 临床决策支持 数据算法赛
第31名解决方案 | 使用NLP处理表格数据

第31名解决方案 | 使用NLP处理表格数据!

作者:E. Tolga Ayan | 发布日期:2023年4月28日 | 投票数:8 | 比赛排名:第31名

大家好,

请查看我在Kaggle上的笔记本:https://www.kaggle.com/code/tolgayan/language-modeling-for-tabular-data

我采用了一种独特的方法来处理表格数据,即将每一行数据转换为文本格式。例如,一个在sudden_fever、headache、nose_bleed列上均为1的行将被转换为"一个具有突然发烧、头痛、流鼻血症状的人。"我使用了emilyalsentzer/Bio_ClinicalBERT模型作为骨干网络来训练BERT模型,该模型非常适合医疗数据。

一些观察结果:

  • 没有进行任何预处理,仅使用原始数据,展示了BERT方法的潜力。
  • 我的最佳公开排行榜分数为0.40728,而在Kaggle笔记本中由于随机状态的影响,最佳分数为0.39072。
  • 由于数据量较小,NLP模型容易过拟合。
  • 使用外部数据生成的合成数据可能会有所帮助。
  • 基础分数表现良好,适合用于集成架构。

我还对训练一个二元句子对分类模型很感兴趣,其中第一句是文本格式的表格数据行,第二句是疾病名称。

请分享您对此的看法。我很期待看到这种方法可以有哪些应用。

谢谢!

同比赛其他方案