31th Place Solution | Using NLP for tabular data! | 优胜方案

大家好，

请查看我在Kaggle上的笔记本：https://www.kaggle.com/code/tolgayan/language-modeling-for-tabular-data

我采用了一种独特的方法来处理表格数据，即将每一行数据转换为文本格式。例如，一个在sudden_fever、headache、nose_bleed列上均为1的行将被转换为"一个具有突然发烧、头痛、流鼻血症状的人。"我使用了emilyalsentzer/Bio_ClinicalBERT模型作为骨干网络来训练BERT模型，该模型非常适合医疗数据。

一些观察结果：

没有进行任何预处理，仅使用原始数据，展示了BERT方法的潜力。
我的最佳公开排行榜分数为0.40728，而在Kaggle笔记本中由于随机状态的影响，最佳分数为0.39072。
由于数据量较小，NLP模型容易过拟合。
使用外部数据生成的合成数据可能会有所帮助。
基础分数表现良好，适合用于集成架构。

我还对训练一个二元句子对分类模型很感兴趣，其中第一句是文本格式的表格数据行，第二句是疾病名称。

请分享您对此的看法。我很期待看到这种方法可以有哪些应用。

谢谢！

31th Place Solution | Using NLP for tabular data!

第31名解决方案 | 使用NLP处理表格数据！

同比赛其他方案