515. Google AI4Code – Understand Code in Python Notebooks | AI4Code
我们的最终提交是融合了三个模型的结果,这些模型具有相同的架构但使用了不同的训练数据。这三个模型共享相同的处理流程。我们在比赛中采用了两阶段方法:
提交和训练代码:https://www.kaggle.com/code/qiaoshiji/fork-of-ai4code-infer-22e56e/data?scriptVersionId=103071263
使用 UniXcoder 作为第一阶段的预训练模型。不同模型的初始得分如下:
使用以下三种不同类型的任务预训练第一阶段模型:
第二阶段模型的多任务学习:
使用更多数据:
外部数据来自 KGTorrent:https://github.com/collab-uniba/KGTorrent
KGTorrent
UniXcoder
Github: https://github.com/microsoft/CodeBERT/tree/master/UniXcoder#1-code-and-nl-embeddings
非常感谢主办方举办如此精彩的比赛。