返回列表

1st: A brief review of the competition experience (Detail solution is on the way)

574. CommonLit - Evaluate Student Summaries | commonlit-evaluate-student-summaries

开始: 2023-07-12 结束: 2023-10-11 智能评测 数据算法赛
第一名:竞赛经验简要回顾(详细解决方案即将推出)
标题:第一名:竞赛经验简要回顾(详细解决方案即将推出)
作者:it'smeanszao (CONTRIBUTOR)
发布时间:2023年10月15日
竞赛排名:第1名

第一名:竞赛经验简要回顾(详细解决方案即将推出)

一些感想

我要感谢组织者为我们带来了精彩的比赛,并感谢大家分享和讨论的氛围。本次竞赛是一门自然语言处理课程的实践项目。我和队友在这次竞赛中学到的比在学校课堂上学到的还要多。当然,也要感谢幸运的抽签,运气也是一个重要因素。

我们在比赛中做了什么

我们的最终提交仅使用了一个4折的microsoft/deberta v3 large模型。由于每位队员的学业压力和时间原因,我们一开始并没有计划研究各种技巧或训练方法,而是从数据的质量和多样性入手。

为什么选择数据?因为我们发现提供的训练数据只包含四个主题,但从我们自身的经验来看,训练学生的写作能力需要大量不同主题,因此在真实测试场景中,模型对不同主题的理解最为重要(后来其他选手通过公开测试集也证明了这一点)。我们还注意到,在LLM的竞赛中,许多人使用LLM进行数据增强并取得了令人兴奋的效果,因此我们专注于提高主题的多样性。(我们持续关注其他竞赛和竞争对手在使用LLM方面的经验和进展,但我们没有看到任何人公开透露使用LLM是否"有用",即使他们尝试过使用生成的数据。)

我们真诚地希望我们的想法能为未来竞赛中LLM的使用提供一些可行的思路,并为其他参与者带来参考价值。

我们解决方案的关键点:

  1. 元伪标签(3轮),最关键且耗时的部分,是将未标注数据与标注数据关联的关键,源自Google的一篇论文。(https://arxiv.org/pdf/2003.10580.pdf)

  2. 精心设计的提示词,引导LLM输出其内部的主题和主题文本(其实我们可以使用commonlit网站,但当时没有意识到。)

  3. 另一个提示词,用于为每个额外主题生成十个不同质量的摘要。

  4. 修改开源训练代码中的数据预处理,将提示文本引入模型,但大多数其他优秀团队也有关键点,这在讨论中经常被提及。

  5. 两阶段训练:第一阶段 - 仅使用伪标签数据进行2个epoch的训练,并在训练集上验证;第二阶段 - 仅使用训练数据进行2-3个epoch的训练。这样,我们就不必过于关注伪标签的数据分布,这点在@philippsinger的Feedback-ELL的解决方案中提到了。

  6. 根据输入文本的长度对索引进行排序,以减少推理时间。整个模型的推理预计需要7小时,如果不这样做,推理时间将超过9小时的限制。

  7. @tsunotsuno共享的训练和推理管道代码,完美的流程步骤为我们节省了大量构建管道的时间。

其他话

我们只使用了开源代码,没有对模型做任何改进。
这些天,我们阅读了其他团队的计划,这给我们留下了深刻印象,特别是@ivanaerlic提到的"Head Mask"及其对游戏本身和模型结构本质的深刻理解和洞察,让我们钦佩不已,并希望有一天能像您一样做出如此优秀的模型优化。

我相信,结合head mask和llm元伪标签过程,仅使用一个模型,私人分数可能会提高到0.43+。

再次感谢所有参与者的无私分享。希望我们的工作能为社区做出贡献!! :)

用于LLM生成提示词的提示词:

用于LLM生成摘要的提示词:

同比赛其他方案