660. Konwinski Prize | konwinski-prize
首先,我们要感谢主办方组织了这样一场有意义的比赛。
我们参加这场比赛是为了学习 AI 代理如何编码,我们学到了很多。正如后面详细讨论的那样,我们认为获得第三名只是运气好,但很荣幸能获得这个位置。
我们解决方案的大部分基于 starter-notebook-select-patch-verify by @huikang。我们的独特之处在于,在开始解决问题之前,我们使用问题的难度评估来选择应该解决哪些问题和跳过哪些问题。
为了减少将 LLM 加载到 GPU 内存所需的时间(只加载一次),我们在所有运行中使用了相同的模型 (deepseek-r1-distill-llama-70b-awq)。对于难度评估,我们将 LoRA 适配器应用于相同的基础模型。
整体流程如下:
通过以下过程检查补丁是否正确。如果六个都不正确,则跳过该问题的回答。如果有一个通过了所有检查,则选择其中一个作为答案:
我们使用 LoRA (Low-Rank Adaptation) 微调进行难度评估。
在这次比赛中,错误答案的惩罚很大,所以避免错误答案有很大的优势。虽然我们通过评估难度级别避免了无法解决的问题,但最好使用其他方法提前避免无法解决的问题,避免提交不合适的补丁等,以提高分数。
最重要的是,像许多参与者一样,@huikang 的 starter notebook 对我们的解决方案至关重要,并作为许多其他发现的基础。我们表示最深切的感谢。