返回列表

TamakEri: 5th place solution ⚽️

409. Google Research Football with Manchester City F.C. | google-football

开始: 2020-09-28 结束: 2020-12-11 游戏AI AI大模型赛
TamakEri: 第5名解决方案 ⚽️

TamakEri: 第5名解决方案 ⚽️

TamakEri(“球蹴”)在日语中意为“玩球”。

恭喜获奖者!🎉
感谢所有参与者、Kaggle团队、曼彻斯特城足球俱乐部和Google Research带来的精彩比赛!⚽️

我们团队在距离截止日期大约还有三周时参加了这次比赛。我们一直致力于通过强化学习(RL)来争取胜利。幸运的是,我们获得了第5名,我们很高兴与Kaggle社区分享我们的解决方案和代码

特别感谢我的队友 @yuricat !!

概述

Overview

我们主要在类似 IMPALA 的学习者-执行者架构上使用(深度)强化学习来训练我们的智能体。我们的神经网络模型通过自我博弈结合与各种对手智能体(基于规则的机器人、内置AI等)的单人对战进行训练。

在学习的早期阶段,为了辅助RL的启动,我们同时使用了顶级玩家的回放数据进行监督学习(SL)。随着训练的进行,监督学习的效果逐渐减弱,模型最终仅通过强化学习进行训练。

我们的模型由多头自注意力机制、CNN、GRU和MLP网络组成。详细的模型和输入特征将在后面描述。

我们的智能体主要针对足球游戏引擎中实现的困难级别内置AI(即团队难度 = 1.0)进行评估。在比赛的最后一天,最新模型对内置AI的胜率达到了约90%,并且还在不断提高!
(然而,我们在截止日期前才发现,在给上一个模型打分时无法提交下一个模型,所以我们没能提交最新的(集成)模型 😭😭😭 。我们将在下一场大赛中利用这次经验!!⚽️)

我们的实现脚本基于开源RL库 HandyRL

算法与训练

Algorithm and Training

主要算法

  • 离策略分布式强化学习
  • TD(λ) + 重要性采样(截断变体)

我们使用离策略分布式强化学习,从大量游戏结果中高效地更新智能体的策略。学习算法基于策略梯度算法。模型学习策略、价值和回报。我们的价值估计最终游戏结果,而我们的回报估计折扣分数奖励。然后,我们的策略最大化这两者。换句话说,策略学习最大化进下一个球和赢得比赛的期望。在我们的训练中,当其中一队得分时,回报的计算会重置,以将回合分解为得分前和得分后。

Loss Diagram

损失函数

RL 损失

  • 策略损失
    • 重要性采样(1-step Retrace) * 优势 * log(策略)
    • 优势 = (价值优势 + 回报优势) / 2
同比赛其他方案