TamakEri: 第5名解决方案 ⚽️

TamakEri（“球蹴”）在日语中意为“玩球”。

恭喜获奖者！🎉
感谢所有参与者、Kaggle团队、曼彻斯特城足球俱乐部和Google Research带来的精彩比赛！⚽️

我们团队在距离截止日期大约还有三周时参加了这次比赛。我们一直致力于通过强化学习（RL）来争取胜利。幸运的是，我们获得了第5名，我们很高兴与Kaggle社区分享我们的解决方案和代码。

特别感谢我的队友 @yuricat !!

概述

Overview

我们主要在类似 IMPALA 的学习者-执行者架构上使用（深度）强化学习来训练我们的智能体。我们的神经网络模型通过自我博弈结合与各种对手智能体（基于规则的机器人、内置AI等）的单人对战进行训练。

在学习的早期阶段，为了辅助RL的启动，我们同时使用了顶级玩家的回放数据进行监督学习（SL）。随着训练的进行，监督学习的效果逐渐减弱，模型最终仅通过强化学习进行训练。

我们的模型由多头自注意力机制、CNN、GRU和MLP网络组成。详细的模型和输入特征将在后面描述。

我们的智能体主要针对足球游戏引擎中实现的困难级别内置AI（即团队难度 = 1.0）进行评估。在比赛的最后一天，最新模型对内置AI的胜率达到了约90%，并且还在不断提高！
（然而，我们在截止日期前才发现，在给上一个模型打分时无法提交下一个模型，所以我们没能提交最新的（集成）模型 😭😭😭 。我们将在下一场大赛中利用这次经验！！⚽️）

我们的实现脚本基于开源RL库 HandyRL。

算法与训练

Algorithm and Training

主要算法

离策略分布式强化学习
TD(λ) + 重要性采样（截断变体）

我们使用离策略分布式强化学习，从大量游戏结果中高效地更新智能体的策略。学习算法基于策略梯度算法。模型学习策略、价值和回报。我们的价值估计最终游戏结果，而我们的回报估计折扣分数奖励。然后，我们的策略最大化这两者。换句话说，策略学习最大化进下一个球和赢得比赛的期望。在我们的训练中，当其中一队得分时，回报的计算会重置，以将回合分解为得分前和得分后。

Loss Diagram

损失函数

RL 损失

策略损失
- 重要性采样（1-step Retrace） * 优势 * log(策略)
- 优势 = (价值优势 + 回报优势) / 2

TamakEri: 5th place solution ⚽️

TamakEri: 第5名解决方案 ⚽️

概述

算法与训练

主要算法

损失函数

RL 损失

同比赛其他方案