409. Google Research Football with Manchester City F.C. | google-football
感谢 Kaggle、曼城足球俱乐部和 Google Research 主办了这场精彩的比赛。参与这次比赛是我一段时间以来最有趣的经历。
我的解决方案的“太长不看”版本是:我使用了一个 MLP 模型来随机模仿 WeKick 的智能体,并辅以一些规则来帮助它在陌生的环境中导航。
在拿到 GCP 优惠券后,我看了一下比赛时间表,觉得要在不到两周的时间内从零开始训练一个有竞争力的强化学习(RL)智能体是不可能的。我必须找到某种方法来缩短训练时间。
后来我发现了 Ken Miller 的 RL 近似笔记本,了解到模仿策略的效果相当不错。所以我决定使用类似的方法(预)训练神经网络模型来引导我的策略网络,并使用了基于 Felipe Bivort Haiek 的 Google Football Episode Scraper quick fix 的回合爬虫。非常感谢你们两位!@mlconsult @felipebihaiek
过了一段时间,我通过调整特征和辅助规则发现了很多容易摘取的果实(low-hanging fruits)。由于模型训练仅限于经验回放,无法进行探索。训练出的智能体不知道如何在状态空间的大部分区域行动,因此设定一些规则引导它们回到熟悉的领域非常有帮助。我决定花时间调整模仿者智能体,而不是去尝试 RL 这种“登月计划”。这个更稳妥的赌注得到了回报,在最后一天给了我两个得分约 1,300 的智能体。
一些细节(快速浏览后,似乎有几支队伍使用了与我类似的方法。我还没有通读他们的方案,所以如果没有正确引用已经分享的内容,我深表歉意):
我的代码已在 Github 上公开。目前缺乏适当的文档和环境复现说明。我会尽量在接下来的几天里完善它。