28th place solution

449. Hungry Geese | hungry-geese

开始: 2021-01-26 结束: 2021-08-09 游戏AI 数据算法赛

第28名解决方案

第28名解决方案

作者： imori
比赛排名： 第28名
发布时间： 2021-08-10

感谢举办这场精彩的比赛！
我非常感谢主办方和各位参赛者。

我赢得了我的第一枚银牌，也是第一次体验了强化学习！

我的解决方案基于 HandyRL 和蒙特卡洛树搜索（MCTS）。
感谢精彩的 Notebook Smart Geese Trained by Reinforcement Learning 和 AlphaGeese Baseline，祝贺这两位作者。

解决方案

HandyRL 自我对练 5000 轮（epoch）并使用大批量（最佳分数：1112）
集成若干轮训练好的模型（分数：约 1100）

我是强化学习的新手，所以我在黑暗中尝试了各种方法。
通过这次比赛，我学到了强化学习需要更多的训练轮数以及像 MCTS 这样的后处理。

无效尝试

增加 gamma 值和更改其他参数
扩展模型
根据玩家位置将输入居中
不使用 MCTS 的集成

遗憾之处

没有尝试模仿学习
增加训练轮数

已经公布了一些使用模仿学习的解决方案，所以我想在下一场强化学习比赛中尝试一下！

谢谢大家！

同比赛其他方案

Goosebumps' solution - 2nd place

3rd place solution

4th place solution

5th place solution: GeeseZero

6th place solution