返回列表

28th place solution

449. Hungry Geese | hungry-geese

开始: 2021-01-26 结束: 2021-08-09 游戏AI 数据算法赛
第28名解决方案

第28名解决方案

作者: imori
比赛排名: 第28名
发布时间: 2021-08-10

感谢举办这场精彩的比赛!
我非常感谢主办方和各位参赛者。

我赢得了我的第一枚银牌,也是第一次体验了强化学习!

我的解决方案基于 HandyRL 和蒙特卡洛树搜索(MCTS)。
感谢精彩的 Notebook Smart Geese Trained by Reinforcement LearningAlphaGeese Baseline,祝贺这两位作者。

解决方案

  • HandyRL 自我对练 5000 轮(epoch)并使用大批量(最佳分数:1112)
  • 集成若干轮训练好的模型(分数:约 1100)

我是强化学习的新手,所以我在黑暗中尝试了各种方法。
通过这次比赛,我学到了强化学习需要更多的训练轮数以及像 MCTS 这样的后处理。

无效尝试

  • 增加 gamma 值和更改其他参数
  • 扩展模型
  • 根据玩家位置将输入居中
  • 不使用 MCTS 的集成

遗憾之处

  • 没有尝试模仿学习
  • 增加训练轮数

已经公布了一些使用模仿学习的解决方案,所以我想在下一场强化学习比赛中尝试一下!

谢谢大家!

同比赛其他方案