4th place solution

449. Hungry Geese | hungry-geese

开始: 2021-01-26 结束: 2021-08-09 游戏AI 数据算法赛

第4名解决方案

第4名解决方案

作者： currypurin | 比赛排名： 第4名

首先，我要感谢主办方组织了这样一场有趣而精彩的比赛。
我还要感谢 HandyRL 团队发布了优秀的库 HandyRL。多亏了他们，我才能享受这次比赛。

以下是我们团队解决方案的概述。更多详情请参阅我的博客文章（日语）。

网络输入

头部位置：4个通道
尾部位置：4个通道
身体位置：4个通道
身体位置（从尾部逐渐减小）：4个通道
- 从尾部开始：1.0, 0.95, 0.9, 0.85…
上一步头部位置：4个通道
表示下一步失去身体的确定性或可能性的棋盘：4个通道
- 对于尾部以及下一步肯定会消失的尾部前部分设为1.0，对于可能消失也可能不消失的部分设为0.5。
- 这考虑了吃食物的可能性以及40步后身体会缩短一步的事实。
显示对手头部位置与自身Agent差异的棋盘：1个通道
- 这是一个棋盘，计算我的Agent身体长度与对手Agent身体长度的差值，并将该差值填入对手头部位置。
- 我创建这个的初衷是，如果我的Agent身体比对手长，我的Agent应该采取强势立场；如果比对手短，则应保持安全！

训练

几乎使用了 HandyRL 的初始参数。

对于评估Agent，我设置了一个从 HandyRL 共享权重额外训练而来的Agent（比赛结束时评分约为1090）。
学习曲线如下（每个epoch生成200个新回放）

学习曲线

推理

水平翻转、垂直翻转、水平翻转+垂直翻转以及无增强
- 这种增强将我的LB分数提高了大约40分。
此外，我们随机设置n和m，将棋盘左右移动n格、上下移动m格来进行上述增强。
- 这种增强进行了大约0.8秒，通过简单平均大约40个固定值的输出预测并取argmax来确定要走的方向。
- 与无增强相比，这种增强带来的分数增益可能只有50分左右，因此增加增强次数并不会变得更强。

未起作用的方法

蒙特卡洛树搜索和其他探索方法（主要由队友完成）都尝试过，但没有提高分数。因此，我们团队的最佳解决方案没有采用探索方法。

同比赛其他方案

Goosebumps' solution - 2nd place

3rd place solution

5th place solution: GeeseZero

6th place solution

8th place solution