第4名解决方案
第4名解决方案
作者: currypurin | 比赛排名: 第4名
首先,我要感谢主办方组织了这样一场有趣而精彩的比赛。
我还要感谢 HandyRL 团队发布了优秀的库 HandyRL。多亏了他们,我才能享受这次比赛。
以下是我们团队解决方案的概述。更多详情请参阅 我的博客文章(日语)。
网络输入
- 头部位置:4个通道
- 尾部位置:4个通道
- 身体位置:4个通道
- 身体位置(从尾部逐渐减小):4个通道
- 从尾部开始:1.0, 0.95, 0.9, 0.85…
- 上一步头部位置:4个通道
- 表示下一步失去身体的确定性或可能性的棋盘:4个通道
- 对于尾部以及下一步肯定会消失的尾部前部分设为1.0,对于可能消失也可能不消失的部分设为0.5。
- 这考虑了吃食物的可能性以及40步后身体会缩短一步的事实。
- 显示对手头部位置与自身Agent差异的棋盘:1个通道
- 这是一个棋盘,计算我的Agent身体长度与对手Agent身体长度的差值,并将该差值填入对手头部位置。
- 我创建这个的初衷是,如果我的Agent身体比对手长,我的Agent应该采取强势立场;如果比对手短,则应保持安全!
训练
几乎使用了 HandyRL 的初始参数。
- 对于评估Agent,我设置了一个从 HandyRL 共享权重额外训练而来的Agent(比赛结束时评分约为1090)。
- 学习曲线如下(每个epoch生成200个新回放)

推理
- 水平翻转、垂直翻转、水平翻转+垂直翻转以及无增强
- 此外,我们随机设置n和m,将棋盘左右移动n格、上下移动m格来进行上述增强。
- 这种增强进行了大约0.8秒,通过简单平均大约40个固定值的输出预测并取argmax来确定要走的方向。
- 与无增强相比,这种增强带来的分数增益可能只有50分左右,因此增加增强次数并不会变得更强。
未起作用的方法
- 蒙特卡洛树搜索和其他探索方法(主要由队友完成)都尝试过,但没有提高分数。因此,我们团队的最佳解决方案没有采用探索方法。