返回列表

4th place solution

449. Hungry Geese | hungry-geese

开始: 2021-01-26 结束: 2021-08-09 游戏AI 数据算法赛
第4名解决方案

第4名解决方案

作者: currypurin | 比赛排名: 第4名

首先,我要感谢主办方组织了这样一场有趣而精彩的比赛。
我还要感谢 HandyRL 团队发布了优秀的库 HandyRL。多亏了他们,我才能享受这次比赛。

以下是我们团队解决方案的概述。更多详情请参阅 我的博客文章(日语)。

网络输入

  • 头部位置:4个通道
  • 尾部位置:4个通道
  • 身体位置:4个通道
  • 身体位置(从尾部逐渐减小):4个通道
    • 从尾部开始:1.0, 0.95, 0.9, 0.85…
  • 上一步头部位置:4个通道
  • 表示下一步失去身体的确定性或可能性的棋盘:4个通道
    • 对于尾部以及下一步肯定会消失的尾部前部分设为1.0,对于可能消失也可能不消失的部分设为0.5。
    • 这考虑了吃食物的可能性以及40步后身体会缩短一步的事实。
  • 显示对手头部位置与自身Agent差异的棋盘:1个通道
    • 这是一个棋盘,计算我的Agent身体长度与对手Agent身体长度的差值,并将该差值填入对手头部位置。
    • 我创建这个的初衷是,如果我的Agent身体比对手长,我的Agent应该采取强势立场;如果比对手短,则应保持安全!

训练

几乎使用了 HandyRL 的初始参数。

  • 对于评估Agent,我设置了一个从 HandyRL 共享权重额外训练而来的Agent(比赛结束时评分约为1090)。
  • 学习曲线如下(每个epoch生成200个新回放)

学习曲线

推理

  • 水平翻转、垂直翻转、水平翻转+垂直翻转以及无增强
    • 这种增强将我的LB分数提高了大约40分。
  • 此外,我们随机设置n和m,将棋盘左右移动n格、上下移动m格来进行上述增强。
    • 这种增强进行了大约0.8秒,通过简单平均大约40个固定值的输出预测并取argmax来确定要走的方向。
    • 与无增强相比,这种增强带来的分数增益可能只有50分左右,因此增加增强次数并不会变得更强。

未起作用的方法

  • 蒙特卡洛树搜索和其他探索方法(主要由队友完成)都尝试过,但没有提高分数。因此,我们团队的最佳解决方案没有采用探索方法。
同比赛其他方案