返回列表

11th solution

467. Lux AI | lux-ai-2021

开始: 2021-08-16 结束: 2021-12-20 游戏AI 数据算法赛
第11名方案

第11名方案

作者:Shihao Shao
比赛排名:第11名

首先,特别感谢 @stonet2000 主办了如此精彩的比赛!感谢 @shoheiazuma 提供的精彩公开内核,以及 @zaharch 分享的 UNet 方法。还有许多分享想法和见解的人……大家做得真棒!

我的方案基于 @shoheiazuma 的公开内核 Lux AI with Imitation Learning。(再次感谢!)为了方便阅读,我在下面列出了我所做的修改。我还将标记那些让我的机器人优于原始内核和 @shoheiazuma 最佳内核的部分 ;)

  • bto = 优于原始版本;btb = 优于 sazuma 的最佳机器人
  1. 中心动作 - (bto)
  2. SE 模块 - (bto; btb)
  3. 单单元级网络 - (可能是 btb)
  4. 学习城市动作:停留、建造工人和研究 - (bto)
  5. 更多数据(约2300个回合) - (bto; btb)
  6. 同时也学习第2名机器人的数据 - (bto; btb)
  7. 扩展隐藏层中的通道数 - (bto; btb)

下面列出了我认为可能有用但未实现的内容:

  1. 使用 3x3 网格作为输出头(既然我使用单元级策略,我可以这样做,这可以保留空间信息)。
  2. 与 UNet 模型集成(增加一些全局信息以供考虑)。
  3. 添加一些规则以避免愚蠢的移动(这是因为模仿学习的过拟合问题)。

最后,是我的一些见解(可能不一定正确):

  1. 对于模仿学习,在所有设置相同的情况下,单元级策略优于地图级策略。但它们需要权衡性能与时间。
  2. 如果你想进行迁移学习(从模仿学习到强化学习),你应该使用地图级策略。这是因为强化学习在地图级策略下表现更好。

感谢您的阅读!希望在第2季见到大家!

同比赛其他方案