11th solution

467. Lux AI | lux-ai-2021

开始: 2021-08-16 结束: 2021-12-20 游戏AI 数据算法赛

第11名方案

第11名方案

作者：Shihao Shao
比赛排名：第11名

首先，特别感谢 @stonet2000 主办了如此精彩的比赛！感谢 @shoheiazuma 提供的精彩公开内核，以及 @zaharch 分享的 UNet 方法。还有许多分享想法和见解的人……大家做得真棒！

我的方案基于 @shoheiazuma 的公开内核 Lux AI with Imitation Learning。（再次感谢！）为了方便阅读，我在下面列出了我所做的修改。我还将标记那些让我的机器人优于原始内核和 @shoheiazuma 最佳内核的部分 ;)

bto = 优于原始版本；btb = 优于 sazuma 的最佳机器人

中心动作 - (bto)
SE 模块 - (bto; btb)
单单元级网络 - (可能是 btb)
学习城市动作：停留、建造工人和研究 - (bto)
更多数据（约2300个回合） - (bto; btb)
同时也学习第2名机器人的数据 - (bto; btb)
扩展隐藏层中的通道数 - (bto; btb)

下面列出了我认为可能有用但未实现的内容：

使用 3x3 网格作为输出头（既然我使用单元级策略，我可以这样做，这可以保留空间信息）。
与 UNet 模型集成（增加一些全局信息以供考虑）。
添加一些规则以避免愚蠢的移动（这是因为模仿学习的过拟合问题）。

最后，是我的一些见解（可能不一定正确）：

对于模仿学习，在所有设置相同的情况下，单元级策略优于地图级策略。但它们需要权衡性能与时间。
如果你想进行迁移学习（从模仿学习到强化学习），你应该使用地图级策略。这是因为强化学习在地图级策略下表现更好。

感谢您的阅读！希望在第2季见到大家！

同比赛其他方案

Toad Brigade’s Approach - Deep Reinforcement Learning

4th Solution (Team Durrett): IL from multiple agents