第11名方案
第11名方案
作者:Shihao Shao
比赛排名:第11名
首先,特别感谢 @stonet2000 主办了如此精彩的比赛!感谢 @shoheiazuma 提供的精彩公开内核,以及 @zaharch 分享的 UNet 方法。还有许多分享想法和见解的人……大家做得真棒!
我的方案基于 @shoheiazuma 的公开内核 Lux AI with Imitation Learning。(再次感谢!)为了方便阅读,我在下面列出了我所做的修改。我还将标记那些让我的机器人优于原始内核和 @shoheiazuma 最佳内核的部分 ;)
- bto = 优于原始版本;btb = 优于 sazuma 的最佳机器人
- 中心动作 - (bto)
- SE 模块 - (bto; btb)
- 单单元级网络 - (可能是 btb)
- 学习城市动作:停留、建造工人和研究 - (bto)
- 更多数据(约2300个回合) - (bto; btb)
- 同时也学习第2名机器人的数据 - (bto; btb)
- 扩展隐藏层中的通道数 - (bto; btb)
下面列出了我认为可能有用但未实现的内容:
- 使用 3x3 网格作为输出头(既然我使用单元级策略,我可以这样做,这可以保留空间信息)。
- 与 UNet 模型集成(增加一些全局信息以供考虑)。
- 添加一些规则以避免愚蠢的移动(这是因为模仿学习的过拟合问题)。
最后,是我的一些见解(可能不一定正确):
- 对于模仿学习,在所有设置相同的情况下,单元级策略优于地图级策略。但它们需要权衡性能与时间。
- 如果你想进行迁移学习(从模仿学习到强化学习),你应该使用地图级策略。这是因为强化学习在地图级策略下表现更好。
感谢您的阅读!希望在第2季见到大家!