421. Rock, Paper, Scissors | rock-paper-scissors
这是我第一次撰写解决方案分享,欢迎提出任何问题或建议。
我表现最好的智能体是 Ilia 的多臂老虎机(Multi-armed bandit)智能体的一个固定版本。
智能体池中包含了大约20个来自 RPS contest 的强力智能体以及反制智能体。此外,还包含了一些简单的智能体,例如镜像或针对热门策略的克制智能体。
我尝试了 MAB 的步长和衰减率的多种组合。在我表现最好的智能体中,步长为 4,衰减率为 1/1.05。我使用了 Beta 分布来决定哪个智能体最有可能获胜。
在第一周,我制作了一些基于规则的智能体(主要是转移矩阵)。我阅读了一些与 RPS(石头剪刀布)相关的文章,并发现了 RPS contest 网站。当时,来自 RPS contest 的智能体表现非常好(金牌 - 银牌水平)。
当这些智能体不再获胜时,我开始尝试将这些智能体与 MAB 结合。我尝试了步长(1 - 4)和衰减率(1.00 - 1.50)的多种组合。
下一步是引入狄利克雷分布。Beta 分布有 2 个参数,但 RPS 有 3 种状态(胜、负、平)。因此认为狄利克雷分布更适合 RPS。平均而言,狄利克雷智能体的表现优于 Beta 智能体。像 Beta 智能体一样,步长和衰减率是手动选择的。
最佳的步长和衰减率在前 100 轮和最后阶段可能会有所不同。我采用了另一个狄利克雷模型,该模型计算每个狄利克雷智能体的胜率,并在每一轮决定步长和衰减率。尽管该模型的参数仍需手动选择,但用于选择可能获胜智能体的狄利克雷智能体参数已实现自动选择。
结果,这类智能体没能保住金牌的位置。在最后几周,Beta 智能体出人意料地表现良好,最终以第14名的成绩结束了这次比赛。
感谢您读到这里。我不是英语母语者,如果我的英语听起来很奇怪,请原谅。