14th Place Solution

第14名解决方案

作者：Naoki Maeda
排名：第14名

这是我第一次撰写解决方案分享，欢迎提出任何问题或建议。

我表现最好的智能体是 Ilia 的多臂老虎机（Multi-armed bandit）智能体的一个固定版本。
智能体池中包含了大约20个来自 RPS contest 的强力智能体以及反制智能体。此外，还包含了一些简单的智能体，例如镜像或针对热门策略的克制智能体。
我尝试了 MAB 的步长和衰减率的多种组合。在我表现最好的智能体中，步长为 4，衰减率为 1/1.05。我使用了 Beta 分布来决定哪个智能体最有可能获胜。

实验过程

在第一周，我制作了一些基于规则的智能体（主要是转移矩阵）。我阅读了一些与 RPS（石头剪刀布）相关的文章，并发现了 RPS contest 网站。当时，来自 RPS contest 的智能体表现非常好（金牌 - 银牌水平）。

当这些智能体不再获胜时，我开始尝试将这些智能体与 MAB 结合。我尝试了步长（1 - 4）和衰减率（1.00 - 1.50）的多种组合。

下一步是引入狄利克雷分布。Beta 分布有 2 个参数，但 RPS 有 3 种状态（胜、负、平）。因此认为狄利克雷分布更适合 RPS。平均而言，狄利克雷智能体的表现优于 Beta 智能体。像 Beta 智能体一样，步长和衰减率是手动选择的。

最佳的步长和衰减率在前 100 轮和最后阶段可能会有所不同。我采用了另一个狄利克雷模型，该模型计算每个狄利克雷智能体的胜率，并在每一轮决定步长和衰减率。尽管该模型的参数仍需手动选择，但用于选择可能获胜智能体的狄利克雷智能体参数已实现自动选择。

结果

结果，这类智能体没能保住金牌的位置。在最后几周，Beta 智能体出人意料地表现良好，最终以第14名的成绩结束了这次比赛。

感谢您读到这里。我不是英语母语者，如果我的英语听起来很奇怪，请原谅。

第14名解决方案

实验过程

结果

同比赛其他方案