返回列表

12th place solution - lightGBM model

421. Rock, Paper, Scissors | rock-paper-scissors

开始: 2020-11-02 结束: 2021-02-22 游戏AI AI大模型赛
第12名方案 - lightGBM 模型

第12名方案 - lightGBM 模型

作者:Kazuo Watanabe
比赛排名:第12名

很幸运,我在这次比赛中获得了第12名。
对我来说,这是一次非常有趣且愉快的经历。

我想分享一下我在这次比赛中的解决方案。

基础策略

我使用了4个 LightGBM 预测器,基于最近50场比赛进行训练。

  • 预测下一次(我方 / 对手)的出招
  • 输入是最近(2 / 3)场比赛的数据

对于每个预测器,有3种策略,分别使用胜手、平手和负手。

因此,总共有12种不同的策略。

每场比赛后,改变每种策略的权重。
如果智能体(Agent)赢得了上一场比赛,上一场比赛所用策略的权重就会增加;如果输了,权重就会减少。
同时也会改变相关策略(使用相同预测器的策略)的权重。

附加策略

确认方法

如果预测器输出的概率非常相似(例如 [0.30, 0.35, 0.35]),这个结果对评估策略有用吗?

因此,我设置了“确认阈值”。
如果最高概率 > 阈值,智能体将使用该策略。否则,智能体使用随机策略。

安全方法

例如,预测器输出的对手出招概率为 [R: 0.45, P: 0.50, S: 0.05]。
在这种情况下,“S”(剪刀)是理论上胜率最高的策略,但“S”有45%的概率会输。
而“P”(布)不是理论上胜率最高的策略,但“P”有45%的概率赢,50%的概率平,只有5%的概率输,这是一个合理的策略。

因此,我设置了“安全阈值”。
如果最低概率 < 阈值,智能体将使用该策略。

超参数

这里有很多超参数。

例如:

  • 确认方法阈值
  • 安全方法阈值
  • 策略权重的变化率
  • 用于训练的比赛数量
  • LightGBM 的超参数

每天,我都会稍微调整一下超参数,并提交智能体。

同比赛其他方案