第8名解决方案

作者：senkin13（Grandmaster）
排名：第8名
获得票数：12票
发布日期：2023年11月21日

感谢竞赛组织者提供了如此有趣的比赛。我们团队加入较晚，没有时间深入探索，但发现了一个非常有效的简单解决方案。

数据处理与特征工程

Tile特征：配置、节点和边的数量，node_feat的均值、最大值、标准差、最后一个值，config_feat的均值、最大值、标准差

Layout处理：展平node_config_feat -> 移除唯一值列 -> 移除重复列

训练数据

我们的布局解决方案的关键在于为每个测试数据找到最相似的训练数据。我们可以观察到一些数据具有几乎相同的边和节点数量，可以推测它们属于相同的模型类型，只是规模不同，测试数据应该是相同模型但不同批次大小的情况。

例如：

训练集：small_bert_bert_en_uncased_L-12_H-768_A-12_batch_size_16_test
验证集：small_bert_bert_en_uncased_L-12_H-768_A-12_batch_size_32_test
测试集（相同的边和节点数量）应该是 small_bert_bert_en_uncased_L-12_H-768_A-12_batch_size_64_test

我们无法为每个测试数据找到所有相似的训练数据，但这足以获得良好的结果，并且迭代速度非常快。

模型

将目标变量进行MinMaxScaler转换，使用交叉熵作为损失函数，采用LightGBM作为模型，我们不使用验证集，仅为每个模型设定固定的训练轮数。

8th place solution

第8名解决方案

数据处理与特征工程

训练数据

模型

同比赛其他方案