返回列表

allin队拿下亚军!多源市场数据和大模型,为理财提供调仓建议和风险提示

AFAC2025挑战组-赛题一:基金产品的长周期申购和赎回预测 | 532352

开始: 2025-07-26 结束: 2025-08-05 量化投资 数据算法赛
allin队拿下亚军!多源市场数据和大模型,为理财提供调仓建议和风险提示

allin队拿下亚军!多源市场数据和大模型,为理财提供调仓建议和风险提示

作者:AFAC2026

allin组在AFAC总决赛路演现场进行答辩

本团队在AFAC大赛挑战组赛题一:基金产品的长周期申购和赎回预测中获得二等奖。

获奖团队成员介绍:

  • 朱卫,复旦大学硕士在读,主要研究方向为时间序列分析。
  • 王铭成,华东师范大学硕士在读,主要研究方向为大模型推理加速。
  • 黎庭熙,华东理工大学本科在读,主要研究方向为NLP和时序分析,对量化金融、强化学习等感兴趣。

获奖寄语:

我们在比赛过程中的不断探索,使我们对相关领域有了更深入的理解。同时,本次比赛也提供了一个宝贵的平台,得以分享学习来自不同团队的创新方案,接触到更多前沿的技术与理念。

在此,衷心感谢赛事组委会的辛勤付出,感谢团队成员们的紧密协作,更感谢家人与朋友们一直以来的支持。祝愿AFAC大赛越办越好。

方法综述

本方案使用爬虫与MCP技术获取多源金融市场数据,借助LLM对多源信息进行整合生成摘要信息,并通过微调强化LLM的情感分析能力,从而构建出市场情绪标签特征。

同时,探索性地引入多模态大模型来分析申购赎回时序图表,生成技术分析特征。将上述特征与基金、市场行情等多维数据融合,构建完备的训练数据集。

在时序预测阶段,采用轻量级时序模型SimpleTM,实现了对20只基金未来7日申购与赎回量的高精度预测。

方案介绍

1. 问题分析

  • (1)已有20只基金数据的历史申购量、赎回量和平台侧关键特征(uv)。
  • (2)借助大模型构造其他特征得到最终数据集。
  • (3)目标:在数据集上训练一个时序模型,预测每只基金在2025/7/25-2025/7/31的申购量和赎回量。
  • (4)评价指标:

2. 思路探索

本团队在了解该赛题后,进行了一系列探索,探索流程大致为:

  1. (1)在原始数据集上训练时序模型,实现多基金同时预测,并且形成对各时序模型的初步评价。
  2. (2)利用大模型输出移动平均、标准差等时序衍生特征。然而我们发现让大模型直接输出的话难以保证计算准确率,同时特征生成速度慢。
  3. (3)收集其他和基金表现相关的外部特征,比如基金的同类排名百分比和上证指数数据,作为基金本身属性以及市场环境情况的补充。
  4. (4)为了反映市场情绪和宏观信息等更多的信息,加入市场新闻和股吧评论。
  5. (5)为有效利用这些信息,我们将其整合后输入大语言模型生成摘要,并在摘要过程中加入了每只基金的持仓信息,增强了分析结果的针对性。
  6. (6)探索时序图表中蕴含的信息对于预测的帮助,用多模态大模型对一段时间内的时序图表进行分析得到特征。
  7. (7)训练时序模型。

3. 具体实现

(1)数据获取:

其中MCP部分使用FastMCP构建,用户使用自然语言向LLM给出获取相关的要求,LLM会调用对应的MCP工具,获取工具的返回结果。上证指数和基金同类排名百分比数据直接作为特征加入到最终训练数据集中。

(2)情感特征:

先整合信息进行文本摘要,得到的摘要示例为:

<summary>基金为债券型,主要投资于银行及金融企业债券,不涉及股票。近期持仓以20江苏银行永续债、20南京银行二级01等债券为主。过去三天内,基金单位净值波动较小,4月7日增长3%,4月8日下降9%,4月9日回升2%。申购金额在4月7日为5617.87万元,4月8日增至9214.74万元,4月9日回落至5407.02万元。赎回金额在4月7日为27208.27万元,4月8日为20846.66万元,4月9日为19962.28万元。宏观新闻显示,中国在应对关税问题上采取措施,市场情绪波动,但中央汇金等机构表态支持股市。上证指数近期稳步上升,成交量持续增加。</summary>  

然后基于摘要文本利用LLM进行情感分析,首先是GRPO微调LLM增强其金融情感分析的能力。

为了降低算力成本以及加快后续推理时间,我们用较多的数据训练了关闭思考模式情况下的模型,然后用较少的数据训练了开启思考模式的模型。

训练使用的数据集为CFSC-ABSA,https://github.com/Ya-dongLi/CFSC

最后使用该模型对于摘要进行情感分析,得到积极、中立、消极这三个情感标签。

(3)多模态特征:

技术图表分析是金融市场中常见做法,本团队探索了多模态特征的应用,使用Qwen2.5-VL-7B-Instruct多模态大模型分析过去一段时间内的申购赎回图表,得到多模态信息特征。 输入的图表为:

大模型分析该图表特征,输出申购赎回量未来可能的情况(-1下跌、0无明确指向、1上涨)

(4)时间序列预测:

我们团队选择的时序模型为SimpleTM,该模型来自SimpleTM: A simple baseline for multivariate time series forecasting

论文:https://openreview.net/forum?id=oANkBaVci5

其模型的示例图为:

SimpleTM模型是一个轻量又强大的模型,选择该模型的原因为:赛题数据量有限需避免过拟合,其中所使用的小波变换适于处理金融噪声与非平稳性,所提出的几何积注意力可有效捕捉通道间动态关系。

在训练时我们将batch_size设置为1,将基金数量20作为batch_size维度以适配SimpleTM模型的输入结构。

模型同时输出20只基金的申购量和赎回量,计算申购量和赎回量的平均MAE作为损失函数。

4. 预测效果

allin组在B榜预测精度上排行第4名。

产业应用前景

本方案尝试通过整合多源市场数据与大模型技术,对基金申赎行为进行预测。

该方案有望辅助基金公司的风控与流动性管理,对未来一周的资金流动提供参考,支持现金头寸的初步规划与投资决策的辅助分析。

同时,该模型也可在第三方理财平台中尝试应用,通过多源市场数据的分析,为用户提供调仓建议或风险提示的参考信息。

allin队在AFAC总决赛路演现场领奖(右四)

—END—

同比赛其他方案