二等奖方案ReportFlow：赋能金融合规的多源长文本智能一致性核验系统 cover_image

二等奖方案ReportFlow：赋能金融合规的多源长文本智能一致性核验系统

AFAC2026 · 在小说阅读器中沉浸阅读

本团队获得了AFAC2025挑战组赛题四：智能体赋能的金融多模态报告自动化生成的二等奖。

获奖团队：清水河小分队

团队成员：李清河，张文涛，刘帅雨
指导老师：邓佳文

获奖寄语：

我们是来自电子科技大学计算机科学与工程学院的学生，日常研究方向为agent，大模型安全等方向。日常兴趣有运动健身，看剧等。在我们两个多月的比赛过程中，我们团队探索多智能体方案在金融研报领域的应用，并最终实现了一个稳定可靠的方案。

在这里感谢赛事组，感谢蚂蚁集团，感谢指导我们团队的领导和老师，感恩父母对我们的支持与鼓励，很高兴可以参加这次比赛，祝蚂蚁集团和AFAC大赛越来越好！

背景

ReportFlow 是电子科技大学“清水河小分队”为 AFAC2025 赛题四：智能体赋能的金融研报自动化生成所开发的一套解决方案。该系统通过多智能体深度协作，自动化生成宏观、行业、个股三类核心金融研报，以应对传统研报生成模式中普遍存在的财务能力输出不足、信息获取与整合困难、研报幻觉以及结构化挑战。

ReportFlow 的核心优势在于其统一的双层图（Dual-Graph）智能体架构，该架构将负责全局调度的父图与执行具体章节撰写的子图有机结合，实现了任务的宏观分解与微观并行执行的高效协同。

该系统在多个关键技术维度上取得了突破：

增强型混合RAG（检索增强生成）引擎：融合稀疏检索（BM25）、密集检索（FAISS）与实时网络搜索，为报告提供全面、及时的信息基础。
创新的HTML2Picture可视化方案：独创性地让大语言模型生成其擅长的HTML代码，并通过浏览器内核渲染截图，实现了接近100%的图表生成成功率和高质量的视觉呈现。
产品级四维可控性：赋予用户对成本、时间、内容和数据的高度自定义权限，将系统从一个黑箱自动化工具转变为一个可调控、人机协同的专业平台。

ReportFlow 的设计理念始终秉持“产品思维驱动技术选择”和“稳定性是王道”的原则。通过放弃不稳定的智能体方案和随机的绘图方法，该系统确保了在真实业务场景中的高稳定性和高可用性，从而验证了其作为高效、可控金融分析协作平台的巨大落地潜力。

智能投研的挑战与ReportFlow的诞生

1 金融研报的价值与生成痛点

金融研究报告作为投资决策的核心，在基金管理、资产管理、投行等专业机构的日常工作中扮演着不可或缺的角色。高质量的研报不仅需要严谨的逻辑、深度的专业分析，还必须有可靠的数据源和多模态的呈现形式。

然而，传统的研报生成模式，即便由经验丰富的分析师团队完成，也面临着多维度的挑战。首先，是财务分析能力的输出。智能体在进行深入、专业的财务分析时，往往难以达到人类专家的深度和精确性。其次，是信息获取与整合能力。金融市场信息瞬息万变，来源复杂多样，智能体需要具备强大的能力，能从异构数据源中实时、全面地获取并整合信息。第三，是研报幻觉。大语言模型在生成内容时，可能产生虚假或不准确的事实性信息，这在对可信度要求极高的金融领域是致命的缺陷。最后，是结构化困难。研报有其固定的专业格式和章节结构，确保生成的报告符合行业规范是一个巨大的挑战。

2 ReportFlow产品愿景与核心理念

面对这些挑战，ReportFlow 团队并未急于堆砌技术，而是回归本源，提出了一个核心问题：“究竟，什么才是一份好的研报？”团队的答案是：“用户认为好的，才是真正的好！”。这一核心理念指引了 ReportFlow 整个方案的设计。一个优秀的研报生成系统，不仅要满足内容上的专业性、深度、可信度与格式要求，更重要的是，它必须是成本和时间可控的，以便真正实现落地应用。此外，系统必须赋予用户强大的掌控力，允许用户控制报告生成的时间和内容，甚至能够整合其私有数据以增强报告的个性化和质量。

基于此，ReportFlow 被定位为“你的个性化投研管家”，其产品愿景是：通过多智能体深度协作，铸就投研级专业报告，实现可控可配、人机协同，最终打造用户的专属研报。

方案综述：ReportFlow的四层架构设计

1 系统总体架构概览

ReportFlow 的解决方案被设计为一个清晰、模块化的四层架构体系，各层协同工作以完成从用户指令到最终报告的整个流程。

应用层：作为用户与系统的接口，负责接收用户请求（如“生成商汤科技的公司研报”或“评估‘人工智能+’政策效果的宏观研报”），并自动将请求路由至对应的 LangGraph 图。
数据层：为分析提供坚实的“弹药”。该层整合了来自 AKShare、东方财富、各大交易所、世界银行、美联储官网等权威机构的专业金融数据。它还能够将用户的私有数据（如 Word、PDF）转化为本地知识库，为研报提供个性化信息。
架构层：是整个系统的核心大脑。ReportFlow通过独创的双层LangGraph架构控制研报的生成，父图负责章节层面的信息流动和全局调度，子图则控制章节具体内容的生成。
工具层：提供了强大的辅助能力。该层不仅集成了Perplexica这样的实时搜索引擎，更重要的是，团队自主研发了HTML2Picture可视化引擎和RAG混合检索引擎，为报告的质量和丰富性提供了技术保障。

2 核心思想：多智能体协作与双层图架构

ReportFlow 的核心思想是借鉴真实投研团队的协作模式，将复杂的研报生成任务分解为多智能体之间的协作。这一模式通过双层图架构得以实现，该架构可以被形象地理解为一个顶级的AI投研团队。

父图（Parent Graph）：扮演着团队中的“首席分析师”角色。它负责全局的运筹帷幄，包括理解用户需求、构建知识库、制定研报大纲、调控子图引擎并行生成中间章节内容，并将结果汇集生成最终报告。
子图（Sub-Graph）：每个子图都像是一个独立的、优秀的“研究团队”。在“首席分析师”的指挥下，多个子图并行运行，每个子图专注于生成一个具体的章节内容，从数据收集、计划制定到文本和图表生成。

这种设计将任务的宏观分解与微观执行结合，为公司、行业、宏观三大类研报提供了统一且可扩展的生产线。

3 洞见与深度分析

ReportFlow 方案的高效性与成本可控性其根本原因在于架构层面的设计。团队通过对 LangGraph 框架深层机制的理解，做出了两个关键决策：异步并行和局部上下文管理。

首先，传统的智能体工作流往往是串行执行，即完成一个任务后才能开始下一个。ReportFlow 的异步并行设计从根本上打破了这一瓶颈。父图中的 Supervisor 节点能够一次性将多个章节的生成任务异步分发给子图并行执行。这种并发调度能力使得系统能够在30分钟内稳定执行超过100次的异步并发调用，从而极大地压缩了总耗时。

其次，为了解决大模型因上下文过长而导致的信息召回率下降和 Token 消耗急剧膨胀的问题，团队并未简单地“尽可能多地塞入上下文”。相反，他们采取了局部上下文管理策略。大模型的上下文中只包含与其当前任务相关的上下文，其余部分都进行了隐藏。例如，计划节点的信息只会包含当前章节所需，Researcher 和 Coder 节点的上下文中也只包含当前步骤所需的信息。最终，第一章和最后一章的生成上下文是中间五章的最终结果，而不包含其间过程。这种精细化的管理策略，使得在不考虑 Perplexica 搜索引擎消耗的情况下，生成一个研报的 Token 消耗量严格控制在30万至40万 Token 之间，在保证信息正确传递的前提下，大幅减少了成本。这证明了架构设计上的取舍，是实现效率、质量与成本平衡的关键。

核心技术亮点

1 增强型混合RAG引擎：信息的深度与广度

为了确保研报内容的专业性和全面性，ReportFlow 构建了一套创新的增强型混合RAG（检索增强生成）架构，突破了传统单一检索方式的局限。该架构由三重融合机制构成：

BM25 稀疏检索：通过精确匹配关键词，确保专业术语的准确检索
FAISS 密集检索：通过语义相似性匹配，捕获概念层面的关联
Perplexica 实时网络搜索：用于获取最新的市场动态、政策变化和行业信息，确保报告的时效性

Researcher 节点在进行深度研究时，会根据任务生成3到5个优化后的查询语句，并利用并发混合检索技术，同时调用本地 FAISS 向量库（k=5）和实时 Perplexica 搜索（k=1）。检索到的信息经过多源结果融合和大型语言模型的智能提炼，为研报的深度与原创性提供了坚实的数据基础。

2 创新的多模态可视化方案：HTML2Picture

ReportFlow 在多模态内容生成上摒弃了传统方案，独创性地采用了两种方案相结合的方式：

结构化数据绘图：对于通过爬虫从专业网站获取的高质量结构化数据，系统直接通过编写代码来生成对应的图表。团队认为，由于数据本身已是确定性的，再通过大模型生成Python代码绘图，不仅成功率不高，且性价比极低。

HTML2Picture 方案：这是团队的另辟蹊径之处，用于处理非结构化文本中的关键信息可视化。该方案的核心路径是：让大语言模型生成其最擅长的 HTML 代码 → 通过 Playwright 无头浏览器内核对 HTML 进行渲染和截图 → 最后对截图进行修复和优化。

这种方式的显著优势在于，它将大语言模型的能力用在其最擅长的领域（代码生成），从而实现了图表生成成功率接近100%。此外，这种方法生成的图表在视觉效果和信息密度上也远超传统方法。

3 洞见与深度分析

团队在 RAG 和图片生成上的技术抉择，深刻地体现了“稳定性优先于创新性”的理念，即“能落地的技术才是真正有价值的技术”。在图片生成方面，团队曾尝试过文生图模型和大模型编写 Python 代码绘图，但发现这些方案的效果随机且成功率极低。在金融研报这种对准确性、稳定性和时效性要求极高的场景中，一个成功率不稳定的方案是不可接受的。因此，团队果断放弃了这些方案，转而选择了成功率近乎100%的 HTML2Picture 方案。这种取舍表明，团队并非盲目追求技术前沿，而是基于对生产环境需求的深刻理解，选择了最可靠、最可控的技术路径。这种务实的技术决策，是 ReportFlow 能够真正实现商业化落地的坚实基础。

数据层：专业化数据处理与分析

1 总体数据获取与处理流程

ReportFlow 的数据引擎层通过编写可靠的数据接口，从 AKShare、东方财富网、美联储官网、各大交易所等专业网站获取所需的金融数据。这些数据在获取后会经过一套严谨的处理流程：

分类处理：对获取的数据进行分类
数据清洗：去除噪声和异常值，确保数据的准确性
统一格式：将不同来源的异构数据统一为相同的格式
质量验证：对数据进行质量验证，以得到专业的分析结论和相应的图表

此外，为了提高效率和节省 Token 消耗，系统引入了缓存机制。当不同的 Agent 调用相同的数据时，系统会直接返回缓存结果，从而大大缩短了数据返回时间，并有效节省了 Token 的使用。

2 三大研报的数据引擎

（1）公司研报

公司研报的数据处理具有很强的专业性，旨在为财务分析、竞争分析、估值分析等提供全面数据支持。系统集成了多种异构数据源，并通过专门的处理方法进行整合分析。

数据类别	来源	采集频率	数据量	处理方法	选择原因
财务数据	AKShare 金融数据	T+1	45%	标准化转换、质量验证	数据全面、API稳定、免费开源
公司信息	东方财富/同花顺	实时	25%	结构化提取、格式统一	信息丰富、更新及时、覆盖全面
新闻舆情	Google搜索（Playwright模拟）	实时	15%	LLMs 情感分析、去重处理	覆盖面广、实时性强、信息多样
研报数据	相关金融网	每日	10%	PDF解析、摘要提取	权威性高、格式标准、内容专业
市场数据	多源整合	实时	5%	实时更新、异常检测	数据互补、质量保障、覆盖全面

表1 公司研报数据源分布分析表

（2）行业研报

行业研报的数据引擎在开发过程中面临了巨大的挑战。团队最初计划从东方财富网爬取行业数据，但很快发现其行业名分类过于宽泛和固化，难以覆盖实际中成千上万的行业。例如，当需要生成“中国智能服务机器人产业”的研报时，系统可能会错误地将其路由至过于宽泛的“互联网服务行业”，导致数据不符报告需求。这一研发历程中的宝贵经验，暴露了对单一、不完整数据源的依赖风险。最终，团队不得不放弃这一方案，选择全部通过网络搜索引擎来获取行业数据。

（3）宏观研报

宏观研报的数据引擎设计更加复杂，除了基本的数据处理，还增加了多个独创的宏观经济分析模块。下表展示了宏观研报的数据源分布与处理方法：

数据类别	来源	采集频率	数据格式	处理方法
GDP数据	世界银行	季度更新	Excel	标准化转换、质量验证
通胀数据	各国统计局	月度更新	Excel	结构化提取、格式统一
利率数据	央行官网	实时更新	CSV	结构化提取、格式统一
股市数据	交易所官网	实时更新	JSON	结构化提取、格式统一
政策数据	政府网站	不定期	HTML	PDF解析、摘要提取

表2 宏观研报数据源分布分析表

在此基础上，宏观研报的数据层还构建了多个高级分析模块：

GDP数据分析器：整合世界银行及各国统计局权威数据，对全球主要经济体的 GDP 趋势、增长率和占比进行综合分析。
通胀率分析器：对比全球主要经济体近年的通胀率，并对通胀类型和分布特征进行分析，得出关键结论。
风险预警系统：这是一个采用多维度风险评估模型的独创模块。该系统将经济风险分为六大类别，并赋予不同权重（如货币政策风险权重最高为25%）。通过监控 M2 增速、GDP 增速、PMI 指数、CPI/PPI 变化等关键指标，并采用5级预警机制，确保了风险监控的全面性和及时性。

产品级可控性与落地潜力

1 四维可控性：人机协同的核心

ReportFlow 的一大独特之处在于其“产品级的四维可控性”，这直接体现了团队“赋能于人，而非取代人”的核心理念。这四个维度赋予了用户极高的自定义权限：

成本可控：通过局部上下文管理和架构优化，系统能够严格控制 Token 消耗，将一次研报生成的总 Token 数控制在60万至70万之间。
时间可控：用户可以自定义报告的生成时间，通过调整 max_plan_iterations 和 max_step_num 等超参数，在生成效率和报告质量之间找到最佳平衡点。
内容可控：用户可以通过修改 JSON 配置来自定义研报的章节标题和内容。此外，系统还内置了 HumanFeedback 节点，允许用户在关键环节对 AI 生成的执行计划进行审核与迭代，确保最终产出符合预期。
数据可控：系统实现了公开数据与用户私有数据的无缝结合，用户可以将私有数据转化为本地知识库，大幅提高研报生成的个性化和质量。

2 稳定性与可用性：落地的保障

ReportFlow 的设计充分考虑了在真实业务场景中的落地潜力。系统设计了完善的异步执行和故障处理机制，以保证在高并发场景下的高稳定性和高可用性。此外，系统还具备 langgraph studio 一键部署能力，极大地降低了部署门槛，体现了方案的工程化水平和易用性。

迭代思路与未来展望

1 研发历程中的技术抉择

ReportFlow 的最终方案并非一蹴而就，而是经过了多次试错和迭代。在整个研发过程中，团队始终坚持“稳定性”和“落地性”作为技术选择的最高优先级。

上下文管理策略：团队意识到将所有信息塞入大模型上下文会导致 Token 爆炸和信息召回率下降。因此，他们果断放弃了这一策略，转而采用了局部上下文传递的方式，实现了 Token 消耗的大幅降低。
工具调用：团队最初尝试使用 ReAct 智能体和 DeepSeek V3 的工具调用能力，但在实际运行中发现其调用能力弱且非常不稳定。为了确保系统的可靠性，团队决定将工具调用逻辑从实际运行中剔除，转而采用更可靠的直接函数调用。
图片生成：团队复现了基于大模型直接绘图的方案，但发现其成功率不高且效果随机。这一问题促使团队开发了高成功率、稳定可控的 HTML2Picture 方案。
质检Agent：团队曾计划在章节生成后增加一个质检 Agent 来优化章节间的衔接。但经过讨论，最终放弃了该方案，因为再次经过大模型处理可能导致信息丢失，而团队认为信息完备性优先于章节衔接度。

2 产业应用

ReportFlow 在产业界拥有广阔的应用前景：

B端（商业端）应用：该技术可以赋能金融机构，如券商、基金公司、银行等。通过自动化生成宏观、行业及公司研报，能显著提升投研部门的效率。机构可以利用该系统快速批量生成覆盖特定股票或行业的跟踪报告，将研究员从繁琐的数据收集、图表制作等基础工作中解放出来，让他们专注于深度分析和投资策略制定。此外，该系统还能作为内部知识库，为销售和客户经理提供定制化的、包含最新市场信息的报告，增强其服务能力。
C端（消费端）应用：对于普通投资者，该技术可以打包成智能投研工具或订阅服务。个人投资者可以通过平台定制并获取特定股票或行业的定制化研报。系统能快速响应用户的查询，生成易于理解的图文报告，帮助非专业人士更好地理解市场信息，做出更理性的投资决策。这打破了传统研报的高门槛和信息不对称，实现了专业知识的普惠化。

3 未来规划

数据获取能力：团队承认当前数据爬取能力较弱，导致混合 RAG 的全部潜力未能完全体现。未来将持续优化数据获取能力，以真正实现 RAG 的强大功能。
并发性优化：目前仅章节部分实现了并行，未来计划将 Researcher 和 Coder 部分也实现并发，预计能将报告生成时间由30分钟进一步缩短至20分钟以内，极大提升可用性。
智能体生态：鉴于近期开源大模型 Agent 能力的显著增强，未来团队将积极探索基于 toolcall 的系统逻辑，构建自主决策的智能体生态。

清水河小分队在AFAC总决赛路演现场领奖（左四）

二等奖方案ReportFlow：赋能金融合规的多源长文本智能一致性核验系统

二等奖方案ReportFlow：赋能金融合规的多源长文本智能一致性核验系统

获奖团队：清水河小分队

获奖寄语：

背景

智能投研的挑战与ReportFlow的诞生

1 金融研报的价值与生成痛点

2 ReportFlow产品愿景与核心理念

方案综述：ReportFlow的四层架构设计

1 系统总体架构概览

2 核心思想：多智能体协作与双层图架构

3 洞见与深度分析

核心技术亮点

1 增强型混合RAG引擎：信息的深度与广度

2 创新的多模态可视化方案：HTML2Picture

3 洞见与深度分析

数据层：专业化数据处理与分析

1 总体数据获取与处理流程

2 三大研报的数据引擎

产品级可控性与落地潜力

1 四维可控性：人机协同的核心

2 稳定性与可用性：落地的保障

迭代思路与未来展望

1 研发历程中的技术抉择

2 产业应用

3 未来规划

同比赛其他方案