AFAC2025挑战组-赛题二:金融保险场景下多源文件长上下文一致性校验 | 532351
在小说阅读器中沉浸阅读
本团队在赛题二:金融保险场景下多源文件长上下文一致性校验 中获得二等奖。
团队获奖经历丰富,从2020年开始组队打比赛,已参与几十场赛事,同时也是第二次参与AFAC大赛。
在金融保险行业中,电子保单、保险条款、营销物料等素材的合规性与一致性关乎业务的稳健发展。当前,行业普遍依赖人工核验多源文件内容,存在两大痛点:一是效率瓶颈,长文档(如条款文本、免责声明)的逐项比对耗时耗力;二是动态规则适配难,随着经济发展,保险市场环境也在不断变化,同时,保险产品类目众多,产品迭代频繁,这种动态性为合规校验系统提出了更高的要求。基于这种情况,我们提出了方案:基于llm的超长上下文冲突检测系统。
基于llm的超长上下文冲突检测系统是一个端到端的冲突检测方案,方案整体是由多个子方案和模块构成。这些子方案和模块从不同视角(数据、算法、校验等)为大模型提供了多个维度的辅助信息,帮助大模型进行特征训练和合规性、一致性的冲突检测。整体方案榜单效果优秀,推理耗时短、落地简单,具有可推广性。
金融保险场景下多源文件长上下文一致性校验赛道的主要任务是校验保险产品不同类型材料(而非同类型材料,同类型材料可能存在冲突)关于某个规则是否存在定义冲突的情况,通过数据分析我们发现,每个类型材料的文本长度在几千到几十万之间,长度差异非常大。
我们基于官方提供的baseline方案进行了优化,baseline 方案在进行片段分割时有严重缺陷,语义不对齐,并且没有解决同类型材料可能存在冲突问题。基于此,我们尝试了多种优化方案(基于rag问答的校验方案、基于超长上下文的问答校验方案和基于伪标签数据进行sft的校验方案),结合数据增强、过采样、层次化决策的等技术策略,获得了a榜rank2、b榜rank2的优秀成绩。
根据统计,每个材料类型的文本长度在几千到几十万之间,长度差异不可谓不大。且部分规则较为模糊,例如术语解释。
校验每个保险产品的不同类型材料(而非同类型材料,同类型材料可能存在冲突)关于某个规则是否存在定义冲突的情况。
核心思想步骤
效果
实际效果挺差的,a榜低于0.7,并且模型越大,效果越差。
存在的问题
基于以上问题,提出了方案二。
核心思想步骤
效果
相比方案一,效果提升15个百分点,a榜得分80。
存在的问题
检索召回时存在漏召回情况,对后续冲突检验判断误导性较大。
根据统计,每个材料类型的文本长度在几千到几十万之间,普通的大模型的上下文长度在128k,难以容纳全部上下文,于是采用1M的模型,最长可支持百万token的上下文输入。
核心思想步骤
效果
相比方案二,效果提升5个百分点,a榜得分85+。
存在的问题
基于不同材料之间的两两校验结果来决定整体校验结果的方案存在一定的局限性。
前面三个方案,本质上都是基于不同材料之间的两两校验结果来决定整体校验结果,方案四跳开这个框架,从全局视角来进行规则校验:
核心思想步骤
我们的方案:基于llm的超长上下文冲突检测系统,方案整体是由多个子方案和模块构成,可以根据场景类型和需求的不同,灵活的选择不同的子方案进行落地,具有效果优秀、响应耗时低和鲁棒性强等特点。
ths队在AFAC总决赛路演现场领奖(右五)
—END—