KAGThinker 结构化思:考新范——式 “支持逻辑”严谨的大模型复杂推理

2025-07-21 01:03:07      来源:水母网

近日,蚂蚁集团知识引擎团队协同浙江大学、同济大学正式发布了其在结构化推理领域的最新成果——KAG-Thinker模型,该模型是KAG框架的重要迭代升级,聚焦于为通用或专业领域复杂推理任务构建稳定、可解释的思考范式。

2025年以来,OpenAI推出的DeepResearch展示了大模型在复杂推理任务中多轮检索、规划推理的强大能力。随后,产学界涌现了较多以模型为中心(Model-Centric)的方法,比如Search-R1、ReSearch等。它们的核心思路是,通过强化学习让模型自己“学会”如何检索和利用外部知识,从而让小模型也能像专家一样“思考”。然而,这些基于自然语言的推理方法就像让模型“自由发挥”,推理不严谨、过程不稳定等问题依然突出。而人类专家解决复杂问题时,往往采用结构化的思考方法,把原始问题拆解成多个可独立验证的小问题,并依次求解。受此启发,研究团队提出了KAG-Thinker,为模型的思考过程建立一套清晰、分层的“脚手架”,从而提升复杂任务中推理过程的逻辑性与稳定性。

该模型延续了KAG框架LogicalForm自然语言与逻辑函数双语义表示机制,以更好地利用结构化知识;并通过广度拆分与深度求解相结合的方式,提升问题求解的严谨性;同时引入以知识点对齐为中心的知识边界判定机制,以充分利用大模型参数化知识与外部形式化知识,并借助内容抗噪模块降低检索信息噪声,增强检索内容的可信度。

视频1KAG-Thinker与KAG框架集成,「结构化思考」引导的「深度推理」问答产品示例

最终,研究团队将上述策略集成于一个支持多轮迭代与深度推理的统一架构中,通过监督微调方法训练出KAG-Thinker7B通用模型。

实验结果显示,在7个单跳和多跳推理数据集上,其性能相较使用强化学习Search-R1、ZeroSearch、ReSearch等SOTA深度搜索方法平均提升了4.1%。与KAG框架集成后在多跳推理任务上超越HippoRAGV2、PIKE-RAG等In-ContextLearning(以Qwen2.5-72B为基模)方法。此外,模型也在医疗问答任务中验证了其在专业领域中的有效性。其他专业领域的精细化定制,可以参考其在医疗问答上的应用及表现。

图1KAG-Thinker语料合成和模型训练过程概览

模型方法

模型的架构如下图所示。模型的核心内容包括:

图2复杂问题求解概览图

广度拆分+深度求解:应对复杂决策任务

复杂多跳问题通常需拆分为多个简单子问题,以更高效地利用外部知识库进行求解,KAG-Thinker提出了一种「广度拆分+深度求解」的方法(详见图2):

广度拆分:将原始问题分解为若干原子问题,各子问题间保持逻辑依赖关系,确保拆分的准确性。每个原子问题由一个LogicalForm算子表示。每个LogicalForm具备双重表示形式——自然语言描述(Step)与逻辑表达式(Action),二者语义一致。

深度求解:针对需要检索(Retrieval)的子问题,进行深入求解,以获取充足的外部知识保障答案准确。在检索前,模型会先执行知识边界判定:若判断当前大模型自身知识已足够回答该子问题,则跳过检索;否则继续深度求解。

知识边界判定:充分利用LLM参数化知识

为充分利用大模型的参数化知识、减少不必要的检索任务,KAG-Thinker以知识点(如实体、事件)为中心定义Retrieval子任务,并通过SPO三元组限定检索粒度,以此为基础判断大模型与外部知识库的边界。

知识边界判定任务是一个无监督过程:首先让大模型直接作答子问题,再由其判断该答案是否为真实答案。此过程生成两个标签:

自然语言输出的判断结果(True/False);

答案首次出现时对应token的概率,若低于设定阈值则标记为False,否则为True。

仅当两个标签均为True时,才认为大模型自身知识足以回答该子问题,无需额外检索,可直接采用其生成的答案。

图3知识边界判定

检索内容抗噪:提升检索内容的可信度

对于必须检索的子问题,Thinker需要判断当前检索结果是否能求解出对应子问题。然而,不同检索器检索的内容参差不齐,尤其是网页检索得到的内容。

为了更好的分析检索结果,检索抗噪模块会分析每篇检索回来的文章与当前子问题的关系,去掉一些无关内容,再从剩余内容从中提取一些核心信息,作为直接给出子问题的答案还是继续进行深度检索的依据。

LogicalForm求解器

在广度拆分和深度求解时,Thinker沿用KAG框架中定义的4种LogicalForm求解器。每种LogicalForm算子的定义如图4所示。Retrieval主要解决检索类的问题,Deduce和Math主要解决推理分析类问题,Output主要用于答案汇总。

实验结果

单跳和多跳问答

为了评估模型的效果,研究团队选了7个通用的单跳和多跳推理数据集,并使用相同的检索器(E5-base-v2),Baseline选择了最新的ReSearch、Search-R1、ZeroSearch和StepSearch等。并沿用这些Baseline方法的评价指标(EM)。为了使用相同的检索器,只使用LogicalForm表示中的Step中的纯自然语言的内容。整体实验效果如表1所示。

与无检索基线相比,Thinker模型的平均性能比NaiveGeneration和CoT分别高出27.1%和34.6%。

与检索增强方法相比,Thinker模型的平均性能比Search-o1、IRCoT和NaiveRAG分别高出24.6%、22.6%和14.8%。

与基于强化学习的方法相比,Thinker模型比SOTA模型ReSearch高出4.1%。

具体而言,在单跳数据集中平均提升了4.5%,在多跳数据集中平均提升了3.9%。主要原因是,知识点粒度的检索任务拆解降低了检索的复杂性。

表1不同模型(基座模型Qwen2.5-7B-Instruct)在不同数据集上的EM性能

KAG框架升级

KAGV0.8升级了知识库的能力。扩展了私域知识库(含结构化、非结构化数据)、公网知识库两种模式,支持通过MCP协议引入LBS、WebSearch等公网数据源。此外,升级了私域知识库索引管理的能力,内置Outline、Summary、KnowledgeUnit、AtomicQuery、Chunk、Table等多种基础索引类型,支持开发者自定义索引&产品端联动的能力(如视频2所示)。

用户可根据场景特点选择合适的索引类型,在构建成本&业务效果之间取得平衡。在本次0.8的发版中,KAG全面拥抱MCP,提供接入公网MCP服务及在agent流程中集成KAG推理问答(基于MCP协议)的能力。

视频2可配置化的知识索引构建能力

KAG框架的应用

KAG框架V0.8版本为Thinker模型应用提供支持,融入KAG框架后的Thinker模型,Math、Deduce都使用框架中的求解器进行求解,再用Thinker模型进行答案汇总,可以看到KAG-Thinker7B的平均EM和F1性能相比于Thinker模型平均提升3.0%,3.8%。这也说明KAG框架能更好的帮助Thinker模型进行求解。

表2不同模型在自建检索库上的性能

同时,针对KAG框架问题拆解不稳定的现象,也做了问题广度拆解的稳定性测试,将同一个问题,拆解两次,如果两次结果相同,则分数为1,否则为0。

实验结果如图5所示,KAG-Thinker7B在HotpotQA、2Wiki和Musique这三个数据集上的稳定性表现优于KAG-V0.87B和KAG-V0.872B。在常用的温度参数0.6和0.8下,KAGwithThinker7B+72B分别相对于KAG-V0.87B和KAG-V0.872B平均提升了17.9%和7.6%。

图5不同温度参数下不同模型稳定性测试

KAG-V0.8withThinker在三个数据集上的平均性能要优于HippoRAGV2和PIKE-RAG,详细的实验设置参考KAG-V0.8releasenotes。

虽然KAG-V0.8withThinker大幅度提升了框架的稳定性,但是平均性能要低于KAG-V0.872B,略高于KAG-V0.832B。这说明7B的Thinker模型的问题拆解能力还有所欠缺,分析BadCase发现,对于一些复杂的问题,Thinker模型的拆分能力还不够,例如「WhoisthepaternalgrandmotherofJohnIii,DukeOfCleves?」,需要分解出JohnIii,DukeOfCleves的妈妈是谁和JohnIii,DukeOfCleves的妈妈的妈妈是谁。

这种问题Thinker模型拆分不稳定,主要的原因有两种,第一,LLM对复杂的纯自然语言问题拆分存在不一致,第二,7B模型的泛化能力有限。为了解决这些问题,研究团队表示将来会从结构化数据中合成问题拆分样本,保证模型拆分的一致性。

表3不同框架在多跳推理上的性能表现

医疗领域的应用

为了验证该框架在专业领域的能力,研究团队在医疗领域做了一系列的改造,训练出了KAG-Med-Thinker。实验结果如表4所示,在DeepSeek-R1-Distill-Qwen-14B上,与已有的多轮规划和检索增强模型IRCoT和ReAct相比,KAG-Med-Thinker分别取得了3.95%和4.41%的显著性能提升。同时,它还比NaiveRAG自适应检索模型高出3.8%。

表4、不同模型在MedQA上的准确性

  曾文莉认为,在职业选手商业价值充分释放后,其成功效应才会吸引更多的人群尤其是青少年从事网球运动,而这是中国网球经济发展的根基。

责编:闭雅志编辑

陈哲远有自己的综艺型人格

  青海将西宁机场三期扩建工程视为深度融入国家“一带一路”建设的重点工程;甘肃认为兰州中川国际机场三期工程是积极参与共建“一带一路”的有力注脚;西安和乌鲁木齐都表示,咸阳机场、天山机场的改扩建工程,能助力西安、乌鲁木齐打造“一带一路”核心枢纽。

柯淳杨肸子车窗吻

  2023年7月,中共中央总书记、国家主席、中央军委主席习近平在四川考察时指出,四川要发挥高校和科研机构众多、创新人才集聚的优势和产业体系较为完善、产业基础雄厚的优势,在科技创新和科技成果转化上同时发力。

句话讲清习主席中亚之行的深远意义

  美国财政部本周早些时候也公布了新的反俄制裁方案,涉及俄罗斯以及中国等其他国家的300多家公司、银行和数十名个人。中国外交部发言人林剑13日表示,美国在全球范围内滥施单边制裁贻害无穷,严重损害他国主权安全,造成人道惨剧,破坏产供链稳定。乌克兰危机升级后,美方制裁更是变本加厉。而这种乱舞制裁大棒的做法,不仅无助于问题的解决,反而成为世界一个主要的风险源头。

刚下高铁就感受到常州多想进球

  近些年我们也能看到这些举措,中国推出大规模减税降费政策,有不少是长期执行的制度性政策。比如为消除重复征税,营业税改为增值税;增值税基本税率从17%降至13%;个人所得税也通过扩大税率级距、增加专项附加扣除、提高起征点,实际降低了税负;城镇职工基本养老保险单位缴费比例降至16%等。

央视取消播出易建联专访

  6月21日,中央纪委国家监委发布消息,自然资源部原党组成员,中国地质调查局原党组书记、局长钟自然被开除党籍,涉嫌受贿、故意泄露国家秘密犯罪问题移送检察机关依法审查起诉。

黄霄雲吐槽出差酒店

  曾文莉认为,在职业选手商业价值充分释放后,其成功效应才会吸引更多的人群尤其是青少年从事网球运动,而这是中国网球经济发展的根基。/p>

陈哲远有自己的综艺型人格

  当地时间8月29日,巴黎残奥会首个比赛日。在伊夫林省圣康坦自行车馆,中国队选手李樟煜上演了一场“速度与激情”。男子C1级3000米个人追逐赛资格赛,他以3:31.338的成绩刷新该项目世界纪录。决赛中,李樟煜状态火热,夺得金牌,这也是中国体育代表团在本届残奥会上获得的首枚金牌。另一位中国队选手梁伟聪摘得银牌,恭喜中国队包揽该项目金银牌!/p>

李雪琴美成这样了

  针对目前的旱情,河南省水利厅于6月14日17时将水旱灾害防御(抗旱)Ⅳ级应急响应提升至Ⅲ级,并密切监视雨情、水情、旱情,科学精准调度水利工程,加强灌溉用水管理,细化落实各项供水保障措施,确保城乡居民饮水安全,最大程度减轻干旱灾害损失。