长思维链里的推理步骤 :哪些最关键 三招锁——定LLM{的命门句}子

2025-07-21 04:58:11      来源:每日甘肃网

机器之心报道

思维链里的步骤很重要,但有些步骤比其他步骤更重要,尤其是在一些比较长的思维链中。

找出这些步骤,我们就可以更深入地理解LLM的内部推理机制,从而提高模型的可解释性、可调试性和安全性。

但是,这些步骤没有那么好找,因为每个生成的token都依赖于之前的所有token,其计算难以分解。

在最近的一项研究中,来自杜克大学和Aiphabet的研究者提出,在句子层面分析推理痕迹或许是一种有前途的方法。

论文标题:ThoughtAnchors:WhichLLMReasoningStepsMatter?

作者指出,与token相比,句子的连贯性更强,并且往往与LLM提取的推理步骤相一致;与段落相比,句子不太可能混淆推理步骤,并且可以作为连接不同步骤的有效对象。

作者提出了三种互补的方法来分析LLM的推理过程,这些方法旨在识别推理过程中的关键步骤,即所谓的「思维锚(thoughtanchor)」,这些步骤对后续推理过程具有重大影响。

第一种是黑盒方法。它通过反事实分析衡量句子对最终答案的影响。即通过比较模型在包含某个句子和不包含该句子时的最终答案分布,来评估该句子对最终答案的影响。

第二种是白盒方法。它通过注意力模式识别关键句子,揭示关键句子如何影响推理轨迹的其余部分。

第三种是因果归因方法。它通过抑制注意力直接测量句子之间的因果关系,即抑制对特定句子的注意力如何影响后续每个句子的logits。

每种方法都为思维锚的存在提供了证据。这些推理步骤非常重要,对后续推理过程产生了不成比例的影响。这些思维锚通常是计划句或回溯句。

作者提供了一个开源工具,用于可视化方法的输出。

开源工具链接:http://thought-anchors.com/

这项研究也为更精确地调试推理失败、识别不可靠性的来源以及开发提高推理模型可靠性的技术打开了大门。

通过反事实测量句子影响

有些句子比其他句子更重要,但哪些句子最重要取决于我们如何定义和衡量重要性。作者将句子层面的重要性表述为一个反事实影响的问题:包含或排除一个句子会如何影响后续步骤以及模型的最终输出?

在之前的研究中,句子重要性通常是通过在推理过程中的每个句子位置强制模型给出最终答案来近似的,这种方法叫做「forced-answer」(如图3A)。

这种方法的一个局限性在于,对于某些最终答案而言,句子S可能是必要的,但LLM在推理过程中往往较晚才生成该句子。这意味着,对于出现在S之前的所有句子,强制回答的准确率都会很低,从而无法准确判断这些早期步骤的重要性。

考虑一个由句子以及最终答案A组成的推理轨迹。作者通过重新采样来定义一个度量,用以衡量句子S导致答案A出错的程度。作者称这个度量为反事实重要性。他们通过以下三个步骤来激励并定义这个度量:

推理轨迹采样。对于给定的句子S_i,生成100次推理轨迹。一种情况下包含句子S_i(干预条件),另一种情况下用一个语义不同的句子T_i替代S_i(基础条件)。

分布比较。计算两种条件下最终答案分布的KL散度。从而得到一个衡量句子S_i改变答案程度的标量。作者称其为重采样重要性度量。

语义过滤。重采样重要性的问题在于,如果T_i与S_i相同或相似,那么我们无法得知S_i是否重要。因此,作者通过计算句子对的余弦相似度,并设定一个相似度阈值,筛选出那些与原句子S_i语义不同的替代句子T_i。这样可以避免因替代句子与原句子过于相似而导致的分析偏差,从而更准确地评估S_i对最终答案的影响。

由于作者在给定句子S_i之后重新采样所有步骤,因此避免了上述强制回答方法的局限性。

在数据集中,他们发现规划生成(Plangeneration)和不确定性管理(uncertaintymanagement)例如,回溯)句子的反事实重要性始终高于其他类别的句子,如事实检索或主动计算(见图3B)。这支持了这样一种观点:高层次的组织性句子可以锚定、组织并引导推理轨迹。作者认为,与强制回答重要性和先前基于token或注意力的度量相比,这种方法提供了更有信息量的结果。

通过注意力聚集衡量句子重要性

作者假设重要的句子可能会受到下游句子更多的关注。尽管注意力权重并不一定意味着因果联系,但高度的关注是重要的句子可能对后续句子施加影响的合理机制。作者进一步推测,对重要句子的高度关注可能由特定的注意力头驱动,通过追踪这些头,可能能够确定关键句子。

作者评估了不同的头在多大程度上将注意力集中在特定的句子上。首先,对于每个推理轨迹,他们将每个注意力头的token-token注意力权重矩阵取平均值,形成一个句子-句子矩阵,其中每个元素是两个句子之间所有token对的平均值。基于每个注意力矩阵,他们计算其对角线下方列的平均值,以衡量每个句子从所有下游句子中获得的关注程度;只在相隔至少四个句子的句子对之间取平均值,以专注于远距离的连接。这为每个头生成了一个分布(例如,图4A),并且每个头通常将注意力集中在特定句子上的程度可以通过其分布的峰度来量化(对每个推理轨迹进行计算,然后在轨迹之间取平均值)。绘制每个头的峰度图表明,一些注意力头强烈地将注意力集中在推理轨迹中特定的、可能是重要的句子上(图4B)。

图5表明,规划生成、不确定性管理和自我检查(selfchecking)句子始终通过接收头获得最多的关注(见图5),而主动计算句子获得的关注最少。进一步与这一发现一致的是,根据重采样方法,那些获得高接收头关注的句子往往也会对下游句子产生更大的影响。这些发现与以下观点相符:推理轨迹是围绕高层句子构建的——这些句子启动的计算可能连接高层陈述,但对整体推理路径的影响可能微乎其微。

通过「注意力抑制」衡量句子重要性

自然而言,考察注意力权重存在一个固有局限:它们无法衡量因果关系。此外,接收头未必适合识别句子与单个后续句子间的关联。因此,作者接下来聚焦于句子间依赖关系的因果归因分析。

基于重采样的句子间分析虽能考察此类依赖关系,但在映射逻辑连接时精度有限——因为反事实重要性反映的是句子对另一句子的总效应(包括直接和间接影响)。而本文方法旨在分离句子间的直接影响,从而有望实现对逻辑连接更精确的建模。

作者通过抑制对特定句子的所有注意力(所有层和头),观察其对后续句子的影响。具体而言,影响程度定义为tokenlogits与基线logits(未抑制时)的KL散度。对后续句子的总效应计算为其组成tokenlog-KL散度的平均值。

该方法基于两个假设:

tokenlogits能准确捕捉句子的语义内容;

注意力抑制不会导致分布外行为的干扰。

因此需验证注意力抑制法与重采样法的相关性——后者虽精度较低,但不依赖上述假设。

注意力抑制矩阵与重采样矩阵的值呈现显著相关性。在20条推理轨迹中,19条显示正相关。当仅分析推理轨迹中相距5句以内的案例时(可能更好捕捉直接效应),相关性更强。考虑到两种方法测量的是因果关系的不同维度,且重采样法本身包含随机噪声,这些相关系数具有实质意义。该结果支持了重采样方法的有效性。

案例研究

所采用的三种技术覆盖了推理轨迹中不同层面的归因分析。接下来,作者通过模型对具体问题的响应展示了这些技术的实用性和互补性。选用的例题是:「当十六进制数66666_16转换为二进制表示时,它有多少个二进制位(比特)?」

重采样

模型处理此问题的思路是:首先考虑66666_16包含5个十六进制位,而每个十六进制位可用4个二进制位表示。基于此逻辑,思维链最初得出「20比特」的答案。然而这一初始答案忽略了6_16实际对应110_2(而非0110_2,因其最前面的0无效),因此正确答案应为「19比特」。在第13句时,模型通过启动将66666_16转换为十进制再转二进制的计算,转向了正确解答。

重采样方法揭示了这一初始错误轨迹和关键转折点(图2A已展示)。具体表现为:第6-12句期间预期准确率持续下降,但第13句使反事实准确率急剧上升。值得注意的是,若采用强制模型立即生成响应的评估方法(如部分已有研究所示),则会完全错过第13句的关键作用——该方法仅会得到0准确率。

接收头

模型得出最终正确答案的推理轨迹可分解为多个计算模块(见图6流程图)。首先,模型建立将66666_16转换为十进制的计算公式(第13-19句);接着执行该公式的计算,得出66666_16对应的十进制值为419,430(第20-33句);随后通过提出并求解新公式,确定正确答案为「19比特」(第34-41句)。此时模型注意到与早期「20比特」答案的矛盾(第42-45句),于是启动双重验证计算:先确认十六进制转十进制的准确性(第46-58句),再校验二进制转换的正确性(第59-62句)。在强化对「19比特」答案的确信后,模型最终发现初始「20比特」错误的根源:「因最前面的0不计入位数」(第66句)。

上述过程基于作者对注意力模式的分析:接收头精准定位了发起计算或陈述关键结论的句子,从而将推理轨迹划分为具有明确意义的模块(图6)。

注意力抑制分析

除了被组织成计算模块外,该推理过程还展现出与句子间依赖关系相关的框架结构(图6)。其中一个结构特征是包含错误提议、发现矛盾及最终解决的自我纠正模式。具体而言,模型最初提出「20比特」的错误答案(第12句),随后决定重新核验。这导致与通过十进制转换计算得出的「19比特」答案产生矛盾(第43-44句)。在重新核验支持「19比特」答案的运算后,模型回到该矛盾点(第65句),最终解释为何「20比特」答案是错误的(第66句)。这可视为一个初步的思维链回路:两个相互冲突的结论产生矛盾,进而促使模型解决该矛盾。

在这个大跨度框架中,还存在验证先前计算的更深层依赖关系。具体表现为:模型先完成66666_16转换为十进制值419,430的计算(第32句),随后决定核验该转换结果(第46句),最终确认原始值正确(第59句)。这可视作思维链回路的进一步体现。

作者基于论文前面提到的注意力抑制矩阵识别出这些关键连接,该矩阵在这些关联位置呈现局部最大值(12→43、43→65、12→66;32→46、32→59)。值得注意的是,注意力抑制技术定位的多数句子与接收头(receiverheads)高度关注的句子存在重叠。相较于接收头的结论,注意力抑制技术还展示了信息是如何在这些构建推理轨迹的关键句子之间流动的。

更多细节请参见原论文。

  2023年7月,中共中央总书记、国家主席、中央军委主席习近平在四川考察时指出,四川要发挥高校和科研机构众多、创新人才集聚的优势和产业体系较为完善、产业基础雄厚的优势,在科技创新和科技成果转化上同时发力。

责编:改姝艳编辑

杀害杨靖宇日本军官自杀前的遗言

  青海将西宁机场三期扩建工程视为深度融入国家“一带一路”建设的重点工程;甘肃认为兰州中川国际机场三期工程是积极参与共建“一带一路”的有力注脚;西安和乌鲁木齐都表示,咸阳机场、天山机场的改扩建工程,能助力西安、乌鲁木齐打造“一带一路”核心枢纽。

歌手

  [环球时报报道 记者 倪浩]8月3日,郑钦文夺得2024巴黎奥运会网球女单冠军,实现中国选手在该项目上的历史性突破,也点燃了民众参与网球运动的热情,网球热度随之大涨。接受《环球时报》记者采访的专家认为,体育明星与体育经济会形成正向反馈:体育明星的示范效应会提振相关体育产业、吸引更多人参与到运动中来,大众的广泛参与则会成为“未来明星运动员”诞生的基石。

北大退学考清华男生自称有些狂妄

  兰州和乌鲁木齐之前都只有一条跑道,因起降架次多,乌鲁木齐一直是国内最繁忙的单跑道机场之一。扩建后可以极大缓解这几座机场的现有压力。

如愿

  详细剖析两个企业补税案例,也能一定程度上消除上述担忧。枝江酒业之所以被要求补缴8500万元消费税,直接原因是审计部门发现问题,税务部门据此执行。

吴昕是不是忘了自己是个女明星

  去年,民航局、国家发改委联合发文《关于推进国际航空枢纽建设的指导意见》,画出国际航空枢纽的蓝图,提出“3+7+N”国际航空枢纽功能体系。

年净网护网专项工作部署会召开

  随着参与网球运动的人逐渐增多,中国网球的基础设施也在不断完善。纪宁告诉《环球时报》记者:“我们在做一个项目,在北京朝阳区规划一个‘大满贯网球文化公园’,将汇集所有大满贯要素。人们既能在此观看全球顶级赛事,也能在场地上训练和比赛。”纪宁说,这仅是一个案例,但从中可以窥见中国网球运动基础设施越来越完善,也越来越专业化。作为体育产业的参与者与观察者,纪宁表示,不仅北京,全国各地网球运动设施也发展得越来越好。/p>

易烊千玺演唱会

  中国名义税负一直高于实际税负。所谓名义税负是指企业名义上该缴纳的税费。由于征管、企业对税法理解等原因,实际上企业不一定足额缴纳法律意义上的税费。/p>

天热出汗会消耗脂肪吗

  李鹏新严重违反党的政治纪律、组织纪律、廉洁纪律和生活纪律,构成严重职务违法并涉嫌受贿犯罪,且在党的十八大后不收敛、不收手,性质严重,影响恶劣,应予严肃处理。依据《中国共产党纪律处分条例》《中华人民共和国监察法》《中华人民共和国公职人员政务处分法》等有关规定,经中央纪委常委会会议研究并报中共中央批准,决定给予李鹏新开除党籍处分;由国家监委给予其开除公职处分;收缴其违纪违法所得;将其涉嫌犯罪问题移送检察机关依法审查起诉,所涉财物一并移送。