长思维链里的推理步骤 {哪些最}:关键 三招锁定;LLM的命门句子

2025-07-28 04:40:52      来源:宁海新闻网

机器之心报道

思维链里的步骤很重要,但有些步骤比其他步骤更重要,尤其是在一些比较长的思维链中。

找出这些步骤,我们就可以更深入地理解LLM的内部推理机制,从而提高模型的可解释性、可调试性和安全性。

但是,这些步骤没有那么好找,因为每个生成的token都依赖于之前的所有token,其计算难以分解。

在最近的一项研究中,来自杜克大学和Aiphabet的研究者提出,在句子层面分析推理痕迹或许是一种有前途的方法。

论文标题:ThoughtAnchors:WhichLLMReasoningStepsMatter?

作者指出,与token相比,句子的连贯性更强,并且往往与LLM提取的推理步骤相一致;与段落相比,句子不太可能混淆推理步骤,并且可以作为连接不同步骤的有效对象。

作者提出了三种互补的方法来分析LLM的推理过程,这些方法旨在识别推理过程中的关键步骤,即所谓的「思维锚(thoughtanchor)」,这些步骤对后续推理过程具有重大影响。

第一种是黑盒方法。它通过反事实分析衡量句子对最终答案的影响。即通过比较模型在包含某个句子和不包含该句子时的最终答案分布,来评估该句子对最终答案的影响。

第二种是白盒方法。它通过注意力模式识别关键句子,揭示关键句子如何影响推理轨迹的其余部分。

第三种是因果归因方法。它通过抑制注意力直接测量句子之间的因果关系,即抑制对特定句子的注意力如何影响后续每个句子的logits。

每种方法都为思维锚的存在提供了证据。这些推理步骤非常重要,对后续推理过程产生了不成比例的影响。这些思维锚通常是计划句或回溯句。

作者提供了一个开源工具,用于可视化方法的输出。

开源工具链接:http://thought-anchors.com/

这项研究也为更精确地调试推理失败、识别不可靠性的来源以及开发提高推理模型可靠性的技术打开了大门。

通过反事实测量句子影响

有些句子比其他句子更重要,但哪些句子最重要取决于我们如何定义和衡量重要性。作者将句子层面的重要性表述为一个反事实影响的问题:包含或排除一个句子会如何影响后续步骤以及模型的最终输出?

在之前的研究中,句子重要性通常是通过在推理过程中的每个句子位置强制模型给出最终答案来近似的,这种方法叫做「forced-answer」(如图3A)。

这种方法的一个局限性在于,对于某些最终答案而言,句子S可能是必要的,但LLM在推理过程中往往较晚才生成该句子。这意味着,对于出现在S之前的所有句子,强制回答的准确率都会很低,从而无法准确判断这些早期步骤的重要性。

考虑一个由句子以及最终答案A组成的推理轨迹。作者通过重新采样来定义一个度量,用以衡量句子S导致答案A出错的程度。作者称这个度量为反事实重要性。他们通过以下三个步骤来激励并定义这个度量:

推理轨迹采样。对于给定的句子S_i,生成100次推理轨迹。一种情况下包含句子S_i(干预条件),另一种情况下用一个语义不同的句子T_i替代S_i(基础条件)。

分布比较。计算两种条件下最终答案分布的KL散度。从而得到一个衡量句子S_i改变答案程度的标量。作者称其为重采样重要性度量。

语义过滤。重采样重要性的问题在于,如果T_i与S_i相同或相似,那么我们无法得知S_i是否重要。因此,作者通过计算句子对的余弦相似度,并设定一个相似度阈值,筛选出那些与原句子S_i语义不同的替代句子T_i。这样可以避免因替代句子与原句子过于相似而导致的分析偏差,从而更准确地评估S_i对最终答案的影响。

由于作者在给定句子S_i之后重新采样所有步骤,因此避免了上述强制回答方法的局限性。

在数据集中,他们发现规划生成(Plangeneration)和不确定性管理(uncertaintymanagement)例如,回溯)句子的反事实重要性始终高于其他类别的句子,如事实检索或主动计算(见图3B)。这支持了这样一种观点:高层次的组织性句子可以锚定、组织并引导推理轨迹。作者认为,与强制回答重要性和先前基于token或注意力的度量相比,这种方法提供了更有信息量的结果。

通过注意力聚集衡量句子重要性

作者假设重要的句子可能会受到下游句子更多的关注。尽管注意力权重并不一定意味着因果联系,但高度的关注是重要的句子可能对后续句子施加影响的合理机制。作者进一步推测,对重要句子的高度关注可能由特定的注意力头驱动,通过追踪这些头,可能能够确定关键句子。

作者评估了不同的头在多大程度上将注意力集中在特定的句子上。首先,对于每个推理轨迹,他们将每个注意力头的token-token注意力权重矩阵取平均值,形成一个句子-句子矩阵,其中每个元素是两个句子之间所有token对的平均值。基于每个注意力矩阵,他们计算其对角线下方列的平均值,以衡量每个句子从所有下游句子中获得的关注程度;只在相隔至少四个句子的句子对之间取平均值,以专注于远距离的连接。这为每个头生成了一个分布(例如,图4A),并且每个头通常将注意力集中在特定句子上的程度可以通过其分布的峰度来量化(对每个推理轨迹进行计算,然后在轨迹之间取平均值)。绘制每个头的峰度图表明,一些注意力头强烈地将注意力集中在推理轨迹中特定的、可能是重要的句子上(图4B)。

图5表明,规划生成、不确定性管理和自我检查(selfchecking)句子始终通过接收头获得最多的关注(见图5),而主动计算句子获得的关注最少。进一步与这一发现一致的是,根据重采样方法,那些获得高接收头关注的句子往往也会对下游句子产生更大的影响。这些发现与以下观点相符:推理轨迹是围绕高层句子构建的——这些句子启动的计算可能连接高层陈述,但对整体推理路径的影响可能微乎其微。

通过「注意力抑制」衡量句子重要性

自然而言,考察注意力权重存在一个固有局限:它们无法衡量因果关系。此外,接收头未必适合识别句子与单个后续句子间的关联。因此,作者接下来聚焦于句子间依赖关系的因果归因分析。

基于重采样的句子间分析虽能考察此类依赖关系,但在映射逻辑连接时精度有限——因为反事实重要性反映的是句子对另一句子的总效应(包括直接和间接影响)。而本文方法旨在分离句子间的直接影响,从而有望实现对逻辑连接更精确的建模。

作者通过抑制对特定句子的所有注意力(所有层和头),观察其对后续句子的影响。具体而言,影响程度定义为tokenlogits与基线logits(未抑制时)的KL散度。对后续句子的总效应计算为其组成tokenlog-KL散度的平均值。

该方法基于两个假设:

tokenlogits能准确捕捉句子的语义内容;

注意力抑制不会导致分布外行为的干扰。

因此需验证注意力抑制法与重采样法的相关性——后者虽精度较低,但不依赖上述假设。

注意力抑制矩阵与重采样矩阵的值呈现显著相关性。在20条推理轨迹中,19条显示正相关。当仅分析推理轨迹中相距5句以内的案例时(可能更好捕捉直接效应),相关性更强。考虑到两种方法测量的是因果关系的不同维度,且重采样法本身包含随机噪声,这些相关系数具有实质意义。该结果支持了重采样方法的有效性。

案例研究

所采用的三种技术覆盖了推理轨迹中不同层面的归因分析。接下来,作者通过模型对具体问题的响应展示了这些技术的实用性和互补性。选用的例题是:「当十六进制数66666_16转换为二进制表示时,它有多少个二进制位(比特)?」

重采样

模型处理此问题的思路是:首先考虑66666_16包含5个十六进制位,而每个十六进制位可用4个二进制位表示。基于此逻辑,思维链最初得出「20比特」的答案。然而这一初始答案忽略了6_16实际对应110_2(而非0110_2,因其最前面的0无效),因此正确答案应为「19比特」。在第13句时,模型通过启动将66666_16转换为十进制再转二进制的计算,转向了正确解答。

重采样方法揭示了这一初始错误轨迹和关键转折点(图2A已展示)。具体表现为:第6-12句期间预期准确率持续下降,但第13句使反事实准确率急剧上升。值得注意的是,若采用强制模型立即生成响应的评估方法(如部分已有研究所示),则会完全错过第13句的关键作用——该方法仅会得到0准确率。

接收头

模型得出最终正确答案的推理轨迹可分解为多个计算模块(见图6流程图)。首先,模型建立将66666_16转换为十进制的计算公式(第13-19句);接着执行该公式的计算,得出66666_16对应的十进制值为419,430(第20-33句);随后通过提出并求解新公式,确定正确答案为「19比特」(第34-41句)。此时模型注意到与早期「20比特」答案的矛盾(第42-45句),于是启动双重验证计算:先确认十六进制转十进制的准确性(第46-58句),再校验二进制转换的正确性(第59-62句)。在强化对「19比特」答案的确信后,模型最终发现初始「20比特」错误的根源:「因最前面的0不计入位数」(第66句)。

上述过程基于作者对注意力模式的分析:接收头精准定位了发起计算或陈述关键结论的句子,从而将推理轨迹划分为具有明确意义的模块(图6)。

注意力抑制分析

除了被组织成计算模块外,该推理过程还展现出与句子间依赖关系相关的框架结构(图6)。其中一个结构特征是包含错误提议、发现矛盾及最终解决的自我纠正模式。具体而言,模型最初提出「20比特」的错误答案(第12句),随后决定重新核验。这导致与通过十进制转换计算得出的「19比特」答案产生矛盾(第43-44句)。在重新核验支持「19比特」答案的运算后,模型回到该矛盾点(第65句),最终解释为何「20比特」答案是错误的(第66句)。这可视为一个初步的思维链回路:两个相互冲突的结论产生矛盾,进而促使模型解决该矛盾。

在这个大跨度框架中,还存在验证先前计算的更深层依赖关系。具体表现为:模型先完成66666_16转换为十进制值419,430的计算(第32句),随后决定核验该转换结果(第46句),最终确认原始值正确(第59句)。这可视作思维链回路的进一步体现。

作者基于论文前面提到的注意力抑制矩阵识别出这些关键连接,该矩阵在这些关联位置呈现局部最大值(12→43、43→65、12→66;32→46、32→59)。值得注意的是,注意力抑制技术定位的多数句子与接收头(receiverheads)高度关注的句子存在重叠。相较于接收头的结论,注意力抑制技术还展示了信息是如何在这些构建推理轨迹的关键句子之间流动的。

更多细节请参见原论文。

  截至6月13日,全省大、中型水库可用水总量40.48亿立方米,储量充足有保证,按照6月底前无有效降雨的最不利因素考虑,可放水7亿立方米用于抗旱灌溉;南水北调中线工程、大中型水库及河道供水正常,地下水源较充沛,能够满足抗旱需求。5月下旬以来,对全省98.72万眼农田建设灌溉机井和56.85万项灌排沟渠设备进行全面排查,及时修复损坏设施,确保抗旱灌溉需要。省财政近期专门安排3000万抗旱专项资金,支持各地开展抗旱工作。

责编:希安柏编辑

巴多萨退赛王欣瑜晋级强

  一是湖北枝江酒业股份有限公司被要求补税8500万元,因这笔税款被追溯至1994年,使得税务“倒查30年”成为舆论焦点。二是宁波博汇化工科技股份有限公司3月份收到当地税务要求补税5亿元的通知,最近企业宣布停产。

大批美军部队开始加餐

  携程集团副总裁秦静认为,随着这一政策的施行,将加速中国与澳大利亚之间的旅游交流及经贸互动。同时,政策也将惠及在澳大利亚生活的逾百万华人华侨,使得他们回国探亲或旅游的过程更为简便顺畅。秦静指出,作为亚太地区的重要国家,中国与澳大利亚在经济上具有高度的互补性,合作潜力巨大,未来也期盼在旅游领域激发更强劲的合作动力。

清华回应女教授被树砸身亡

  6月14日上午,水利部组织开展抗旱专题会商,分析研判华北黄淮等北方地区旱情形势,要求即日起,受旱地区上游黄河、海河、淮河流域的控制性水库全部进入抗旱调度模式,加大下泄流量,保障抗旱用水需求,确保城乡居民饮水安全,以及规模化养殖和大牲畜用水安全,全力保障灌区农作物时令灌溉用水。6月14日15时,水利部将针对河南、河北的干旱防御应急响应提升至三级,目前维持针对山西、江苏、安徽、山东、陕西、甘肃6省的干旱防御四级应急响应,并派出两个工作组正在一线指导抗旱工作。

如愿

  张先生说,因为网球人群的增多,网球运动关联经济也更加活跃。球衣、球袜、球包以及打球的各种装备和周边产品,包括网球训练课都在走俏。比赛数量的增加,更是提升了各地运动场馆的利用率。

清华回应女教授被树砸身亡

  因此在不断强化税收征管的同时,应该同步适度推进税制改革,适度降低名义税率,让企业实际税负维持在一个合理水平,同时国家财政收入也并不会由此减少,进而实现良性循环。

巴多萨退赛王欣瑜晋级强

  针对上述情况,通用汽车高管表示,企业对扭转中国市场的销售局面仍有信心,他们希望旗下新能源车型能在中国市场继续发力。据彭博社报道,通用汽车董事长兼首席执行官玛丽·博拉此前表示,“当你观察中国市场时,会发现它与5年前有很大不同。我们希望能够以正确的方式参与到这个市场中。”尽管在中国市场份额占比不大,但斯特兰蒂斯也看好中国市场,并“入股”中国车企。去年10月,斯特兰蒂斯宣布与中国零跑汽车成为全球战略伙伴,并向后者投资15亿欧元。/p>

留英博士迷奸多人想化学阉割减刑遭拒

  美团数据也显示,7月以来,“网球”搜索量同比去年增长超60%。网球体验课、网球培训季度课包在平台热销,美团上网球运动相关团购订单量同比激增172%。/p>

婚检查出重大疾病医院仅告知本人

  今年36岁的李樟煜,已经在残疾人自行车项目征战多年。2012年伦敦残奥会,他第一次实现了残奥冠军梦。接下来,从里约到东京,再到巴黎,他带着梦想破风前行,每届残奥会都有金牌入账。据介绍,李樟煜获得的各类国际赛事奖牌已有50多枚。