《解析微软》所提出的人与智能体沟通中的挑:,战

2025-07-26 05:01:49      来源:1905电影网

微软在最新研究中提出了一系列关于人机交互的核心挑战:我们该如何理解AI的意图?如何建立信任?又如何在不对称的信息结构中实现高效协作?本文将深入解析这些挑战背后的技术与认知逻辑,带你重新审视“对话式AI”时代的人机关系边界。

当前的智能体已不再是简单的聊天机器人,而是能够观察环境、调用工具,并与其他智能体沟通以解决问题的复杂系统,这种进化使其在广泛任务中展现出巨大潜力。

然而,这种能力的跃升并非没有代价。正如微软研究院在发布的论文《人与智能体沟通中的挑战》中指出的那样,它们的复杂性和广泛的失败模式给人类与AI的交互带来了新的挑战。

本文将清晰易懂地剖析人与智能体沟通中的12个关键挑战。

沟通的“雷区地图”

在《人与智能体沟通中的挑战》中,微软的研究者们形象地绘制了一幅人与智能体沟通时可能遭遇的“雷区地图”。

该框架借鉴了沟通理论中的“共同基础”概念,将12个挑战归纳为三大类:

1.普适性的人与智能体沟通难题(X1-X4):贯穿人与智能体交互始终的沟通障碍,具有普遍性。

2.用户向智能体传递信息(U1-U3):核心在于如何确保AI准确无误地理解用户的意图和需求。

3.智能体向用户传递信息(A1-A5):核心在于AI如何清晰、有效地将自身状态、行为和结果传达给用户。同时,这些挑战还分布在沟通交互过程的“之前”、“之中”和“之后”三个不同阶段。

我们在下表中详细列出了12个关键挑战:

那接下来,对这些挑战进行深入的分类探讨。

12大挑战解析

普适性难题(X1-X4):AI交互中挥之不去的“幽灵”

这些挑战普遍存在于各类人与智能体的沟通场景中,是设计任何AI交互系统时都需要面对的基础性问题。它们共同构成了建立用户信任、确保交互透明以及实现有效控制的基础。

X1:智能体应如何帮助用户验证其行为?

核心问题:智能体在处理复杂任务时,出现失误在所难免。因此,用户需要有效的方法来确认智能体是否准确理解了指令,以及智能体正在执行或计划执行的动作是否真正符合其预期。

X2:智能体应如何传达一致的行为?

核心问题:AI行为的不一致性(或用户感知到的不一致性)会逐步侵蚀用户的信任度。这种不一致可能源于AI与环境或其他智能体交互所产生的复杂动态,或是AI的行为模式与用户的心智模型不相符等。

X3:智能体应如何选择合适的细节详略程度?

核心问题:如何在确保用户能够验证智能体行为、避免混淆与防止因信息过多导致用户认知负担之间寻求微妙的平衡。

X4:智能体在沟通时应考虑哪些过去的交互?

核心问题:智能体如何有效利用丰富的历史交互数据,来优化当前的沟通。确保智能体能够精准聚焦于与当前指令最相关的部分,同时有效地管理可能包含敏感内容的数据并保护隐私,是日益严峻的挑战。

这些普适性挑战共同指向了人机交互中“信任-透明-控制”这一核心三角关系。

我们需要告诉AI什么(U1-U3):让AI听懂我们的“心声”

这类挑战主要关注用户如何才能有效地向智能体传递其意图、偏好和反馈等关键信息。

U1:智能体应该实现什么目标?

核心问题:用户需要清晰、无歧义地向AI表达他们的目标和意图。自然语言的模糊性和不精确性容易导致AI产生误解,从而对目标的理解出现偏差。这凸显了在人将意图传递给AI的过程中存在的“语义鸿沟”——人的意图往往是微妙、隐含且依赖上下文的,而AI的理解则可能更为字面和受限。

U2:智能体应该尊重哪些偏好?

核心问题:对于同一个高级目标,通常存在多种可行的实现路径或解决方案。然而,基于用户的个性化偏好、特定约束或“红线”,某些方案会明显更符合用户预期。因此,挑战的核心在于,用户如何才能清晰、便捷地表达这些偏好,特别是那些与常规的规范或默认设置有所不同的个性化需求。

U3:智能体下次应该如何改进?

核心问题:即便AI初步理解了用户的目标和偏好,它在执行过程中仍有可能犯错或表现不佳。因此,用户如何能够有效地提供反馈,以引导AI的行为,帮助其从错误中学习并持续改进未来的表现,就显得至关重要。人机交互不仅是一次性的指令下达,更是一个持续的、迭代的反馈与学习过程。

AI告诉我们什么(A1-A5):揭开AI的“内心”与行动面纱

A1:智能体能做什么?

核心问题:如果用户不能充分了解智能体的具体能力范围或其固有的局限性,他们就无法就何时以及如何最有效地利用其协助做出明智的决策,也无法在使用时建立合理的预期。

A2:智能体将要做什么?

核心问题:为了达成某个复杂目标,AI可能会自主规划并分步执行大量且耗时的动作。在执行这些动作之前,特别是那些具有不可逆性、可能违反用户偏好或涉及较高风险的动作,AI应如何以及何时向用户清晰地沟通其行动计划,以获取用户的许可或修正反馈。

A3:智能体当前正在做什么?

核心问题:当AI处于行动过程中时,用户如何能够实时理解它当前正在执行的具体操作,这些操作会产生什么即时影响,以及用户是否应该在必要时介入以调整或中止其活动。该挑战与A2的关键区别在于沟通的时间点:A2关注行动前的计划沟通,而A3关注行动执行过程中的状态同步。

A4:是否产生了任何副作用或环境变化?

核心问题:用户如何能够有效监控AI对其所操作环境(例如本地磁盘文件、操作系统设置等)所做的关键更改,特别是那些可能带来负面影响或违反社会规范的更改。随着智能体对外部环境影响能力的增强,AI不仅要完成任务,还需要对其行为后果负责,并主动向用户报告这些影响。

A5:目标是否已达成?

核心问题:当用户向AI指定一个高级别的、可能较为抽象的目标,AI通过执行一系列复杂的计划来尝试达成该目标后,系统需要向用户有效传达相关信息,使得用户能够依据自己的标准和判断依据来验证目标是否已圆满完成。

挑战的总结

审视这12个挑战,可以清晰地发现它们并非孤立存在,而是相互交织、彼此影响。这种内在的复杂联系意味着,试图解决这些挑战的方案往往需要具备整体性和系统性的考量。

更进一步看,虽然许多挑战在传统的人机交互(HCI)和AI研究领域早已被关注和提及,但生成式AI和工具型智能体的兴起,无疑放大了这些挑战的严峻性和复杂性。这些模型的“黑箱”特性、输出结果的内在随机性以及其所具备的广泛能力范围,使得实现运作过程的透明化和进行有效的双向沟通变得尤为困难。

当问题的规模和性质发生了根本性的转变,原有HCI体系下的一些设计原则和解决方案可能已无法完全应对当前的需求,迫切需要新的设计模式和交互原则,而这也正是我们HAI(Human-AgentInteraction)所探究的核心议题。

预告

面对上述挑战,微软研究院并未止步于理论分析,而是着手构建了一个实验平台,为在真实环境中深入研究上述的12个关键挑战提供了具体的载体和试验田。

那下一篇,我们来看看微软是如何尝试解题的。

参考文献

GaganBansal,JenniferWortmanVaughan,SaleemaAmershi,EricHorvitz,AdamFourney,HusseinMozannar1,VictorDibia,andDanielS.Weld.“ChallengesinHuman-AgentCommunication”(2024)

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

  体量不及西安的兰州,也拿出大手笔。T3航站楼面积40万平方米,综合交通中心27万平方米,是甘肃民航发展史上规模最大的工程。

责编:黄俊毅编辑

科内利亚诺官宣朱婷续约

  当地时间8月29日,巴黎残奥会首个比赛日。在伊夫林省圣康坦自行车馆,中国队选手李樟煜上演了一场“速度与激情”。男子C1级3000米个人追逐赛资格赛,他以3:31.338的成绩刷新该项目世界纪录。决赛中,李樟煜状态火热,夺得金牌,这也是中国体育代表团在本届残奥会上获得的首枚金牌。另一位中国队选手梁伟聪摘得银牌,恭喜中国队包揽该项目金银牌!

李光洁说不想和蒋欣演两口子了

  青海将西宁机场三期扩建工程视为深度融入国家“一带一路”建设的重点工程;甘肃认为兰州中川国际机场三期工程是积极参与共建“一带一路”的有力注脚;西安和乌鲁木齐都表示,咸阳机场、天山机场的改扩建工程,能助力西安、乌鲁木齐打造“一带一路”核心枢纽。

大学生感染情况

  在会见国泰集团行政总裁林绍波时,自治区党委书记马兴瑞表示,希望国泰集团发挥优势,和新疆共同运行好直航航线,不断提升吸引力和可持续性。着眼更大范围、更宽领域拓展双方互利合作,助力新疆经济社会加快发展,打造亚欧黄金通道和向西开放桥头堡。用好新疆区位优势,积极开拓中亚等区域市场,实现更大发展。

美国型钻地弹仅次于核武器

  阿拉木图人口近200万人,民航吞吐量规模在1000万人次;乌鲁木齐人口超过400万人,民航吞吐量规模在2700万人次。“新疆人均乘机次数更多,但乌鲁木齐国际旅客吞吐量不到阿拉木图的十分之一,国际货邮吞吐量更是阿拉木图的零头。” 李瀚明认为,换个角度,差距就是上升的空间。

再来两张成毅

  兰州和乌鲁木齐之前都只有一条跑道,因起降架次多,乌鲁木齐一直是国内最繁忙的单跑道机场之一。扩建后可以极大缓解这几座机场的现有压力。

歌手首次开启双曲袭榜

  去哪儿数据显示,消息发布后,去哪儿平台“澳大利亚”机票搜索量环比增长四成以上。在去哪儿平台上,飞往澳大利亚的航线覆盖多个城市。悉尼可直飞北京、上海、广州、深圳、成都、杭州、重庆、南京、厦门、天津、济南、西安、海口、郑州、太原等多个城市,暑期从郑州、重庆、天津往返悉尼更便宜,价格在2500元左右。此外,墨尔本可直飞北京、上海、广州、成都、杭州、南京、厦门、青岛、海口等城市,上海、广州也有直飞布里斯班的航班在售。从旅游订单来看,大堡礁、悉尼歌剧院、出海观海豚受到旅客欢迎,8-12日团预订更多。在澳大利亚,旅客可以出海观鲸、看企鹅归巢,体验特色风情。/p>

清华就北语女教授被树砸身亡致歉

  陈政高于1970年担任辽宁省海城县革委会政工组办事员;1978年任大连海运学院团委书记;1982年任辽宁省大连团市委常委、学校部部长;1985年任辽宁省大连市长海县副县长;1988年任辽宁省大连市西岗区委常委、副区长(主持工作);1993年任辽宁省大连市副市长;1997年任辽宁省省长助理;1998年任辽宁省副省长;2003年任辽宁省沈阳市委副书记、市长;2008年任辽宁省委副书记、省长。/p>

巴多萨退赛王欣瑜晋级强

  河南省气候中心6月12日8时发布干旱橙色预警,根据最新气象干旱监测显示,安阳、鹤壁、焦作、开封、洛阳、漯河、南阳、平顶山、濮阳、商丘、新乡、信阳、许昌、郑州、周口、驻马店等16个地市72个国家级气象站监测到气象干旱达到重旱等级以上,并已持续10天。据天气部门预报,6月24日之前,全省将维持高温晴热天气,虽然部分时段有分散对流性降水,但无法有效缓解旱情。