
核心观点总结
Harrison Chase 探讨了“环境智能体”(Ambient Agents)这一新兴概念,指出其与传统聊天智能体的核心区别。环境智能体并非由用户直接发起交互,而是被动地监听事件流并在后台自主运行,能够同时处理多个事件,对延迟的要求也更低。这种特性使其能够扩展个人能力、处理更复杂的操作。然而,Chase 强调,“环境”并非等同于“完全自主”。他认为,人机交互对于环境智能体至关重要,具体体现在:用户审批或拒绝智能体的行动建议、编辑智能体的操作、在智能体遇到障碍时为其解答疑问,以及“时间旅行”功能(即回顾并修正智能体历史步骤中的决策)。这种“人在回路”的模式不仅能带来更好的结果、建立信任,更有助于智能体通过学习用户互动来优化其“记忆”和未来表现。LangChain 正致力于开发 LangGraph(智能体编排框架)、LangChain 平台(运行基础设施)和 LangSmith(可观测性工具),以支持环境智能体的构建和高效运行。Chase 以其个人邮件智能体为例,展示了这些理念的实际应用。
环境智能体:未来已来
我们接下来要讨论的,都是关于未来的发展。首先登场的是 Harrison Chase,我们 LangChain 自己人,他参加了每一次人工智能相关的会议。据我所知,他讨论智能体的时间比任何人都长。我们非常荣幸能邀请他来这里,谈谈智能体,特别是你们 LangChain 团队正在向世界推广的一个新概念——环境智能体。
非常感谢刚才的介绍,很高兴能在这里与大家交流。
我是 Harrison,LangChain 的联合创始人兼首席执行官。我们致力于构建开发者工具,旨在让构建智能体变得尽可能简单。迄今为止,我们看到构建的大多数智能体,我称之为“聊天智能体”。你通过聊天界面与它们互动,发送消息,它们执行任务并作出回应。这非常好,它们在很多方面都表现出色。但我个人非常兴奋的一个概念是“环境智能体”。
什么是环境智能体?

那么,什么是环境智能体呢?我倾向于这样定义:环境智能体能够监听一个事件流,并据此采取相应行动,甚至可能同时处理多个事件。
那么,这与普通的智能体有何不同呢?主要有以下几点:
触发机制的差异
首先是触发机制。环境智能体的启动不再依赖于人类用户输入消息,而是由后台发生的某个事件触发。
并行处理能力
其次,是可同时运行的数量。对于聊天智能体,通常一次只能与一个智能体互动。或许你可以打开几个窗口,同时运行几个,但基本上是一对一的。而对于环境智能体,由于它们监听的是事件,因此其运行数量取决于后台发生的事件数量,这个数字可能会大得多。
延迟要求的不同
另一个有趣的差异点在于延迟要求。使用聊天智能体时,你发送消息后,期望能迅速得到回应,否则你可能会感到厌烦而去浏览其他网站。但环境智能体在后台运行,由事件触发,因此它们可以在需要任何形式的响应之前,运行更长的时间。所以,它们通常对延迟的要求要宽松得多。
用户体验的重塑
最后,我认为思考这些智能体的用户体验(UX)也非常有趣。对于聊天智能体,也就是我们现在已经非常熟悉的聊天机器人界面。但对于那些在后台运行的智能体,我们如何与之互动,这似乎还是一个有待探索的问题。因为它们在你不知情的情况下运行,但正如我稍后会谈到的,你与它们进行某种形式的互动仍然至关重要。
为了让这个概念更具体,举个例子:一个电子邮件智能体就是一个环境智能体。它可以监听收到的邮件,并据此采取行动,比如尝试回复邮件、安排会议,或者提醒你或团队中的其他人。这可以算作我们所见的一种环境智能体的具体实例。
为何选择环境智能体?
我认为环境智能体引人关注的原因有几点:
规模化提升个人能力
首先,它们能帮助我们规模化地提升自身能力。当你与聊天智能体互动时,通常是一对一的,一次只做一件事。而拥有了环境智能体,成千上万个智能体可以在后台同时运行,这将极大地扩展我们的影响力。
处理更复杂的操作
其次,它们能够处理更复杂的操作。与聊天智能体互动时,由于延迟要求,它执行的通常是较为简单的操作。比如,用户发送消息,聊天机器人或智能体接收后立即响应,或许会调用一个工具,顶多两个。调用的工具越多,运行时间就越长。但环境智能体不存在如此严格的延迟限制,因此可以调用大量工具,执行越来越复杂的操作。你还可以加入其他步骤,比如明确的规划或反思环节,从而逐步提升所构建智能体的复杂性。

环境并非意味着完全自主:人机协同的重要性
我特别想强调一点:“环境”并不等同于“完全自主”。我仍然认为,我们能够与这些环境智能体进行互动至关重要。我们观察到人们正在构建几种不同的人机交互模式:
审批与拒绝
第一种是审批或拒绝这些智能体想要执行的某些操作。例如,如果你想让一个环境智能体处理给投诉客户退款的邮件,那么在初期阶段,你肯定希望有人工介入来审批这些退款操作。
编辑与修正
第二种是更高级的选项,即编辑智能体将要执行的操作。也许智能体提出了一个建议,你不想简单地批准或拒绝,而是希望明确地修改它,然后让它执行修改后的操作。
解疑与指导
第三,这些智能体有时可能会在任务中途卡住。因此,应该有一种机制,让你能够回答它们可能提出的问题,就像你会回答正在处理复杂问题的同事提出的问题一样。
时间旅行:回溯与干预
第四,由于这些智能体执行许多步骤,你可能会发现回到比如总共一百个步骤中的第十步,在那里进行互动,修改它的行为,给予一些反馈,这将非常有用。我们称之为“时间旅行”,促进这种交互是我们看到的一种很酷的新模式。
让人类参与其中之所以重要,有以下几个原因:
提升成果质量
首先,它能带来更好的结果。以深度研究(deep research)为例,虽然这不完全是环境智能体,但它是一个长期运行的智能体。在初期阶段,它会问你一些澄清性问题,来回沟通,这通常比它仅仅根据你最初的问题或陈述就自行运作,能产生好得多的结果。因此,在深度研究中通过提问澄清问题,在环境智能体中通过不同类型的交互模式,让人类参与进来,都能提升最终成果的质量。
构建信任感
其次,它有助于建立更多的信任。如果你要执行明确的行动,比如付款或批准某些事项,有人工参与会让人更加放心。
优化智能体记忆与学习
第三,这一点可能最为微妙,我认为它对智能体的“记忆”有很大帮助。我所说的记忆,是指从用户互动中学习。如果你不与智能体互动,那么它就没有用户互动可供学习。因此,让人类参与其中,有助于为你想植入智能体的许多记忆功能提供信息,使其将来能表现得更好。
鉴于人在回路中的重要性,思考一个好的用户体验应该是什么样子就很有趣了。这是我们在 LangChain 构建的一个原型,我们称之为“智能体收件箱”(Agent Inbox)。这是一个供你的智能体向你发送信息的收件箱。你可以看到哪些任务需要你操作,可以看到一些描述。如果你点击某一行,就能看到更详细的情况说明,以及它具体希望获得什么批准,或者你是否想回复它。这里有几种不同的交互模式。
LangChain 的助力:为环境智能体打造基石
接下来,我将非常简要地介绍一些我们正在构建的、我们认为有助于此的技术。我们在 LangGraph,即我们的智能体编排框架中,投入了大量精力,使其能更好地支持环境智能体。特别是,我们对其底层的持久化层给予了极大的关注。这使得许多此类人机交互模式成为可能,因为基本上你可以运行你的 LangGraph 智能体,可以在任何时间点暂停,整个当前状态以及之前的状态都会被持久化。因此,你就可以实现所有的人机交互模式,可以等待一秒、一天、一小时,或者任何时长,让用户介入,查看状态,修改它,回到之前的状态等等。

我们目前在 LangGraph 平台上花费了大量时间,将其作为运行这些智能体的基础设施。这些智能体通常运行时间更长,而且由于它们是由事件触发的,所以往往是爆发式的——你可能一次收到数千个事件,因此需要能够灵活扩展。此外,它们本质上是脆弱的,这不仅是因为典型的软件问题,也因为这种人在回路的模式——你需要能够纠正错误。

最后,我们也在为这些智能体构建 LangSmith。它们运行时间很长,可能会出错,执行的任务也更复杂,因此,对它们正在做什么拥有可见性和可观测性至关重要。
举一个具体的例子,我业余时间构建了一个电子邮件智能体。如果你在过去一年左右给我发过邮件,它可能已经草拟了回复或发送了日历邀请。它仍然是人在回路的,我一直都在使用那个智能体收件箱。这个项目是开源的,放在 GitHub 上。所以,如果你想看看所有这些组件是如何协同工作的,以及我认为非常酷、独特,并希望能一窥未来发展方向的东西,我鼓励你去看看。
就说这么多,接下来我把时间交给下一位。谢谢。
(掌声)
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...