红杉AI2025峰会6-Langchain CEO最新访谈：“环境智能体”将取代聊天机器人

核心观点总结

Harrison Chase 探讨了“环境智能体”（Ambient Agents）这一新兴概念，指出其与传统聊天智能体的核心区别。环境智能体并非由用户直接发起交互，而是被动地监听事件流并在后台自主运行，能够同时处理多个事件，对延迟的要求也更低。这种特性使其能够扩展个人能力、处理更复杂的操作。然而，Chase 强调，“环境”并非等同于“完全自主”。他认为，人机交互对于环境智能体至关重要，具体体现在：用户审批或拒绝智能体的行动建议、编辑智能体的操作、在智能体遇到障碍时为其解答疑问，以及“时间旅行”功能（即回顾并修正智能体历史步骤中的决策）。这种“人在回路”的模式不仅能带来更好的结果、建立信任，更有助于智能体通过学习用户互动来优化其“记忆”和未来表现。LangChain 正致力于开发 LangGraph（智能体编排框架）、LangChain 平台（运行基础设施）和 LangSmith（可观测性工具），以支持环境智能体的构建和高效运行。Chase 以其个人邮件智能体为例，展示了这些理念的实际应用。

环境智能体：未来已来

我们接下来要讨论的，都是关于未来的发展。首先登场的是 Harrison Chase，我们 LangChain 自己人，他参加了每一次人工智能相关的会议。据我所知，他讨论智能体的时间比任何人都长。我们非常荣幸能邀请他来这里，谈谈智能体，特别是你们 LangChain 团队正在向世界推广的一个新概念——环境智能体。

非常感谢刚才的介绍，很高兴能在这里与大家交流。

我是 Harrison，LangChain 的联合创始人兼首席执行官。我们致力于构建开发者工具，旨在让构建智能体变得尽可能简单。迄今为止，我们看到构建的大多数智能体，我称之为“聊天智能体”。你通过聊天界面与它们互动，发送消息，它们执行任务并作出回应。这非常好，它们在很多方面都表现出色。但我个人非常兴奋的一个概念是“环境智能体”。

什么是环境智能体？

那么，什么是环境智能体呢？我倾向于这样定义：环境智能体能够监听一个事件流，并据此采取相应行动，甚至可能同时处理多个事件。

那么，这与普通的智能体有何不同呢？主要有以下几点：

触发机制的差异

首先是触发机制。环境智能体的启动不再依赖于人类用户输入消息，而是由后台发生的某个事件触发。

并行处理能力

其次，是可同时运行的数量。对于聊天智能体，通常一次只能与一个智能体互动。或许你可以打开几个窗口，同时运行几个，但基本上是一对一的。而对于环境智能体，由于它们监听的是事件，因此其运行数量取决于后台发生的事件数量，这个数字可能会大得多。

延迟要求的不同

另一个有趣的差异点在于延迟要求。使用聊天智能体时，你发送消息后，期望能迅速得到回应，否则你可能会感到厌烦而去浏览其他网站。但环境智能体在后台运行，由事件触发，因此它们可以在需要任何形式的响应之前，运行更长的时间。所以，它们通常对延迟的要求要宽松得多。

用户体验的重塑

最后，我认为思考这些智能体的用户体验（UX）也非常有趣。对于聊天智能体，也就是我们现在已经非常熟悉的聊天机器人界面。但对于那些在后台运行的智能体，我们如何与之互动，这似乎还是一个有待探索的问题。因为它们在你不知情的情况下运行，但正如我稍后会谈到的，你与它们进行某种形式的互动仍然至关重要。

为了让这个概念更具体，举个例子：一个电子邮件智能体就是一个环境智能体。它可以监听收到的邮件，并据此采取行动，比如尝试回复邮件、安排会议，或者提醒你或团队中的其他人。这可以算作我们所见的一种环境智能体的具体实例。

为何选择环境智能体？

我认为环境智能体引人关注的原因有几点：

规模化提升个人能力

首先，它们能帮助我们规模化地提升自身能力。当你与聊天智能体互动时，通常是一对一的，一次只做一件事。而拥有了环境智能体，成千上万个智能体可以在后台同时运行，这将极大地扩展我们的影响力。

处理更复杂的操作

其次，它们能够处理更复杂的操作。与聊天智能体互动时，由于延迟要求，它执行的通常是较为简单的操作。比如，用户发送消息，聊天机器人或智能体接收后立即响应，或许会调用一个工具，顶多两个。调用的工具越多，运行时间就越长。但环境智能体不存在如此严格的延迟限制，因此可以调用大量工具，执行越来越复杂的操作。你还可以加入其他步骤，比如明确的规划或反思环节，从而逐步提升所构建智能体的复杂性。

环境并非意味着完全自主：人机协同的重要性

我特别想强调一点：“环境”并不等同于“完全自主”。我仍然认为，我们能够与这些环境智能体进行互动至关重要。我们观察到人们正在构建几种不同的人机交互模式：

审批与拒绝

第一种是审批或拒绝这些智能体想要执行的某些操作。例如，如果你想让一个环境智能体处理给投诉客户退款的邮件，那么在初期阶段，你肯定希望有人工介入来审批这些退款操作。

编辑与修正

第二种是更高级的选项，即编辑智能体将要执行的操作。也许智能体提出了一个建议，你不想简单地批准或拒绝，而是希望明确地修改它，然后让它执行修改后的操作。

解疑与指导

第三，这些智能体有时可能会在任务中途卡住。因此，应该有一种机制，让你能够回答它们可能提出的问题，就像你会回答正在处理复杂问题的同事提出的问题一样。

时间旅行：回溯与干预

第四，由于这些智能体执行许多步骤，你可能会发现回到比如总共一百个步骤中的第十步，在那里进行互动，修改它的行为，给予一些反馈，这将非常有用。我们称之为“时间旅行”，促进这种交互是我们看到的一种很酷的新模式。

让人类参与其中之所以重要，有以下几个原因：

提升成果质量

首先，它能带来更好的结果。以深度研究（deep research）为例，虽然这不完全是环境智能体，但它是一个长期运行的智能体。在初期阶段，它会问你一些澄清性问题，来回沟通，这通常比它仅仅根据你最初的问题或陈述就自行运作，能产生好得多的结果。因此，在深度研究中通过提问澄清问题，在环境智能体中通过不同类型的交互模式，让人类参与进来，都能提升最终成果的质量。

构建信任感

其次，它有助于建立更多的信任。如果你要执行明确的行动，比如付款或批准某些事项，有人工参与会让人更加放心。

优化智能体记忆与学习

第三，这一点可能最为微妙，我认为它对智能体的“记忆”有很大帮助。我所说的记忆，是指从用户互动中学习。如果你不与智能体互动，那么它就没有用户互动可供学习。因此，让人类参与其中，有助于为你想植入智能体的许多记忆功能提供信息，使其将来能表现得更好。

鉴于人在回路中的重要性，思考一个好的用户体验应该是什么样子就很有趣了。这是我们在 LangChain 构建的一个原型，我们称之为“智能体收件箱”（Agent Inbox）。这是一个供你的智能体向你发送信息的收件箱。你可以看到哪些任务需要你操作，可以看到一些描述。如果你点击某一行，就能看到更详细的情况说明，以及它具体希望获得什么批准，或者你是否想回复它。这里有几种不同的交互模式。

LangChain 的助力：为环境智能体打造基石

接下来，我将非常简要地介绍一些我们正在构建的、我们认为有助于此的技术。我们在 LangGraph，即我们的智能体编排框架中，投入了大量精力，使其能更好地支持环境智能体。特别是，我们对其底层的持久化层给予了极大的关注。这使得许多此类人机交互模式成为可能，因为基本上你可以运行你的 LangGraph 智能体，可以在任何时间点暂停，整个当前状态以及之前的状态都会被持久化。因此，你就可以实现所有的人机交互模式，可以等待一秒、一天、一小时，或者任何时长，让用户介入，查看状态，修改它，回到之前的状态等等。

我们目前在 LangGraph 平台上花费了大量时间，将其作为运行这些智能体的基础设施。这些智能体通常运行时间更长，而且由于它们是由事件触发的，所以往往是爆发式的——你可能一次收到数千个事件，因此需要能够灵活扩展。此外，它们本质上是脆弱的，这不仅是因为典型的软件问题，也因为这种人在回路的模式——你需要能够纠正错误。

最后，我们也在为这些智能体构建 LangSmith。它们运行时间很长，可能会出错，执行的任务也更复杂，因此，对它们正在做什么拥有可见性和可观测性至关重要。

举一个具体的例子，我业余时间构建了一个电子邮件智能体。如果你在过去一年左右给我发过邮件，它可能已经草拟了回复或发送了日历邀请。它仍然是人在回路的，我一直都在使用那个智能体收件箱。这个项目是开源的，放在 GitHub 上。所以，如果你想看看所有这些组件是如何协同工作的，以及我认为非常酷、独特，并希望能一窥未来发展方向的东西，我鼓励你去看看。

就说这么多，接下来我把时间交给下一位。谢谢。

（掌声）