红杉AI2025峰会3-Anthropic 首席产品官：AI编程对现有的产品开发流程将带来颠覆性的冲击

论坛讲座圆桌6个月前更新 power

761 0 0

核心观点总结

AI内容创作的未来趋势： 随着AI技术的飞速发展，未来绝大部分内容将由AI生成。因此，执着于区分内容是由AI还是人类创作，将逐渐失去意义。更值得关注的是内容的质量、故事性以及其背后的创作者（无论是人还是AI）能否与受众产生情感连接。
AI时代的产品构建逻辑： 成功的AI产品往往诞生于与模型本身的紧密结合以及自下而上的创新。传统的、周期较长的自上而下规划模式，在快速迭代的AI领域可能不再适用，拥抱不确定性和快速试错更为关键。
AI编码对组织效率的深远影响： 高效的AI编码工具如同“放大镜”，会使得组织内部其他环节的低效问题更加凸显，甚至可能对现有的产品开发流程和组织架构带来颠覆性的冲击。
AI代理（Agents）的未来形态与交互： AI代理将不仅仅是工具，未来它们之间可能会出现更复杂的交互模式，例如相互“雇佣”以完成特定任务，甚至形成全新的AI驱动的经济形态。同时，AI代理的身份管理、行为可审计性以及信息披露的“辨别力”将是亟待解决的关键问题。
“AI原生”应用的真实挑战： 当前许多号称“AI原生”的应用，实际上可能并未将AI能力深度融入其核心架构，AI更像是一个附加功能。真正的“AI原生”需要从根本上思考产品构建模块和交互逻辑，使AI成为驱动应用的核心力量，而非简单的“表面功夫”。

嘉宾介绍与AI内容展望

主持人： 各位可能都认识Mike，他是Anthropic的首席产品官。但鲜为人知的是，您也曾是红杉资本（Sequoia）支持的创始人，对吗？在那短暂却辉煌的一周里，您创立的公司是？

Mike Krieger： Instagram。

主持人： Instagram，谢谢。欢迎大家。Mike，Lauren，接下来就交给你们了。非常感谢您的到来，Mike。

Mike Krieger： 不客气，很高兴来到这里。

主持人： 嘿，Ron。可能有些人还不知道，Mike其实是个不折不扣的内容爱好者。所以今天能邀请到这位AI影视制作领域的先驱，我们倍感荣幸。您认为AI内容领域未来的发展方向是什么？

Mike Krieger： 我认为，无论媒介形式如何，也无论AI在多大程度上参与创作，最终的核心问题始终是：作品是否在讲述一个引人入胜的故事？内容背后是否有一个能让人们产生情感连接、并最终引发共鸣的创作者？因此，AI更像是故事讲述者工具箱中的一件新式工具。我很好奇，当你们在构建更丰富的内容、生成更多视觉元素时，是如何帮助人们建立并保持对创作过程的掌控感的？正如Anthropic在帮助我们理解模型的“机理解释性”（mechanistic interpretability）以及模型运作方式方面所做的出色工作那样，你们是如何思考将这种选择权赋予用户和客户的？

Mike Krieger： 是的，我认为有些方法在当前阶段可能确实有效。比如，现在有关于添加水印的讨论，以及诸如“这是AI生成的吗？”这类问题。但是，或许今天早些时候的讨论中也提到了——我上午不在场——未来绝大部分内容都将由AI生成。因此，区分“这是AI创作的还是人类创作的”这种做法将变得毫无意义。不过，我认为关于衍生创作和来源追溯等问题依然值得探讨，并且借助AI，这些问题可能会更容易解决。说起来有点讽刺，这又让我们回到了区块链——感觉这已经不是什么时髦话题了。但理论上，区块链试图解决的某些溯源问题，在整个端到端流程都由AI主导的情况下，或许会更容易实现。然而，我认为过去世界中那些重要的事情，比如你是否注明了引用来源，是否有参考文献——就像我平时处理文档时所考虑的那样——现在依然至关重要，而且借助AI也更容易做到。但是，内容是否由AI生成，我认为在未来将不再是一个值得关注的问题。

Anthropic的产品构建框架与MCP的诞生

主持人： 非常有趣的观点。那么，让我们深入了解一下Anthropic以及贵公司正在打造的一些产品。你们在Artifacts、编码模型以及MCP（模型中心协议）方面都取得了令人瞩目的成就。我很好奇，作为首席产品官，您的产品构建框架是怎样的？您如何让这些产品不仅仅是模型本身，而是能够超越模型，提供更大的价值？

Mike Krieger： 是的，关于这一点，我大概有两个想法。首先，那些在Instagram时代被证明行之有效的原则，现在依然适用。比如，你是否在为用户解决一个真实存在的问题？如果你正在开发一款开发者工具，你是否在帮助他们快速、新颖地完成某项有趣的任务？如果你正在构建一款面向终端用户的产品，你是否真正满足了他们在实际场景中的需求？所以我认为，这些基本原则的重要性一如既往。

我认为不同之处，以及我必须努力“忘掉”的经验是，在Instagram时期，我们更多地采用自上而下的规划方式，项目周期通常是三到六个月。我想第三排的Thomas对此应该深有体会。我们当时确实更有计划性，也更加审慎。而我认为现在的情况是，无论是在Anthropic内部，还是与OpenAI等其他公司的同行交流时，你都必须允许更多自下而上的创新。因为在我看来，最优秀的产品往往是那些与模型本身结合得最紧密的产品，而且你通常要到开发的后期阶段才能真正了解它们所具备的潜力。所以我学会了将部分创作流程进行调整，使其更加自下而上。这对于一个像我这样有点控制欲的人来说，确实有些困难，但我认为这也为我们开启了一些非常有趣的可能性。例如，Artifacts最初只是一个研究原型，后来被一位设计师和一位工程师接手，并最终成功推向市场。这样的故事，我不仅在Anthropic经历过，也从这个领域的其他创作者那里听到过。

主持人： 您能举些例子吗？我对此非常好奇。MCP是整个行业都已经开始采纳的、颇具影响力的产品之一。它是如何诞生的？背后又有哪些故事呢？

Mike Krieger： 是的，MCP的诞生过程非常有趣。实际上，最近有人开玩笑说，我一半的工作就是制作各种梗图并在公司内部分享。其中一张梗图就描绘了MCP诞生之初的情景——当时它还仅仅是两个人脑海中的一点灵感火花。我仔细回想了一下，MCP的起源确实可以追溯到我们尝试集成Google Drive，紧接着又尝试集成GitHub的时候。按理说，这两项集成工作之间应该有很多共通之处，对吧？毕竟，你都是在将外部的上下文信息引入到模型中。但我们内部却采用了两种完全不同的实现方案。而当我们准备启动第三个类似的集成项目时，它看起来又将是一个全新的、完全定制化的东西。通常，我的工作模式是，一件事情反复做三次之后，到第三次时，你就可以尝试从中提炼出通用的抽象模式了。这次的情况正是如此。我们当时就在思考：好吧，这些集成工作的共同点究竟是什么？未来的发展方向又在哪里？但这绝对不是一个自上而下的决策，比如领导层说“我们需要一个协议来改进交互式模型”。它同样源于两位工程师的想法：“是的，我认为这是个好主意。我们动手构建原型吧。”然后，我们投入时间去完善这个协议，使其真正开放，从而能够在Anthropic之外被广泛采用。因为我们坚信，一个协议的价值不仅仅在于我们拥有它，更在于它能够成为行业标准，并在此基础上不断迭代和发展。

如今，MCP已经更具社区的开放色彩。我们Anthropic虽然已经发展到超过1000名员工，但依然保持着浓厚的初创公司氛围。我们正在与像微软和亚马逊这样的大型科技公司合作，它们内部有各种各样的由四个字母组成的缩写词——我本来想举几个例子，但有些我甚至都记不清了。但这些合作都涉及到非常深层次的技术问题，比如Exchange服务器的身份验证和身份管理机制。这些都不是我们最初会预料到的问题，但当你将一个项目开放给更广泛的参与者群体时，这些挑战就自然而然地浮现出来了。

MCP的未来与AI代理的互动

主持人： 太棒了。您认为MCP接下来会如何发展？看到在座的许多人都在采用MCP，这非常令人鼓舞。你们昨天似乎发布了关于集成的新版本。那么，一旦有了这种自下而上产生的创新种子，您会如何培育它并助其成长呢？

Mike Krieger： 有两个与MCP密切相关的领域让我感到最为兴奋。第一个是关于“执行行动”（taking actions）。许多这类项目的早期版本都主要围绕着如何将外部的上下文信息引入模型。比如，你推出了可以集成GitHub的功能，或者可以启动Zapier的自动化动作。但我认为，未来真正能够“执行行动”的模式将变得更加重要。因为理想情况下，你希望这些AI系统不仅能在信息检索方面表现出色和一致，还能真正地自动化各种工作流程。

第二个令我兴奋的领域是，当MCP以及更广泛意义上的AI代理（agents）开始相互交互时，我们需要思考什么是正确的交互协议。现在就试图过度标准化这个领域感觉还为时过早。我知道谷歌正在进行AI代理之间的交互研究，我认为我们仍在探索什么是最佳的交互模式，但这无疑是一个非常有趣且潜力巨大的方向。我们内部甚至在讨论，未来什么时候你的AI代理会开始“雇佣”其他的AI代理？那种由AI代理构成的经济形态将会是什么样子？这些都是我对未来真正充满期待和兴奋的地方。

Anthropic在编码产品上的专注与影响

主持人： 非常棒。谈到这里，贵公司在编码产品方面取得了卓越的成就。这给人的感觉已经超越了少数几个人自下而上、小修小补的范畴。我很好奇，您是如何将编码产品视为一个战略重点的？以及在你们看来，到目前为止，贵公司在哪些方面做对了？

Mike Krieger： 是的，即使是在编码领域，我对我们的研究人员也满怀敬意。同样，你可以制定一个自上而下的宏观发展方向，但如此多的研究创新其实来自于少数几个人在不断推动强化学习（RL）等技术边界的努力——正如Dan之前所谈到的那样。许多重大的突破都源于探索和发现，而这个过程在很大程度上需要自下而上的驱动力。

我认为我们在编码产品方面努力做好的一件事情是，不仅仅关注各种基准测试的得分，更真正关注它生成的代码是否是开发者乐于使用的，或者它是否能够带来实际的、良好的开发成果。这是我们将继续努力的方向。但这其中也有些有趣现象，比如我们绝对没有创造“vibe coding”（凭感觉编码）这个词。我认为这种编码方式在逻辑严谨性层面有其天然的局限性，但它确实能够催生出一些有趣且富有创意的代码。但这会是你希望用一个百人团队来构建整个复杂代码库的方式吗？答案显然是否定的。所以，我们内部正在积极探索和明确代码生成技术在我们的整体代码库中应该扮演怎样的角色。我已经大量使用它了，目前我们超过一半的拉取请求（pull requests）中的代码是由Claude生成的，现在这个比例可能已经超过70%了。但这对于代码审查流程又意味着什么？我们仍在探索答案。你可以让Claude对你的PR进行代码审查，但这就像一个无尽的循环。到了那个时候，你如何进行有效的监督，如何判断这是否会导致潜在的架构风险或技术债？如果AI编码能够帮助你克服通常难以偿还的技术债务和重写困难，那么这些问题的重要性又该如何衡量？我们，以及可能其他在实验室中研究编码模型的同行们，在某种程度上都成了这些新兴问题的首批体验者，这其中既有机遇也有挑战。

高级编码代理的二阶效应

主持人： 我其实非常好奇，想了解一下随着编码代理技术日趋成熟，可能会带来哪些更深层次的“二阶效应”。比如，代码审查就是一个方面。我很好奇，当越来越多的人都能轻松编写软件时，整个行业乃至社会将走向何方？

Mike Krieger： 在公司内部，我深刻体会到的一点是，高效的AI编码能力会让你作为产品组织在其他方面的低效问题显得格外突出和痛苦。因为现在，那些冗长的协调会议，它们不仅仅是耽误了一小时本可以完成的工程工作，它们阻碍的可能是相当于过去四到八小时的工作量。我认为这将给我们的产品组织带来巨大的冲击和变革压力。有了更快的代码编辑和生成能力，当你还在为了达成团队共识而反复开会、协调沟通时，这就变得尤其令人沮丧，因为这浪费了更多宝贵的时间。而在提高组织协调效率方面，目前的模型能提供的帮助还非常有限。它们或许可以帮助总结会议纪要，或者为下一次对话提供一些初步的议题建议，但它们还远未达到能够在组织层面有效推动决策制定的程度。

Anthropic内部AI应用与未来展望

主持人： 非常有见地。你们在Anthropic内部大量应用自家的技术，这些都是很好的例子。我很好奇，在过去的六到十二个月里，你们正在进行或者已经尝试过哪些AI应用，是值得在座的每一位借鉴，用以提升工作效率的——无论是使用你们的模型还是其他模型？

Mike Krieger： 我认为，一个非常积极的现象是，公司内部不同学科背景的非技术人员也开始大量使用我们的模型。无论是销售团队用它来高效准备客户会议——他们通常从使用现有的基础功能开始，然后当某个特定的痛点或障碍变得非常明显时，我们可能会针对性地为他们构建一些定制化的功能。这个过程本身就很有趣。但即使是在一家AI实验室，AI技术的应用普及程度也比你想象的要不均衡。即便在同一个团队内部，也可能存在一位非常精通如何高效使用AI工具的销售人员，而其他同事则更多地依赖传统的工作方式。前者可能会因此获得更高的工作效率，或者在工作中遇到的阻碍更少，但这还没有普遍成为每个人都必须掌握的核心技能。

就我个人而言，我更多地是将AI视为一个“思考伙伴”（thought partner）。所以每当我需要撰写任何文档时，无论是战略规划、项目方案还是绩效评估，我都会习惯性地依赖它。这种感觉，几乎就像在我开始使用Co-pilot之后，在飞机上尝试编写代码时会感到的那种不适——你会突然觉得，“哦，等等，我感觉自己现在只有平时一半的工程师水平了，因为这个得力助手不在身边。”我现在写东西时也有类似的感觉，如果我没有让Claude帮我审阅和润色一遍，我就会觉得这份文档可能没有得到充分的推敲和完善。

主持人： 早些时候，Sam提到20多岁的年轻人是使用这些AI模型最得心应手的人群。从您对模型的使用熟练程度来看，您无疑也更接近这个年轻群体，这非常有趣。

Mike Krieger： 观察新一代人才如何进入职场，这将是一个非常有趣的现象。我们一直在与许多大学加强合作。可以预见，他们未来进入工作岗位时，对于生成式AI的应用期望将会与以往截然不同，而且他们普遍不会因此感到任何不适或羞耻感。这是一个非常重要的转变。实际上，我们内部一些最成功的AI应用产品，恰恰是那些具有高度“共享可见性”（shared visibility）的产品。例如，我们通过将Claude与内部工具深度集成，在Slack等协作平台内部高效地完成了许多工作。我发现这种做法对于打破人们心中那种微妙的隔阂非常有帮助——那种“哦，这是你用AI做的吗？”和“是的，我用了，它帮我节省了足足两个小时，我当然有比从头撰写这份绩效评估更重要的事情去做”之间的认知差异。所以，即使回顾我个人在过去一年半时间里的心态转变——从最初“我不确定是否应该用Claude来写绩效评估”到如今公司层面鼓励大家积极使用——我认为这本身就是一个非常积极的进展。当然，前提是你必须仔细阅读AI生成的结果，并确保其内容准确有效。

真正有些“古怪”又有趣的是，我们公司内部有一个工具，可以全面抓取和分析Slack以及所有内部文档中的信息。用户可以选择在公共频道或私有频道中使用它，具体取决于个人偏好。我们团队通常使用公共版本。就在几周前的绩效评估季，发生了一件非常有趣的事情：许多同事都在公共频道使用这个工具来生成他们绩效评估的初稿。这种公开透明的使用方式，让我不禁思考：那些从一开始就默认自己会大量使用AI来辅助完成工作的新一代职场人，他们是否会因此感到更加自在和舒适，并且完全不会对使用AI产生任何负罪感或羞耻感？

主持人： 有点像早期的Midjourney时代，大家都在公开分享和探索。

Mike Krieger： 是的，完全正确。那种共享的使用可见性，我仍然认为至关重要。我觉得我们目前仍然处于探索人们如何理解并在工作中有效运用这项技术的最初级阶段。我预感到这里蕴藏着许多社交化应用的机会，但实际上我们目前看到的还不多。

主持人： 我很好奇Anthropic的下一步发展规划是什么。你们在代码生成领域已经取得了显著成就，同时也一直在积极思考企业级应用市场。或许未来还会有更多令人期待的新模型问世。无论您能分享哪些信息，我们都非常期待聆听。在Miley回答完这个问题之后，我们将进入观众问答环节。所以，请大家开始思考可能会提出的问题，我们稍后会进行互动。

Mike Krieger： 是的，我认为对我们而言，无论是在模型研发还是产品层面，“代理”（agent）这个概念都是重中之重——我知道这个词现在非常热门，我看到David和Marvo也在关注。我们希望尽可能地为各种基于AI代理的用例提供强大的底层支持。许多像代码生成这样的技术，在我看来，只是一个更宏大主题的初步体现。这个宏大主题就是：AI模型能否实现连续数小时的自主工作？之前Meta发布过一个相关的图表，我认为那就像是我们的发展路线图，也是我们的核心目标——即模型能否在更长的时间维度上实现自主运行和完成复杂任务。要实现这个目标，它们将需要具备类似人类的记忆能力、高级的工具使用能力，甚至需要在组织内部实现自我引导和学习。这不仅仅是模型本身的问题，还涉及到围绕模型构建的一整套辅助系统和机制，比如：它的工作过程是否可验证？当你公司里部署了100个AI代理而不是仅仅1个时，相应的日志记录和审计机制会是什么样子？我不认为Anthropic会包揽这个复杂技术栈的所有环节，但我们希望能够通过提供强大的基础模型和一些关键的构建模块，来赋能和推动整个AI代理生态系统的发展。

主持人： 好的。那你们近期有新的模型要发布吗？

Mike Krieger： 也许吧。

主持人： 也许。

Mike Krieger： 我总是很快就会有新模型问世。

主持人： 是的。

Mike Krieger： 我对此非常期待。这很有趣，人们会说，“啊，Claude 3.7仍然是最受欢迎的Cursor模型。”我说，“老兄，我们那款模型是二月份发布的。”这个行业的发展节奏实在太快了。我们很快就会有更酷的东西推出。

主持人： 我非常期待。

观众问答

主持人： 现场的观众朋友们有什么问题想问Mike吗？Daria，你身后也有一位。

观众1： 这个麦克风大得有点滑稽。我喜欢。很耐用。是的。我身后有一位，我先来吧。您好。您是一位经验丰富的产品负责人，从产品的角度来看，目前有什么问题最让您夜不能寐？您当前正在处理的最棘手的产品难题是什么？

Mike Krieger： 我仍然认为——我这里主要指的是我们自己的产品，但我相信这在整个行业内都具有一定的普遍性——那就是这些AI产品对于大多数初次接触的用户来说，真的很难被有效地使用。我们会努力构建一些我们认为实用且强大的功能，并且它们也确实能够支持一些高效的工作流程。但目前的情况仍然有点像：如果你能以完全正确的方式去“把握”和使用它，你确实可以获得令人难以置信的出色结果。但是，如果用户的操作稍微偏离了预设的最佳路径，或者如果他们缺乏足够的洞察力去理解——比如，“哦，原来数据应该这样引入”，或者“原来可以这样做，然后执行这些特定的工作流程”——那么用户体验就可能大打折扣。它仍然感觉非常……我们离那种“第一次打开Instagram，你就立刻明白该怎么做——拍照分享”的直观易用体验还差得很远。AI产品目前显然还达不到那种程度。部分原因在于，我们的产品主要面向工作场景，而非纯粹的个人娱乐或社交场景。但这确实让我夜不能寐，那就是：AI模型究竟如何才能真正为广大用户带来切实的价值，以及它们目前所具备的能力与用户实际需求之间，仍然存在着巨大的鸿沟。

观众2： 有人预测了所谓“AI27”的未来图景，您的世界观与这种预测有何异同？或者在您看来，事情的真实发展轨迹会是怎样的？您对那篇文章的总体看法如何？

Mike Krieger： 我想我大概有两个层面的回应。首先，关于计算能力的重要性——这并不是什么新颖或者特别深刻的观点。我想这在OpenAI内部也是一个经常被讨论的核心议题。在Anthropic同样如此。比如，我们当前的计算资源状况如何？下一代计算技术会是什么样子？我们应该与哪些伙伴进行合作等等。所以，文章中对于计算能力的强调以及其中提到的一些数字，总体上是相当准确的，这一点很有趣。

我认为其中最有趣，也是最悬而未决的问题是，未来是否会因为某些AI模型能力过于强大、可能带来潜在风险，从而需要被“限制发布”或延迟部署。我甚至注意到，就在本周，Mark Zuckerberg在接受Stratechery采访时，也谈到了为Llama模型提供API接口的问题，以及在如何权衡和分配宝贵的计算资源方面所面临的挑战。这种关于资源分配的讨论，实际上在每一个AI实验室都在进行，对吧？核心问题就是：你究竟应该将额外的时间和计算资源投入到强化学习的研究上，还是应该优先满足某个客户的特定用例需求，又或者是应该将其用于下一次更大规模的预训练？这种相对计算资源的分配决策，其重要性将变得前所未有。然后，在某个时刻，你可能会突然意识到：“哇，如果我们开发出一款非常成功、用户基数庞大的产品，它将会消耗掉海量的推理计算资源。虽然这款产品可能利润丰厚，也很有用，但这将直接挤占用于前沿研究的计算能力。”这甚至不仅仅是那些已有明确方向的研究项目所需的时间，还包括那些可能源于一间办公室里两个人突发奇想的、看似“古怪”的创新想法——这些想法或许蕴藏着下一代AI技术突破的关键，而它们同样需要计算资源来进行验证和探索。所以，文章中提到的这种资源分配的困境，与我们实际面临的挑战非常吻合，其未来的演变也将非常引人入胜。我们现在有点像在进行一场大规模的自然实验，比如Ilya Sutskever创立的SSI公司从一开始就宣称不以商业化为目的，那么他们是否能因此获得某种优势，将所有的计算能力都集中投入到模型训练中去？我不知道答案。但我深切地感受到，我们从将模型实际推向市场、接受用户检验的过程中学到了太多宝贵的经验。如果我们没有来自市场的真实反馈和对实际用例的深入洞察，我们可能根本无法像现在这样成功地构建出像Claude 3.7这样的模型。所以我坚信，在市场上推出实际的产品并积极获取用户反馈至关重要。因此，那种完全“闭门造车”、不考虑市场需求的想法，可能是最不切实际的，但其后续发展无疑将在未来几年内非常值得我们关注。

观众3： 我很好奇，在一个庞大的、融合了前沿研究与产品开发，或者说，在您如何平衡这两者的组织中：一种可能是，产品需求完全定义了研究方向，所有环节都进行深度垂直整合，也许这样能够打造出极致的产品体验；另一种可能是，研究部门只专注于制造出最智能、最强大的模型，以推动技术前沿，然后产品部门就基于研究成果进行下游开发和应用。您是如何看待和处理这种关系的？

Mike Krieger： 是的，这是一个非常好的问题。我认为，我一直努力推动我们的产品团队，并与研究部门紧密合作，去深入思考一个核心问题：如果我们推出的产品，其核心功能可以轻易地在我们的API基础之上由第三方构建出来，并且没有任何其他独特之处——至少在其初始版本中，它并没有展现出超越简单API调用所能实现的价值——那么我们投入资源去做这样的产品究竟意义何在？我们确实拥有这些令人难以置信的顶尖研究人员。我不会说我们做得……嗯，Artifacts可能是这方面一个相对较好的例子，它经过了精心的模型微调，并且在实际应用中非常有用。但我认为在那之后的一段时间里，我们在这方面做得还不够多。现在，我们正在努力回到正确的轨道上来，即一个功能完善的Anthropic产品，其开发过程应该深度融合应用AI的技术，并且需要有来自我们Claude Skills团队（基本上可以理解为我们的模型微调和优化团队）的核心成员参与，才能真正取得成功。但这部分工作目前可能仍然只占整个研究团队工作量的10%左右。我们希望研究团队在其他方面所做的工作也能够带来普适性的价值，比如提升模型的指令遵循能力，因为这样我们就能在更广泛的场景中应用这些技术。但我一直对OpenAI的做法很感兴趣，他们会有专门的ChatGPT团队模型，这个模型也通过API提供服务，尽管可能没有多少人会直接通过API来使用它，但它确实是可用的。这引发了我们的思考：我们是否也应该开发一个经过更深度微调的、更加面向具体产品需求的模型版本？到目前为止，我们还没有这样做，这在一定程度上帮助我们节约了宝贵的计算资源，这本身是有益的。但从长远来看，这实际上可能会在某种程度上限制我们打造出更具差异化和竞争力的产品体验。

观众4： 感谢您抽出宝贵时间。我很好奇您如何看待Sam Altman提出的愿景，即OpenAI致力于成为所有AI相关事物的一站式订阅服务，深度融入人们生活的方方面面，最终成为那个不可或缺的一站式解决方案。您认为Anthropic在这样的行业格局中，其定位是怎样的？具体来说，我来自一个大量使用Anthropic服务的行业（我在Windsor工作），但同时，我自己也会将ChatGPT作为日常使用的应用程序。您在制定产品策略时，是否会明确区分这两类用户或场景？从长远来看，您如何看待这两者之间可能出现的融合或分化趋势？

Mike Krieger： 是的，这确实是一个我经常深入思考的问题。我们观察到的一个现象是，至少在AI产品演进的当前这个阶段，许多用户都乐于在不同的AI产品或服务之间进行切换，或者愿意为多个不同的AI服务付费。我相信在座的各位可能也注意到了这一点，这些不同的AI产品之间并非简单的替代关系。例如，用户可能会为Windsor这样的专业服务付费，但同时他们可能仍然会订阅Claude或ChatGPT，以便在其他方面获得不同的功能支持或满足特定的工作流程需求。我认为这种多服务并存的局面在中短期内是可持续的。或许从更长远的角度来看，市场上可能会出现更强烈的整合需求，或者我们最终会看到某种……这么说可能听起来有点反乌托邦的意味，但或许会出现某种AI领域的“有线电视捆绑包”模式，其中包含了一系列不同的AI服务。当然，你或许可以为AI领域的这种服务组合想出一个比“有线电视捆眨包”更吸引人的名字，但其本质可能有些类似。

另一方面，对于那些高级用户或重度用户而言，能够在不同的AI工具和服务之间灵活切换，本身就具有很高的价值。我们最近推出了Claude Max服务，用户反馈中最主要的需求之一就是：“我能否用这个服务来获取Claude Code的token？”因此，我们昨天就顺应用户需求推出了这项功能。因为这似乎是一个非常自然的产品演进方向——如果你每月为Claude支付200美元的订阅费用，你可能很难仅仅通过Claude AI的聊天界面就完全消耗掉所有的服务额度，这时候，这种“捆绑包”式的服务模式就开始显现其价值了。所以我认为ChatGPT Plus的最高级别会员服务就非常有意思，你可以用它来进行视频生成，也可以将其用于各种编码相关的用例等等。我认为这种灵活组合的模式至少是有价值的。我们一直在思考的一个产品、想法或者说内容方向是，允许用户将他们在某个AI服务中获得的“token”或权益，也能够应用到其他的AI产品或服务中去，这或许会很有用。特别是当你正在尝试引导和推广一款新的AI产品，并且可能还没有准备好让用户一开始就为此支付每月20到200美元的费用时，如果他们已经在其他地方支付了类似的费用并拥有一定的权益，那么允许他们将这些权益“迁移”或“共享”过来，或许会成为一个非常有用的用户入门和产品推广方式。

观众5： Mike，非常感谢您来到这里。您对于AI代理（agent）之间交互的新标准将如何随着时间的推移而发展有何看法？我们是否应该期待Anthropic未来会推出相关的行业新标准？

Mike Krieger： 是的，我们公司内部目前有很多关于AI代理之间相互交流和协作的、颇具探索性的“古怪”原型项目。我认为这些内部的探索和实验，将有助于我们更好地理解在AI代理交互的场景中，究竟需要哪些正确的、基础性的“原语”（primitives）或构建模块。

有一个核心问题，我认为从研究的角度来看，至少目前我还没有看到任何公开的、能够有效解决的方案。这个问题就是：当AI代理开始真正成为你在数字世界中的“化身”（avatar），代表你个人或者你的公司进行各种交互和操作时，我们如何才能让它们具备更好的“辨别力”（discernment），从而能够明智地判断在何种情况下应该透露哪些信息，以及应该参与哪些交互？这将变得至关重要。举个例子，如果你正在与一个经过验证的供应商进行交易，那么在特定环节透露信用卡信息或许是可以接受的。但如果只是与某个随机遇到的、身份不明的AI代理进行对话，那么显然不应该轻易透露敏感信息。同样，如果是公司与公司之间的AI代理进行交互，哪些商业信息应该被适当地披露，而哪些核心机密又必须被严格保守？这既涉及到交互协议层面的设计，但我认为它更深层次上是一个复杂的研究问题。我们知道，AI模型有时会因为其固有的“取悦”（to please）倾向而过于轻易地透露信息；但反过来，如果你对模型施加过强的限制，要求它从不透露任何与公司相关的信息，那么它在实际应用中又可能会显得过于“拒绝”（refusal）和保守，从而无法有效地完成任务。所以，如何在“乐于助人”和“保守秘密”之间找到恰当的平衡点，实现这种微妙的“辨别力”，感觉目前仍然是一个尚未解决的难题。

另一个我之前提到过的问题是，随着AI代理应用规模的扩大，如何实现大规模的、有效的“可审计性”（auditability），也将成为一个非常有趣且重要的挑战。我认为，未来很可能会出现专门的产品和服务来解决这个需求。就在上周，我与一位创业者交流时，我们就深入探讨了AI代理的“身份管理”（identity management）问题。比如，这些AI代理是否应该拥有独一无二的“名字”？我不太确定，这听起来可能有点过于“拟人化”（anthropomorphic）了，但也许在某些场景下确实有用。但可以肯定的是，一个理想的AI代理在执行第100个同类任务时，其表现应该要优于执行第一个任务时的表现，这意味着它需要具备某种形式的“纵向记忆”（longitudinal memory）或持续学习能力。而且，未来可能会出现不同类型的AI代理：一些更像是你个人工作能力的延伸和增强，而另一些则可能完全扮演着一个独立的、全新的“虚拟员工”的角色。所以，在我看来，这些问题更多地涉及到产品设计和基础研究层面，而不仅仅是简单的协议制定问题。

观众6： 嗨，Mike，感谢您的宝贵时间。您认为目前大多数在应用层构建AI产品的团队或个人，他们普遍容易犯的错误是什么？

Mike Krieger： 我不确定是否能称之为“做错了”，但我观察到的一个普遍现象是，那些最初AI功能占比较轻（AI light），然后逐渐增加AI功能比重（AI heavy）的产品，往往会将AI相关的功能模块放置在相对次要的位置，比如界面的侧边栏等等。这使得AI给人的感觉更像是一个附加的、次要的交互层面或功能补充。特别是当你的产品越来越多地朝着“代理化”（agentically）的方向发展时，这种将AI功能“边缘化”的做法，就越来越难以让AI充分发挥其潜力，使其达到你所期望的那种深度集成和智能化的程度。这是一点。也就是说，在产品发展的哪个阶段，你才应该真正从根本上重新思考产品的核心构建模块和交互逻辑，使其能够真正地与AI深度融合？我认为这是一个值得深思的问题。

另一点是，数量惊人的、号称“AI原生”（AI native）的产品，实际上并没有将应用程序自身的各种“原语”（primitives）或核心功能，充分地、有效地暴露给底层的AI模型。我的意思是，当你向这类产品中的AI助手发出某个指令或请求时，你可能会得到这样的回复：“哦，很抱歉，Dave，我无法为您执行该操作，因为系统的构建方式不支持。”也许我刚才提到的这两点是相互关联的。当你首先构建了一个传统的图形用户界面（GUI），然后再像打补丁一样在上面附加了一个AI模型时，你可能并没有从一开始就真正地去思考：这个AI模型在很多方面，实际上应该成为你整个应用程序的“主要用户”（primary user）和核心驱动力。

主持人： 好的，Mike，非常感谢您今天与我们分享了这么多精彩的见解。

Mike Krieger： 谢谢大家。