3月底,Google Deepmind、MetaGPT联合全世界20多个顶尖机构、40多位著名学者,发布了一篇长达264页的Agent行业综述。该综述分为四个相互关联的部分:
首先,探讨了智能体的模块化基础,系统性地将认知、感知和操作模块与人脑功能对应起来,并阐明了记忆、世界建模、奖励处理和情感模拟系统等核心组件。
其次,分析了自我增强和适应性进化机制,研究智能体如何自主提升能力、适应变化环境,以及通过自动优化方法实现持续学习,包括新兴的AutoML和LLM驱动的优化策略。
第三,考察了协作和进化的多智能体系统,研究智能体之间的互动、合作和社会结构产生的集体智能,并强调了与人类社会动态的相似性。
最后,探讨了构建安全、可靠和有益的人工智能系统的重要性,强调了内部和外部安全威胁、伦理一致性、系统稳健性以及在实际部署中必要的风险缓解策略。
通过将模块化人工智能架构与多学科见解相结合,本综述识别了关键研究gaps、挑战和机遇,旨在促进技术进步与社会福祉相协调的创新发展。
*项目Github链接:https://github.com/FoundationAgents/awesome-foundation-agents
这篇综述在介绍自己的时候用的词不是”article”,而是”book“,全文肝下来累计耗时 24小时,中文总字数约为19万,感兴趣的同学读的时候也要量力而行~
上次肝这么荡气回肠的综述还是上次,文章质量很高,地址如下,有兴趣的可以读一读:
前言
大型语言模型(LLMs)凭借其在自然语言理解、多模态处理、推理和内容生成方面的卓越能力,为AI领域带来了革命性变革。这些模型通过海量数据集训练后,展现出推理、上下文学习乃至基础规划等自发能力。
尽管LLMs代表了智能机器发展的重要里程碑,但它们尚未完全具备智能生物的全部特性。自人工智能研究初期以来,研究者们一直致力于开发真正”智能”的系统——能够学习、规划、推理、感知、交流、行动、记忆,并表现出类人的能力与灵活性。这些被称为智能体(Agent)的实体应当具备长短期思考能力,能执行复杂任务,并能与人类及其他智能体互动。LLMs是实现智能体的关键一步,但这一目标仍未完全达成。
本综述全面概述了基于LLM的智能体的当前技术发展状况。过去已有大量关于智能体的研究论文和著作,以及众多关于LLMs的书籍,但很少有文献对这两个领域进行综合性介绍。虽然LLMs能够实现智能体所需的许多关键能力,但它们仅提供了基础,还需要在此基础上构建更多功能。
例如,LLMs可以生成旅行计划等简单规划,但尚不能为复杂专业任务制定全面的计划,也无法在避免幻觉的情况下维持长期记忆。此外,它们在现实世界中自主行动的能力仍然有限。可以将LLMs比作引擎,而智能体则是利用这些引擎构建的汽车、船只和飞机。
基于这种理念,研究者们正努力充分利用LLMs的能力,设计和构建功能完备的智能体。在LLMs与智能体关系的引擎-载具类比中,研究领域面临几个关键问题:
- 当前LLM技术能为智能体提供哪些能力?
- 现有LLM技术尚未实现哪些功能?
- 除LLM外,还需要哪些技术才能开发出能在物理世界中自主行动和互动的完全智能体?
- 集成基于LLM的智能体面临哪些挑战?
- 开发能与人类有效协作的智能体需要哪些额外突破?
- 基于LLM的智能体有哪些容易实现的应用领域?
- 当完全智能的LLM基础智能体问世后,会对社会产生什么影响,人类应如何为此做准备?
这些问题不仅涉及当前LLMs和智能体的技术拓展,还指向了未来的研究方向。
简介
AI的发展长期以来受到人类创造具备智能、适应性和目标导向行为实体的愿景驱动。这种探索可追溯至古代神话和早期工程创新,体现了人类对创造智能自主体的不懈追求。
克里特岛的青铜自动机塔洛斯传说描述了一个由众神打造的巨人守卫者,能巡逻海岸并抵御入侵者。这类神话反映了人类赋予人造物类人能力和目的的渴望。同样,文艺复兴时期的机械发明,如达·芬奇设计的模拟人体运动和结构的人形机器人,代表了将这些构想转化为实际作品的早期尝试。
这些初期构想与原型体现了融合想象力与技术的深层愿望,为机器智能的科学研究奠定基础,最终引向阿兰·图灵1950年提出的开创性问题:“机器能思考吗?”图灵随后提出了图灵测试,这一框架旨在通过对话判断机器是否能展现类人智能,使研究重点从纯计算转向更广泛的智能概念。几十年来,AI从依赖预设逻辑的符号系统发展为能从数据中学习并适应新环境的机器学习模型。
随着LLMs的出现,这一发展达到新高度,这些模型在理解、推理和生成类人文本方面表现出卓越能力。这些进步的核心是Agent——一种不仅能处理信息,还能感知环境、做出决策并自主行动的系统。从最初的理论构想到如今成为现代AI基石,智能体范式推动了从对话助手到实体机器人等领域的进步,使AI系统能够更有效地应对动态的真实环境。
AI智能体的兴起与发展
智能体概念是现代AI的基石,代表一个能感知环境、做出决策并采取行动以实现特定目标的系统。这一理念虽在20世纪中叶的AI研究中正式确立,但其根源可追溯到早期对智能系统自主性和交互性的探索。其中广为引用的定义将智能体描述为“任何可通过感应器感知环境并通过执行器对环境采取行动的实体”。这一定义强调了智能体作为观察者和行动者的双重属性,能够动态适应环境而非仅遵循固定规则,反映了AI从纯计算系统向环境交互系统的转变。
智能体的发展历程与AI本身的演进相辅相成。早期符号系统,如Newell和Simon开发的通用问题求解器,试图通过将任务分解为逻辑步骤来模拟人类的问题解决过程。然而,这些系统受限于对结构化环境和预设逻辑的依赖。智能体范式应运而生,着重强调自主性、适应性和真实世界交互。布鲁克斯在20世纪80年代提出的分层架构标志着这一转变,引入了能在机器人领域实现行为驱动、实时响应的智能体。与早期方法不同,这些智能体无需环境的完整模型即可运行,展现了更灵活、可扩展的设计思路。
此后,智能体成为AI各子领域的通用框架。在机器人技术中,它们实现了自主导航和操作;在软件领域,它们构成了用于模拟和协调的多智能体系统基础。通过整合感知、推理和行动于一体,智能体范式始终作为理论AI概念与实际应用之间的桥梁,深化了我们对智能系统如何在复杂动态环境中运作的理解。
LLMs的出现重新定义了智能体的能力,改变了它们在人工智能中的角色,并开拓了新的应用领域。过去仅限于执行特定任务或遵循固定规则框架的智能体,现在借助OpenAI的ChatGPT、DeepSeek AI的DeepSeek、Anthropic的Claude、阿里巴巴的QWen和Meta的LLaMA等模型的广泛泛化、推理和适应能力。这些LLM驱动的智能体已从静态系统发展为动态实体,能够处理自然语言,在复杂领域进行推理,并流畅地适应新情况。它们不再只是被动的输入处理器,而是成为积极的协作者,能够解决多步骤挑战并以类似人类的方式与环境互动。
LLM时代的关键进步在于语言理解与实际操作能力的无缝结合。现代LLMs配备功能调用API,使智能体能够识别何时需要外部工具或系统,推理其使用方法,并精确执行行动以实现特定目标。
例如,ChatGPT驱动的智能体可以自主查询数据库,检索相关信息,并利用这些信息提供可行见解,同时保持对整体任务的上下文理解。这种抽象推理与具体执行的结合使智能体能够连接认知理解与现实世界行动。
此外,LLMs在少样本和零样本学习中的泛化能力彻底改变了智能体的适应性,使它们无需大量特定训练即可处理从数据分析、创意内容生成到实时协作问题解决等多种任务。这种适应性结合对话能力,使LLM驱动的智能体成为人类和机器之间的智能中介,在日益复杂的工作流程中自然整合人类意图与机器精确性。
人脑与AI智能体的并行比较
大型语言模型与智能体架构的融合不仅加速了人工智能的发展,也凸显了AI系统与人类认知之间的根本差异。如表1.1所示,LLM驱动的智能体在基础架构、意识、学习方式、创造力和能效等方面与人类认知存在显著差异。需要注意的是,这种比较仅提供概要性视角,而非全面描述。人类智能具有许多未在此捕捉的微妙特性,同样,AI智能体也拥有超出此简要比较的独特特点。

人类智能基于生物硬件——大脑,展现出卓越的能效,能够以极低的能量消耗实现终身学习、推理和适应性决策。相比之下,当前AI系统需要大量计算资源,在执行类似认知任务时能耗显著更高。这种性能差距突显了能效优化作为未来AI研究重要方向的价值。
在意识和情感体验方面,LLM智能体缺乏人类认知中真实的主观状态和自我意识。虽然在AI中完全复制类人意识可能既不必要也不可取,但理解情感和主观体验在人类推理、动机、道德判断和社会互动中的重要作用,有助于指导研究方向,创造更协调、可信且对社会有益的AI系统。
人类学习是持续的、互动的、情境敏感的过程,深受社会、文化和经验因素影响。相比之下,LLM智能体主要通过静态、离线的批量训练获取知识,持续适应能力有限。尽管研究通过指令调整和人类反馈强化学习取得进展,LLM智能体仍缺乏类人的灵活性。通过终身学习、个性化适应和交互式微调等方法弥合这一差距,代表了一个有前景的研究方向,使AI能更好地模拟人类的适应性和响应能力。
人类创造力源于个人经验、情感洞察和自发跨领域联想的丰富互动。相比之下,LLM的创造力主要是训练数据的统计重组——可称为“统计创造力”,缺乏深度、原创性和情感共鸣。这一区别为开发具备更深层次创造过程的AI智能体提供了机会,可通过整合更丰富的上下文理解、模拟情感状态和经验基础来实现。
从时间尺度看,人脑经过数百万年的进化,通过自然选择和环境互动形成了显著的效率、适应性和创造力。与此形成鲜明对比的是,AI智能体自早期计算机出现以来仅有约80年的发展历程。因此,人类认知与AI系统的并行比较极具价值,它揭示了基本类比和根本差异,为智能体技术的进步提供了有意义的见解。最终,从人类智能中汲取灵感可以增强AI能力,在医疗、教育、可持续发展等多种领域造福人类。
脑区功能与AI研究对应关系
对人脑功能与AI之间的对应关系进行研究,有助于更清晰地认识当前AI系统(特别是大型语言模型和智能体)的优势与局限。根据现代神经科学,人脑主要由六个功能区域构成,包括额叶、小脑和脑干等,如图1.1所示。

本研究系统性地分析了现有AI技术对这些主要脑区功能的模拟程度。从整体上看,AI研究在模拟脑区功能方面可分为三个发展水平:
- 1级(L1):当前AI已实现良好发展
- 2级(L2):已有部分探索和进展,仍需改进
- 3级(L3):研究较少,存在广阔研究空间
图1.1展示了脑功能区域及其对应AI发展水平的高层次可视化图。这种对比分析旨在说明生物系统中的专业化与整合原理如何为构建更协调的智能体架构提供指导。下面详细分析各个脑区功能及相应的AI发展状况。
- 额叶(Frontal Lobe):执行控制与认知
额叶(尤其是前额叶皮质)负责高级认知功能,包括规划(L2)、决策(L2)、逻辑推理(L2)、工作记忆(L2)、自我意识(L3)、认知灵活性(L3)和抑制控制(L3)。
AI在特定领域的规划和决策方面取得了显著进展,如AlphaGo等系统的成功。Transformer模型采用的注意力机制类似于人类工作记忆,但在灵活性和鲁棒性方面仍不及人类。关于AI中真正自我意识和抑制控制的研究仍很有限,考虑到潜在的伦理和安全隐患,这些领域需谨慎探索。
- 顶叶(Parietal Lobe):空间处理与多感官整合
顶叶负责整合多感官输入,支持注意力(L2)、空间定向(L2)和感觉运动协调(L2)功能。机器人和计算机视觉领域的AI研究应对了类似挑战,采用了同步定位与地图构建(SLAM)等技术。然而,AI系统仍无法实现人类那样无缝的实时信息整合。
此外,精细触觉感知(L3)领域研究不足,这对机器人技术和假肢应用具有巨大潜力。
- 枕叶(Occipital Lobe):视觉处理
枕叶专门负责视觉感知(L1),通过层级结构高效处理视觉信息。AI在基础视觉识别任务中表现出色,使用深度神经网络和视觉transformer模型已达到或超越人类水平。
但在上下文场景理解(L2)和抽象视觉推理等高级能力方面,AI技术仍有较大提升空间。
- 颞叶(Temporal LobeCerebellum):语言、记忆与听觉处理
颞叶支持听觉处理(L1)、语言理解(L1)、记忆形成(L2)和语义理解(L2)功能。AI在语言和听觉处理方面进展显著,大型语言模型已实现接近人类水平的语音识别和语言生成能力。然而,稳定的情景记忆和终身学习能力仍有限,AI系统常遇到灾难性遗忘等问题。在多模态环境中实现语义理解仍是活跃的研究领域。
- 小脑(Cerebellum):协调与运动学习
小脑主要支持运动协调(L2)、精确技能学习(L2)和适应性错误纠正(L2),同时在认知时序和预测建模(L3)方面也发挥作用。基于AI的机器人技术在模拟人类灵巧性方面取得了一定成果,但实时自适应控制仍具挑战。当前强化学习和元学习研究显示出初步成效。小脑的认知功能代表了一个有待深入探索的有潜力研究方向。
- 脑干(Brainstem):自主调节与反射控制
脑干管理维持生命的自主神经功能(L3)和快速反射反应(L1),如基本运动反射。AI系统中存在预设的反射行为,例如自动驾驶车辆中的紧急制动,但这些通常是预编程而非学习获得的。自主调节和动态觉醒状态的复杂性在AI领域几乎未被探索,由于生物系统与人工系统的根本差异,这方面的相关性可能有限。
- 边缘系统(Limbic System):情感、共情与动机
边缘系统(包括杏仁核和海马体)主管情感处理(L3)、奖励机制(L2)、共情(L3)、压力调节(L3)和动机驱动(L3)。AI的强化学习算法表面上模拟了基于奖励的学习,但在细微情感理解、真正共情和内在动机方面发展不足。情感操纵相关的伦理问题凸显了这一领域需要谨慎、负责任的研究态度。
弥合认知差距与构建有益AI
目前,人脑与机器智能之间存在明显差距。然而,AI研究的目标并非完全复制人类认知的各个方面,而是开发对社会有用、符合伦理、安全且有益的智能系统。通过人类与人工智能的比较研究,可以识别现有差距并明确创新方向。这种比较视角使研究者能够有选择地吸收人类认知的有益特性(如能效处理、终身适应性学习、情感基础和创造力),同时超越人类局限进行创新,最终促进更高效、更可靠、更负责任的AI系统发展。
重要的是要思考人类在人机混合社会中的角色演变。AI的目标不应是全面取代人类,而是增强和赋能人类能力,在数据处理、快速计算和重复任务自动化等AI擅长领域补充人类技能和判断。确保强大AI系统可控且与人类价值观一致,需要人类监督和系统可解释性。因此,核心目标是开发透明、可解释且响应人类指导的AI技术。
以人为中心的AI设计强调协作、安全和社会责任,确保技术进步以可控、可靠方式进行。将人类置于AI生态系统中心,可充分发挥AI提升人类生产力、创造力和决策能力的潜力,促进技术和社会进步,同时维护人类自主性和尊严。通过人类智能与AI能力的合理融合,可以为可持续、公平和繁荣的未来奠定基础。
模块化与类脑AI智能体框架
LLM时代面临的核心挑战之一是缺乏能整合高级智能体所需丰富认知和功能组件的统一框架。尽管LLMs提供了卓越的语言推理能力,当前许多智能体设计仍较为简易——它们将感知、记忆或规划等模块以分散方式组合,无法达到生物系统(如人脑)所展现的协调专业化水平。
与当前LLM智能体不同,人脑通过不同但相互连接的区域实现感知、记忆、推理和行动的无缝平衡,从而对复杂刺激做出适应性反应。相比之下,当任务需要跨领域或多模态整合时,LLM驱动的智能体常常表现不佳,这凸显了需要一种更全面的方法,类似于大脑的功能多样性。
基于这些对比,本研究建议从人脑获取灵感来系统性分析和设计智能体框架。这一视角表明,生物系统通过紧密整合专业化组件(负责感知、推理、行动等)实现通用智能——这种方法可作为增强当前基于LLM智能体的设计蓝图。神经科学研究显示,大脑同时利用理性神经回路(如新皮质,负责深思熟虑和规划)和情感神经回路(如边缘系统)来指导决策。记忆形成涉及海马体和皮质机制,而由多巴胺等神经调节物质传递的奖励信号则强化行为和学习。
这些生物学见解启发了AI智能体的几项设计原则,包括:
- 并行多模态处理:大脑通过专门的皮质区域并行处理视觉、听觉等感官输入,并在联合区域整合信息。同样,AI智能体应当从多样化传感器数据流的并行处理中获益,在后期阶段融合信息以形成连贯理解。
- 层级分布式认知:推理、规划、情感调节和运动控制涉及皮质和皮质下区域间的交互。类似地,AI智能体可采用模块化架构,设置专门负责理性推理、情感评估和记忆的子系统。
- 注意力机制:人类注意力能基于上下文、目标和情感状态优先处理感官数据。AI智能体可通过习得的注意力策略实现类似功能,根据内部状态动态调整关注焦点。
- 奖励与情感整合:情感并非干扰因素,而是决策的核心组成部分,可调节优先级、提高警觉性并指导学习。奖励驱动的可塑性促进习惯形成和技能获取,这也是AI智能体强化学习的关键概念。
- 目标设定与工具使用:人类前额叶皮质擅长设定抽象目标和规划行动序列,包括工具使用。同样,AI智能体需要健全的目标管理系统和适应性行动库,由外部奖励和内在动机驱动。
这些原则构成了本文提出的类脑智能体框架基础,其中生物机制作为设计灵感而非直接复制对象。后续章节将概述框架关键概念,介绍基于感知-认知-行动循环的统一智能体架构,并通过奖励信号和学习过程进行增强。每个子系统经过精心定义和互连,确保记忆、世界模型、情感、目标、奖励和学习之间交互的透明度。该框架将认知定义为一般推理机制,将规划和决策视为塑造行为的特定“心理行动”。
研究还探讨了与已有理论的联系,如明斯基的心灵社会理论、Buzsáki的由内向外视角和贝叶斯主动推理,突显了该框架的通用性和生物合理性。
智能体循环中的核心概念和符号
该架构设计基于三个概念层次:社会、环境和智能体。智能体进一步分为三个主要子系统:感知、认知和行动。认知系统中包含几个关键组成部分:记忆、世界模型、情感状态、目标、奖励、学习和推理过程(其中”规划”和”决策”被视为推理产生的特殊行动)。注意力机制主要在感知和认知过程中发挥作用。在详述完整循环前,表1.2总结了相关符号系统。

基于表1.2中的符号,下面介绍智能体循环的完整过程。
智能体循环
智能体在离散时间步骤 中持续与环境交互。每个步骤包含以下过程:
1. 环境状态( ):环境处于状态 。
2. 感知( ):智能体感知环境生成观察结果 :
其中 引导选择性注意和信息过滤。3. 认知( ):更新心理状态并选择行动:
其中 包含多种子状态:
认知包含两个主要过程:
• 学习( ):基于观察更新心理状态: 。
• 推理( ):确定下一步行动: ,可能是:
–外部行动:直接影响环境。
–内部行动:包括: *规划:构建未来行动序列。 *决策:从可用选项中选择最优行动。4. 行动执行( ):将行动 转换为可执行形式:
。5. 环境转换( ):环境对智能体行动做出响应:
。在多智能体环境中,每个智能体 维持自身状态 () ,环境根据所有智能体的行动综合更新。在更大规模(AI社会或世界 )中,智能体在各种社会系统(如经济、通信或交通系统)中互动,形成复杂社会结构。
图1.2展示了该智能体框架,呈现核心概念及其间的信息和控制流。

这一类脑智能体框架将生物学见解整合到感知认知行动循环中。通过将认知分解为记忆、世界模型、情感、目标、奖励学习和推理等模块,捕捉了与人脑分层奖励驱动过程的基本对应关系。注意力机制在循环中发挥关键作用,实现基于内部状态的选择性过滤。规划和决策可视为特殊内部行动,或完善内部表征,或选择外部行为。该框架自然扩展了传统智能体架构,提供多层次结构,整合情感和理性过程,实现跨时间尺度的稳健奖励驱动学习。
社会和社会系统 在现实场景中,智能体不仅与静态环境互动,还在更广泛的社会结构中运作,包括金融市场、法律框架、政治机构、教育网络和文化规范等多种社会系统。这些结构通过规则、激励和共享资源塑造并约束智能体行为。
例如,金融系统规定经济交易和资源分配方式,政治系统提供治理机制和监管约束。这些社会系统共同创造分层环境,智能体需要在其中适应性地学习、推理和行动——既满足内部目标,又符合(或策略性参与)外部社会规则。同时,智能体的行动也反馈到社会系统中,可能改变规范、政策或资源分布。
基础智能体的定义 基于上述洞见和对稳健适应性智能的理念,现正式提出基础智能体概念。与传统上主要关注即时感知-行动循环的智能体定义不同,基础智能体强调持续自主性、适应能力和目标导向行为,特别重视跨多样环境的内部认知过程整合。
传统定义通常将智能体简化为基本的“感知和行动”模式,而基础智能体概念则强调内部认知过程的深度与整合。基础智能体不仅感知环境并执行即时行动,还具备不断发展的目标导向认知系统——持续调整记忆结构、世界模型、情感和奖励状态,并通过推理自主完善策略。这种丰富的内部认知使基础智能体能自主将复杂抽象目标分解为可行任务,战略性探索环境,并动态调整行为和认知资源。由此,统一的感知认知行动框架既适应又明确模拟了这些复杂认知能力,将内部(心理)行动与外部(物理或数字)交互同等对待,支持从物理机器人到软件或纯文本智能体的多种实现形式。
基础智能体的定义
基础智能体是自主适应的智能系统,设计用于主动感知环境多样信号,通过经验持续学习以更新结构化内部状态(包括记忆、世界模型、目标、情感状态和奖励信号),并推理出有目的的内外部行动,自主实现复杂长期目标。
具体而言,基础智能体具备以下核心能力:
1. 主动多模态感知:能从多种模态(文本、视觉、实体或虚拟环境)持续选择性地获取环境信息。
2. 动态认知适应:通过整合新观察和经验,维持、更新并自主优化内部心理状态(记忆、目标、情感状态、奖励机制和世界模型)。
3. 自主推理与目标导向规划:主动进行复杂推理,包括长期规划和决策,制定符合目标的策略。
有目的行动生成:自主生成并执行目标导向行动,包括外部行动(物理移动、数字交互、与其他智能体或人类沟通)和内部行动(战略规划、自我反思、认知优化),系统性地塑造环境和未来认知以实现复杂目标。
4. 协作多智能体结构:能在多智能体或智能体社会中运作,协作形成团队或社区,共同完成超出个体能力范围的复杂任务。此定义强调了基础智能体的三个核心特征:持续自主能力(无需人类持续干预,独立向长期目标迈进)、适应性学习(在多样经验中不断发展内部表征)和目标导向推理(基于内部维护的复杂目标和价值生成行动)。基础智能体通过整合深度认知结构、多模态处理能力和主动持续的自我优化,代表了智能体技术的根本性进步,能在各类环境和领域中有效运作。
与传统定义不同,传统定义通常将智能体简单地描述为“感知和行动”的循环,基础智能体概念强调内部认知过程的深度和融合。基础智能体不仅能感知环境并执行即时行动,还具备不断发展的目标导向认知系统——持续调整记忆结构、世界模型、情感和奖励状态,并通过推理自主优化策略。这种丰富的内部认知使基础智能体能够自主将复杂抽象目标分解为可行任务,战略性地探索环境,并动态调整行为和认知资源。
因此,统一的感知认知行动框架能适应并明确模拟这些复杂认知能力,同等对待内部(心理)行动与外部(物理或数字)交互,支持从实体机器人到软件或纯文本智能体的多种实现形式。
生物学启发
虽然智能体模型本质上是计算系统,但每个子模块都从人脑中经过充分研究的生物机制获取灵感。下面从神经科学基础和AI实现灵活性两方面讨论这些对应关系。
记忆(海马体和新皮质) 长期以来,神经科学研究将海马体与情景记忆形成关联,而皮质区域则被认为存储语义和程序性知识。在人类中,这些记忆子系统协同工作,管理短期记忆编码和长期记忆巩固。智能体的记忆组件 通过存储近期经验和知识实现多层次学习。这可以通过神经网络权重(长期记忆)或明确的缓存结构(短期记忆)实现,类似于海马体与皮质的协作模式。
世界模型(预测处理) 认知神经科学中的重要理论认为,大脑皮质作为预测机器工作,不断比较感官输入与预期模型。世界模型 体现了这一理念,维持环境随时间变化的内部表征。正如皮质网络整合多感官数据更新内部模型,智能体框架允许 基于新观察和相关奖励或情感信号进行调整,提供环境动态的贝叶斯式理解。
情感(边缘系统) 情感由大脑杏仁核、下丘脑和边缘系统等结构调节,显著影响注意力、学习效率和决策阈值。通过情感组件 ,智能体模型能反映内部情绪状态如何改变其关注焦点和行为模式。虽然计算“情感”既不完全等同于生物情感也不具备意识体验,但它们能引导适应性决策——例如优先处理紧急目标或快速应对感知威胁。
目标和奖励(前额叶和脑干回路)人类擅长形成抽象长期目标,这种能力与前额叶皮质功能密切相关。同时,脑干回路—特别是多巴胺系统—产生强化信号,塑造动机和习惯学习。智能体包含目标存储模块 和奖励信号编码模块 ,形成连续反馈循环,目标形成和奖励适应相互增强。这种机制支持计划性行动序列、工具使用和复杂社交互动。
推理、规划和决策(前额叶皮质) 人类前额叶皮质整合来自记忆、感官输入、情感和奖励通路的信息,执行高阶认知过程—包括逻辑推理、规划和执行控制。在智能体框架中,这些能力由推理子功能实现,通过PlanFn和Decide等模块选择并执行行动(物理或心理)。通过区分规划和即时决策,捕捉了智能体模拟未来场景、评估结果并确定行动方案的过程,类似于前额叶皮质的灵活协调功能。
与现有理论的联系
除了这些神经生物学对应关系外,该架构还与AI、认知科学和神经科学中的几个重要理论相呼应。
经典感知认知行动循环 该框架扩展了传统感知思考行动循环,融入注意力机制、学习和情感过程,以及持续性奖励信号。这种明确设计使分析智能体内部状态和先前行动如何影响后续感知和认知变得更加直观。
明斯基的”心智社会”理论 明斯基认为智能源于心智内部一组专业化“智能体”的协同工作。子模块 、 、 、 、 呼应了这种分解,将关键功能(记忆、预测、情感评估、目标设定等)分布在相互作用的独立组件中。在更广泛的“社会”环境中,每个智能体(或子智能体)可以合作或竞争地协调,类似于明斯基描述的内部系统。近期关于基于自然语言的心智社会研究表明,智能体系统可以使用原始心智社会理论构建,并可以在智能体间形成社会结构和经济模型。
Buzsáki的内生感知理论 神经科学家Buzsáki主张大脑主动构建和更新感知,而非仅被动接收输入。在该模型中, (包括情感状态、奖励信号和目标)直接影响感知映射 。这支持内部驱动的观点,即智能体的内部状态决定其如何采样和解释环境,而非被动反应。
部分可观察马尔可夫决策过程(POMDP)扩展 该框架可视为经典POMDP的扩展。首先,它保留环境转换函数 而不限制为纯概率或有限形式,允许任意甚至确定性映射。其次,将奖励信号置于智能体心理状态( )内,使其依赖于并与目标、情感和世界模型共同发展,而非强制执行单一外部目标。第三,智能体选择行动的推理过程考虑记忆、情感等多种因素,支持启发式或社会性决策,不仅限于价值最大化。最后,该框架明确模拟记忆、世界模型、情感等认知子模块,而非将它们合并到单一”信念状态”,更贴近生物认知特性。
主动推理和贝叶斯大脑理论 主动推理理论认为智能体不断更新内部生成模型以最小化预测误差。世界模型 和奖励模块 的应用,结合规划和决策机制,符合贝叶斯思想。智能体通过将世界模型与新数据对齐,并选择符合预期结果的行动来减少不确定性。
生物合理性与通用性 大脑回路与智能体子模块的对应关系是高层次的,这提供了既有生物启发又保持模块灵活性的方法。记忆、情感、目标和奖励可以通过不同AI技术实现—符号方法、神经网络或混合方法。通过整合神经科学、认知科学和AI的核心理念,形成了捕捉智能行为本质特性的通用框架,同时不过度限制实现细节。
本综述内容导航
本综述系统地提供了对智能体的全面、模块化和跨学科研究,融合认知科学、神经科学和其他学科的研究成果,为AI领域下一阶段的发展提供指导。尽管已有多篇相关领域的综述文献提供了有价值的视角,表1.3详细对比了这些文献的研究重点。

本文的独特之处在于系统比较了生物认知与计算框架,找出协同点、差距和创新机会。通过融合这些领域,本文不仅展示了智能体的现有能力,还指出了充分发挥其潜力所需的关键突破。
本综述分为四个主要部分:
- 第一部分:智能体的模块化设计 介绍智能体的核心组成部分,包括作为”大脑”的认知模块、处理感官信息的感知系统以及与外部世界交互的行动系统。认知系统部分深入探讨了记忆、世界模型构建、情感处理、目标设定和奖励机制,分析当前的技术进展、局限性和研究挑战。
- 第二部分:智能体的自我提升 关注智能体自我发展和优化的能力。探讨了适应性学习、自我反思和基于反馈的改进机制,这些机制受到了人类能力成长和技能完善过程的启发。该部分还讨论了动态记忆系统和持续知识整合如何帮助智能体在变化环境中保持有效性。
- 第三部分:协作与进化的智能系统 研究智能体之间以及智能体与环境的交互如何解决复杂大规模问题。讨论了多智能体系统及其在机器人技术、医疗系统和科学发现等领域的应用。该部分探索了多智能体系统的结构和通信协议,追踪了从静态到动态框架的协作演变过程。分析了交互模式如何塑造智能发展,以及多智能体系统如何在各种协作环境中调整决策策略,通过集体智能解决复杂挑战。
- 第四部分:构建安全有益的AI 全面分析了基于LLM的智能体的安全问题。提出了一个将威胁分为内部和外部两类的框架。内部风险来自智能体架构本身:核心LLM”大脑”以及支持其与世界互动的感知和行动模块。外部风险则源于智能体与记忆系统、其他智能体和更广泛环境的互动。本部分不仅系统分析了这些风险,详细描述了越狱和提示注入等具体攻击方式,还回顾了各种防御机制。此外,还探讨了未来研究方向,包括高级对齐技术和AI安全的规模效应—能力增长与风险控制之间的平衡关系。
通过整合这些主题,本综述提供了智能体当前发展状况的完整视角和未来发展路径。本文融合认知科学与计算设计原则的特色,使其成为研究者的重要参考资源,尤其对于那些致力于设计不仅强大高效,而且适应性强、符合伦理并与人类社会深度协调的智能体系统的研究者。
第一部分:智能体的核心组成部分
原文的第一部分很长,我在翻译的时候把它分为了上下两部分,上部包括原文的第二、三、四章,下部包括了原文文的第五、六、七、八章。加起来8万多字,建议点进去看先码后看。
第二部分:智能体的自我演化
论文的第二部分包含原文的第九、十、十一、十二章。翻完字数31500,这一部分的公式较第一部分多了不少,读起来难度相对较高。
第三部分:协作与演进的智能系统
论文的第三部分包含原文的第十三、十四、十五、十六、十七章。翻完字数31500,这一部分主要讨论多智能体系统。
第四部分:构建安全可信的AI智能体
论文的第四部分包含原文的第十八、十九、二十、二十一、二十二章。翻完字数是3万,这一部分主要讨论智能体的安全性。