探索基于大语言模型的智体:定义、方法和前景
24年1月来自香港中文大学、深度赋智、北京大学、言图智能和腾讯的论文“Exploring large language model based intelligent agents: definitions, methods, and prospects“。
24年1月来自香港中文大学、深度赋智、北京大学、言图智能和腾讯的论文“Exploring large language model based intelligent agents: definitions, methods, and prospects“。

智体作为通用人工智能(AGI)的一条潜在道路脱颖而出。因此,研究人员已经为它们的不同实现付出巨大努力。
得益于大语言模型(LLM)的最新进展,通用自然语言作为接口的基于LLM智体在各种应用程序中表现出强大的泛化能力——从充当自主的通用任务助理到编码、社会和经济领域的应用程序,基于LLM智体提供广泛的探索机会。
本文综述了当前的研究,深入概述单智体和多智体系统中基于LLM智体。它涵盖了它们的定义、研究框架和基本组成部分,如它们的组成、认知和规划方法、工具利用以及对环境反馈的反应。我们还深入研究了在多智体系统中部署基于LLM智体的机制,包括多角色协作、消息传递和缓解智体之间通信问题的策略。讨论还揭示了流行的数据集和应用场景。最后,考虑到人工智能和自然语言处理的发展前景,展望了基于LLM智体的前景。
基于LLM智体的研究近年来引起了人们的极大关注。人工智能中“智体”的概念有着坚实的基础,主要强调智体及其在人工智能系统中的环境之间的区别[1]。任何能够感知其环境并采取行动的实体都可以被视为智体。智体拥有在不同环境中执行任务的自主权,依靠他们过去的经验和知识做出符合预定义目标的决策。
智体可分为五种类型:简单反射智体、基于模型的反射智体、基于目标智体、基于效用智体和学习智体[1]。基于强化学习的智体(RL)和基于大语言模型的Agent(LLM)属于学习智体的范畴。
如图是智体的发展路径:

学习智体的一个定义特征是他们基于经验学习和改善行为的能力。随时间的推移,这些智体可以通过观察环境和行动结果来加强决策过程。这种改进解决了其他智体类型固有的局限性,例如缺乏自主学习能力和管理多步决策问题的困难。这些不同的类型通常依赖于固定的规则或简单化的模型,这可能会限制的适应性和泛化能力[5,6]。
基于RL的智体的主要目标是学习一种策略,该策略指导智体在不同状态下采取行动,最大限度地提高累积奖励[7]。这些智体通过试错学习,不断调整策略以优化长期奖励。基于RL的智体在游戏[9]、机器人控制[10]和自动驾驶[11]等领域取得了相当大的成功[8]。
基本的强化学习框架包括智体、环境、状态、动作和奖励。智体在环境中执行操作,环境根据智体的操作以状态和奖励的变化作为响应。智体根据环境的反馈调整其策略,在未来的行动中获得更高的累积奖励。
LLM在自然语言处理(NLP)领域表现出非凡熟练度,包括推理、一般问题回答、编程和文本生成[14,15]。基于LLM的智体,例如基于LLM构建的智能体,如GPT-4[19],融合了LLM和智体的优势。与其他智体不同,基于LLM的智体将LLM用于认知和战略过程,鼓励智能行为。
将LLMs的语言理解和生成能力与智体的决策和规划能力相结合,基于LLMs的智体为LLMs在实用应用中遇到的障碍提供了有希望的解决方案。
如图是LLM智体的概述:

LLM智体分单智体和多智体两种。
单智体系统包括一个基于LLM的智体,该智体精通处理多个任务和域,通常被称为基于LLM的智体。基于LLM的智体具有广泛的语言理解、生成能力和多任务泛化能力,使其能够执行代码生成、游戏探索和数据管理等任务。此外,基于LLM智体的评估方法各不相同,所使用的工具也不标准。基于LLM的智体可以是单一模态的,也可以是多模态的,这取决于其设计目标。下表提供了几个当代基于LLM智体的概要。

每个基于LLM的智体V可以简洁地表示为五元组V=(L,O,M,a,R),其中L表示LLM,O代表目标,M代表记忆,A代表动作,R代表反思:
LLM:结合LLM和智体的配置和熟练程度通常需要及时定义或使用不同的特定域LLM。可以假设LLM不需要补充训练;然而,它的推理参数,如温度,可以动态调整。LLM充当基于LLM智体的大脑核心,根据当前观察、历史记忆和奖励信息制定任务战略和决策。
目标:主要目标,表示为目标,代表智体必须达到的最终状态或条件。智体必须根据目标进行任务分解和规划。
动作:智体拥有一系列可以执行的动作,通常包括使用各种工具、设计新工具或向环境或其他智体传输信息。
记忆:智体的记忆存储信息并象征智体的当前状态。当智体采取行动时,随后的环境反馈和奖励信息被记录在存储器中。
反思:在执行一项行动时,智体需要利用其反省能力,称为“反思”,反思之前的动作和相关的环境反馈奖励。反思过程应与智体记忆、LLM或其他合适模型进行集成,规划和执行后续动作。
作为基于LLM智体的外部成分,环境和工具通常包括以下内容:
工具:工具是指智体可以使用的任何工具,如计算器、代码解释器、机械臂等。
环境:智体所在的环境对其行为有很大影响。智体可以观察这种环境并与之互动,从而获得有价值的反馈。
与单智体系统不同,多智体系统是由多个相互作用智体组成的计算机系统[22]。受明斯基的心思学会(SOM)[23]和基于自然语言SOM(NL-SOM)[24]的启发,多智体系统(MAS)设计要求提高各种智体之间的复杂协调水平,特别是在交互和信息共享方面。每个智体通常都具有特定的域专业知识,这使得多智体系统对于跨域的任务特别有利。
Decker[25]概述了MAS的四维框架。这些维度包括:1)智体粒度,从粗略到可接受的配置;2) 智体知识的异质性,将具有冗余知识的智体与具有专业知识的智体进行比较;3) 控制权分配机制,可分为善意或竞争性、团队导向或分级机制,可能涉及静态或可变的角色分配;4) 各种通信协议,区分黑板和基于消息的系统,并指定从低级到高级内容的分级。
考虑到MAS中基于LLM智体,图G(V,E)可以表示多个基于LLM智体之间的关系。这里,V是节点集,Vi表示基于LLM的智体i,E是边集合,Eij表示消息传递以及基于LLM智体Vi和Vj之间的关系。
如图是LLM智体之间的关系:

如下表给出LMM多智体的详细信息:

单智体系统分为五个关键组成部分:规划、记忆、反思、环境和动作。每个组件都因其独特的贡献而备受瞩目,构成了统一整体的重要组成部分,突显了系统复杂的设计和功能。
规划能力定义了基于LLM智体基于设定目标和现有环境约束设计动作序列的能力,以确保目标实现。这是基于LLM智体的一个重要特征,包括任务分析、潜在行动预期、最佳行动选择以及处理复杂问题和任务的能力。Dijkstra[87]和POMDP[88]等规划算法在状态空间中找到最佳动作序列并在不确定环境中进行规划,与使用这些规划的传统智体不同,基于RL智体需要学习策略[5]。基于LLM智体主要从LLM中获得其规划能力。尽管LLM主要通过自然语言或特定文本进行交流,但其内部结构和训练方法赋予了一定程度的规划能力。最近的研究趋势也强调,引导LLM思考和规划是一个至关重要的发展方向。
如图是规划的分类:

在基于LLM的智体中,记忆系统的主要功能是保存和调节知识、经验数据和历史信息,这些信息可用于解决问题和执行任务过程中的参考和修改。此外,记忆经常具身基于LLM智体的当前状态。按照惯例,此类智体的记忆以文本格式进行记录,从而实现与LLM的无缝交互。
如图是记忆的分类:

基于LLM智体中的内省能力,表示为其反思能力,包括评估先前的决策和随后的环境反馈。这种能力允许基于LLM智体彻底检查其行为、决策和学习过程,增强其智力和适应性。如图所示,基于LLM的智体反思研究可以根据学习方法进行广泛分类,包括上下文学习、监督学习、强化学习和模块协调方法。

基于LLM智体可以通过环境反馈与各种环境进行交互和学习。这些环境可以广泛地是计算机、游戏、代码、真实世界和模拟环境,如图所示。

基于LLM智体的动作能力与动作执行或工具的使用有关。这类智体主要交互模式通常是通过文本生成,促进与外部环境的沟通,这一特征让人想起生成智体[63]。一种替代方法结合了LLM或使用工具的智体,包括API、计算器、代码解释器或通过基于文本的指令在物理环境中的动作。这进一步延伸到工具的战略规划和部署,这可能需要开发新的工具来实施。
如图是动作的分类:

在基于LLM的多智体系统(MAS)中,许多智体参与协作、竞争或分层组织来执行复杂的任务。这些任务可以从搜索和优化、决策支持、资源分配到协作生成或控制。这些系统中智体之间的相互关系至关重要,因为它们支配着智体之间的互动与合作机制。类似地,这些智体间关系可以外推到基于LLM的MAS。目前,大多数基于LLM的MAS研究主要集中在智体之间的合作和竞争动态上。
如图是多智体系统的关系图:

在MAS领域,规划是一个至关重要的组成部分,因为它能够协调多智体来追求共同的目标。已经提出了许多规划方法,每种方法都表现出独特的优点和局限性。类似于多智体强化学习中的集中训练-分散执行(Centralized Training Decentralized Execution,CTDE)[180]的概念,可分为两种主要的规划范式:集中规划-分散执行和分散规划-分散执行。
如图是MAS规划的类别:

在基于LLM的MAS中,挑战包括低效通信和LLM幻觉。增强通信效率的方法分类如图所示:

大多数基于LLM智体不需要对LLM进行进一步的训练,并且某些特定任务的数据集是不可公开访问的。因此,如下表列举了公开可用和广泛使用的数据集:

LLM智体有前景的应用如图所示:

基于LLM智体在各个领域都表现出了非凡的能力,包括特定的任务解决、合作和人机交互。然而,对其性能进行量化和客观评估仍然是一项挑战。
在复杂和动态的环境中操作时,基于LLM智体通常需要连续进化的能力,从而相应地调整其参数、内存和目标。
智体必须管理现实世界中的多模态信息,包括图像、视频和语音。额外的多模态模型结合可以使基于LLM智体具备多模态熟练度。这一过程通常需要将多模态输入转换为文本数据,利用LLM进行推理和规划,并使用多模态模型生成输出。
LLM为基于LLM智体提供了基础,有助于规划和重新考虑能力、自然语言表达以及跨不同任务的强大泛化。然而,LLM通常由于上下文长度而面临限制[14],这可能导致在处理大量文章或复杂对话时丢失基本信息[328]。
基于LLM的MAS部署越来越广泛,系统必须能够在各种硬件和软件环境中动态扩展,并根据需求调整其规模和性能。
适当权限的分配和系统安全性的保证对于基于LLM智体来说至关重要[331]。考虑到这些智体可以交换信息和资源,过多的权限可能会导致错误的决策和操作,影响整体系统性能并引发安全问题。
如何防止有害的错误,从而维护人类和企业来之不易的信任?为了解决这个问题,必须制定一个有效的许可分配机制,在不超过其指定权限的情况下促进不同智体之间的有效合作。此外,进行可靠性测试的重要性怎么强调都不为过。
更多推荐

所有评论(0)