AI Agent-知行合一 大模型的局限 AI Agent

大模型的局限

大语言模型的威力我们都已经见证过,它在很多领域都展现出了惊人的实力。比如问答系统,大模型可以从海量的知识库中快速检索到相关信息并生成准确、简洁的答案。再比如文本生成,在广告文案、新闻撰写、小说创作等领域可以生成富有创意和连贯性的文本。还比如代码生成领域,开发者可以通过描述需求来生成相应的代码片段,这极大解放了一批程序员的生产力,各种copilot应运而生。

目前的大模型发展迅速,但在解决真实现实世界的问题时,毕竟仍存在它设计上或者技术实现上仍然不可调和的限制,主要包括:

  1. 缺乏自主性:LLM通常是被动地根据输入数据生成输出,而不具备主动地在环境中执行任务和做出决策的能力。这使得LLM在处理需要实时交互和自主行动的问题时可能不够高效。
  2. 缺乏长期记忆和状态:虽然LLM可以处理大量的文本数据,但由于token context的限制,它通常无法有效地存储和管理长期的记忆和状态。这可能导致在需要长期规划和决策的任务中表现不佳。
  3. 缺乏多模态处理能力:LLM主要关注文本数据的处理,而现实世界中的问题通常涉及多种类型的数据,如图像、声音等。当然现在已经有多模态的大模型出世,能够体验到端到端的多模态能力。
  4. 缺乏适应性:LLM的表现通常取决于预先训练好的模型,而在现实世界中,环境和任务可能会发生变化。
  5. 缺乏协作:LLM通常无法扮演多个角色,也无法与其他LLM或工具能力进行有效的协作。而在现实世界中,许多问题需要多个实体之间的协作来解决。

AI Agent

相较于人类本身智能的运作模式,大模型的确还在进化的初级。人类智能天生具有认知协同的特点,可以思考、整合、决策、执行。为了弥补或者增强大模型,让它不再试一个人在战斗,诞生了各种各样的研究,比较成功的即 AI Agent(本文翻译为AI智能体)

AI Agent中多个思维可以合作,结合他们的个体优势和知识,以增强复杂任务中的问题解决和整体性能。它是一种能够自主地执行任务、做出决策并在其环境中采取行动的智能系统。

AI Agent从内部机理上通用的流程上涵盖,思考、计划、行动、反思、记忆的整个链条,并且它可以吸取并影响外部环境,及和其它Agent协作。

77F97556-EC2E-46D8-85ED-C1BAAEBA4CB4.png

核心组成

人类的决策执行是一个非常复杂的过程,在AI Agent主要模拟了这个过程,这依赖于以下几个核心模块:

  1. 感知模块(Perception):感知模块负责从环境中收集信息,如图像、声音、文本等。这些信息使得AI Agent能够了解环境的状态和变化。感知模块通常包括传感器、摄像头等硬件设备,以及用于处理和分析数据的软件算法。
  2. 决策和规划模块:基于内部模型和知识表示,Agent进行推理和决策,以确定在给定环境状态下应该采取的最佳行动。这可以是通过搜索和规划算法实现,也可以是通过机器学习和优化方法实现。自我反思(Self-reflection)
  3. 记忆存储:它负责存储和管理Agent的知识、经验和信息。
  4. 行动(Action):根据推理和决策的结果,Agent执行具体的行动,以实现其目标或解决问题。行动可以是物理的(如机器人移动、抓取物体等),也可以是虚拟的(如软件Agent发送网络请求、修改数据等)。

思考规划

在AI Agent中,”plan”(计划)是指一系列有序的步骤或行动,这是AI感知、思考的产物,这些行动旨在实现Agent的特定目标或解决某个问题。计划是Agent根据其内部模型、算法和当前环境状态所生成的,用于指导其在环境中的行为。

思维链(CoT )技术已经成为这里实现的普遍标准(其它诸如思维树、LLM+P),这主要依靠的是合理的prompting工程(核心思想是通过向大语言模型说明少一些示例,并解释示例中的推理过程,大语言模型在回答时也会显示推理过程),要求LLM一步一步思考,将一个完整的问题拆分成多个子任务或者步骤,从而赋予了LLM规划的能力。例如:

2B480DDE-114F-41AD-9DB0-8D1AB7FC0433.png

才外还有一些其它的思路,比如通过在问题的结尾附加“Let’s think step by step”这几个词,大语言模型能够生成一个回答问题的思维链。

更多的记忆

在AI Agent中,记忆模块是一个关键组件,它负责存储和管理Agent的知识、经验和信息。记忆模块的设计和实现可以根据具体的任务和需求进行调整。主要围绕感觉、短期、长期记忆而来:

  1. 感觉记忆:代表原始输入,包括情景、感情、描述、图像或者其它模态。
  2. 短期记忆:短期记忆模块用于存储和管理Agent的临时信息和状态。短期记忆通常具有有限的容量和持续时间,例如工作记忆、循环神经网络(RNN)等。
  3. 长期记忆:长期记忆模块用于存储和管理Agent的持久信息和知识。长期记忆通常具有较大的容量和持续时间,例如知识库、参数化模型等。

Embedding技术和向量数据库,及各种相似度算法是实现高等记忆的基石。

64FE8AC3-A89E-434A-B0AF-60D23CBF58FE.png

工具协作

AI Agent的核心价值一方面体现在自主,另一方面最大的价值体现在可以使用外部工具拓展能力。跟人类一样能够使用工具是人类进化的一个重要标志。

Agent项目

AutoGPT

AutoGPT是一个实验性的开源应用程序,由GPT-4驱动,可以自主实现设定的任何目标。它允许用户通过命令行界面与GPT-4进行交互,并实现各种任务,如文本生成、翻译、摘要等。

6D983B55-9697-4764-A8FD-B1DC942F8051.png

BabyAGI

BabyAGI是任务驱动自治代理的精简版本。它的主要思想是基于先前任务的结果和预定义的目标来创建任务。然后,脚本使用OpenAI的语言模型功能来创建基于目标的新任务,Pinecone来存储和检索上下文的任务结果

HuggingGPT

HuggingGPT是微软开发的一个名为JARVIS的项目,它包括一个LLM作为控制器和许多专家模型作为协作执行者(来自HuggingFace Hub)。它工作流程包括四个阶段:任务规划、模型选择、任务执行和响应生成

B36C0B5B-D86A-45D5-9AF6-DEAA5DCAB55F.png

Camel

Camel是”Communicative Agents for ‘Mind’ Exploration of Large Scale Language Models”的缩写,它提出了一种新颖的代理框架,即角色扮演,作为AutoGPT和AgentGPT的替代方案。Camel将游戏和大语言模型结合,主要包含2个部分:一个支持LLM的AI代理的简单的类似rpg的环境,通过OpenAI API将AI代理植入到游戏环境的角色中;另一个是使用AI代理进行角色扮演游戏

74BB1B8E-D3D2-4B7D-AA1C-C913E55063CE.png

本文转载自: 掘金

开发者博客 – 和开发相关的 这里全都有

0%