大模型的局限

大语言模型的威力我们都已经见证过，它在很多领域都展现出了惊人的实力。比如问答系统，大模型可以从海量的知识库中快速检索到相关信息并生成准确、简洁的答案。再比如文本生成，在广告文案、新闻撰写、小说创作等领域可以生成富有创意和连贯性的文本。还比如代码生成领域，开发者可以通过描述需求来生成相应的代码片段，这极大解放了一批程序员的生产力，各种copilot应运而生。

目前的大模型发展迅速，但在解决真实现实世界的问题时，毕竟仍存在它设计上或者技术实现上仍然不可调和的限制，主要包括：

缺乏自主性：LLM通常是被动地根据输入数据生成输出，而不具备主动地在环境中执行任务和做出决策的能力。这使得LLM在处理需要实时交互和自主行动的问题时可能不够高效。
缺乏长期记忆和状态：虽然LLM可以处理大量的文本数据，但由于token context的限制，它通常无法有效地存储和管理长期的记忆和状态。这可能导致在需要长期规划和决策的任务中表现不佳。
缺乏多模态处理能力：LLM主要关注文本数据的处理，而现实世界中的问题通常涉及多种类型的数据，如图像、声音等。当然现在已经有多模态的大模型出世，能够体验到端到端的多模态能力。
缺乏适应性：LLM的表现通常取决于预先训练好的模型，而在现实世界中，环境和任务可能会发生变化。
缺乏协作：LLM通常无法扮演多个角色，也无法与其他LLM或工具能力进行有效的协作。而在现实世界中，许多问题需要多个实体之间的协作来解决。

AI Agent

相较于人类本身智能的运作模式，大模型的确还在进化的初级。人类智能天生具有认知协同的特点，可以思考、整合、决策、执行。为了弥补或者增强大模型，让它不再试一个人在战斗，诞生了各种各样的研究，比较成功的即 AI Agent（本文翻译为AI智能体）

AI Agent中多个思维可以合作，结合他们的个体优势和知识，以增强复杂任务中的问题解决和整体性能。它是一种能够自主地执行任务、做出决策并在其环境中采取行动的智能系统。

AI Agent从内部机理上通用的流程上涵盖，思考、计划、行动、反思、记忆的整个链条，并且它可以吸取并影响外部环境，及和其它Agent协作。

核心组成

人类的决策执行是一个非常复杂的过程，在AI Agent主要模拟了这个过程，这依赖于以下几个核心模块：

感知模块（Perception）：感知模块负责从环境中收集信息，如图像、声音、文本等。这些信息使得AI Agent能够了解环境的状态和变化。感知模块通常包括传感器、摄像头等硬件设备，以及用于处理和分析数据的软件算法。
决策和规划模块：基于内部模型和知识表示，Agent进行推理和决策，以确定在给定环境状态下应该采取的最佳行动。这可以是通过搜索和规划算法实现，也可以是通过机器学习和优化方法实现。自我反思（Self-reflection）
记忆存储：它负责存储和管理Agent的知识、经验和信息。
行动（Action）：根据推理和决策的结果，Agent执行具体的行动，以实现其目标或解决问题。行动可以是物理的（如机器人移动、抓取物体等），也可以是虚拟的（如软件Agent发送网络请求、修改数据等）。

思考规划

在AI Agent中，”plan”（计划）是指一系列有序的步骤或行动，这是AI感知、思考的产物，这些行动旨在实现Agent的特定目标或解决某个问题。计划是Agent根据其内部模型、算法和当前环境状态所生成的，用于指导其在环境中的行为。

思维链（CoT ）技术已经成为这里实现的普遍标准（其它诸如思维树、LLM+P），这主要依靠的是合理的prompting工程（核心思想是通过向大语言模型说明少一些示例，并解释示例中的推理过程，大语言模型在回答时也会显示推理过程），要求LLM一步一步思考，将一个完整的问题拆分成多个子任务或者步骤，从而赋予了LLM规划的能力。例如：

才外还有一些其它的思路，比如通过在问题的结尾附加“Let’s think step by step”这几个词，大语言模型能够生成一个回答问题的思维链。

工具协作

AI Agent的核心价值一方面体现在自主，另一方面最大的价值体现在可以使用外部工具拓展能力。跟人类一样能够使用工具是人类进化的一个重要标志。

Agent项目

AutoGPT

AutoGPT是一个实验性的开源应用程序，由GPT-4驱动，可以自主实现设定的任何目标。它允许用户通过命令行界面与GPT-4进行交互，并实现各种任务，如文本生成、翻译、摘要等。

BabyAGI

BabyAGI是任务驱动自治代理的精简版本。它的主要思想是基于先前任务的结果和预定义的目标来创建任务。然后，脚本使用OpenAI的语言模型功能来创建基于目标的新任务，Pinecone来存储和检索上下文的任务结果

HuggingGPT

HuggingGPT是微软开发的一个名为JARVIS的项目，它包括一个LLM作为控制器和许多专家模型作为协作执行者(来自HuggingFace Hub)。它工作流程包括四个阶段：任务规划、模型选择、任务执行和响应生成

Camel

Camel是”Communicative Agents for ‘Mind’ Exploration of Large Scale Language Models”的缩写，它提出了一种新颖的代理框架，即角色扮演，作为AutoGPT和AgentGPT的替代方案。Camel将游戏和大语言模型结合，主要包含2个部分：一个支持LLM的AI代理的简单的类似rpg的环境，通过OpenAI API将AI代理植入到游戏环境的角色中；另一个是使用AI代理进行角色扮演游戏

本文转载自: 掘金

开发者博客 – 和开发相关的这里全都有

AI Agent-知行合一大模型的局限 AI Agent