大模型、AI-Agent、langchain之间的关系

参考

https://zhuanlan.zhihu.com/p/657937696
https://zhuanlan.zhihu.com/p/665638691

概要

AI Agent是指人工智能代理（Artificial Intelligence Agent），是一种能够感知环境、进行决策和执行动作的智能实体。

大模型是AI-Agent（代理智能体）的大脑，langchain是快速构建AI-Agent的框架平台

Agent 其实基本就等于 “大模型 + 插件 + 执行流程 / 思维链”，分别会对应控制端 (Brain / 大脑)、感知端 (Preception)、执行端 (Action) 环节，如下，

不同于传统的人工智能，AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。AI Agent 和大模型的区别在于，大模型与人类之间的交互是基于 prompt 实现的，用户 prompt 是否清晰明确会影响大模型回答的效果。而 AI Agent 的工作仅需给定一个目标，它就能够针对目标独立思考并做出行动。和传统的 RPA 相比，RPA 只能在给定的情况条件下，根据程序内预设好的流程来进行工作的处理，而 AI Agent 则可以通过和环境进行交互，感知信息并做出对应的思考和行动。

图片架构

chatgpt只是一个单纯动嘴皮子的大脑，ai-agent可以进行一系列动作，不单单是动嘴皮子。

图1：LLM-based Agent的概念框架，由大脑、感知、行动三个部分组成。作为控制器，大脑模块承担记忆、思考和决策等基本任务；感知模块负责感知和处理来自外部环境的多模态信息；行动模块负责使用工具执行任务并影响周围环境。
一个基于大模型的 AI Agent 系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。AI Agent 可能会成为新时代的开端，其基础架构可以简单划分为 Agent = LLM + 规划技能 + 记忆 + 工具使用，其中 LLM 扮演了 Agent 的“大脑”，在这个系统中提供推理、规划等能力。本文主要介绍LLM-based Agent的总体概念框架，由大脑、感知、行动三个关键部分组成（见图1）。

图6：基于 LLM 的代理应用场景。我们主要介绍三种应用场景：单个代理部署、多代理交互和人与代理交互。单个代理拥有多种能力，在各种应用方向上都能表现出出色的任务解决能力。当多代理互动时，它们可以通过合作或对抗性互动取得进步。

流程

AI Agent 主要分为4个部分：

感知（Perception）

这是流程的第一步。AI 通过传感器、摄像头、麦克风等硬件，初步建立起对外部世界的感知。

输入（Inputs）：感知到的信息被输入到系统中。以上面的例子来说，“我有点不舒服”，这句话就被收音模块收集，并输入到系统中。

外部环境（Environment）：系统所在的环境或上下文。比如“我有点不舒服”这件事，会涉及到天气、环境等。

信息处理（Brain）

可以理解成通用大模型+N多个专业的知识库，用来处理信息。包含以下系统：

1）信息存储相关
记忆系统：包括Storage和Memory，用来存储长期和短期的数据。

比如长期数据是我这个人的基本信息、基础疾病等；

短期数据比如我家的布洛芬没有了。

知识库（Knowledge）：包括医学知识库等，可以根据我的症状诊断我当前的状态，以及后续治疗。

2）大模型对信息进行处理

基于感知的信息（input + Environment）、记忆、知识库等信息，进行加工处理，得出结论（Decision Making）：“我阳了”。

3）然后制定下一步计划（Planning）。

Action/Reasoning 是基于其决策的具体动作，但还没有实行。

要帮我写好请假条、帮我买药等。

执行（Action）

基于 Barin 一系列眼花缭乱的操作，得出了结论，制定了下一步计划，那就需要执行（Action）。

但是大模型本身是不能完成这些任务，这时候就会用调用第三方的工具（Tools 和Calling API），通过接口或者应用，与其他App进行互动，从而达到最终效果。

输出（output）

执行之后，会告诉你执行结果。比如小爱同学告诉你：“你阳了，已经帮你写好请假条，买好药了。”

以上就是AI Agent的工作原理。

总的来说，这个系统描述的是一个简化的模型，展示了是一个 AI Agent 如何从感知信息开始，经过一系列内部处理和决策，最终做出响应的过程。

展开

AI-Agent、大模型和LangChain之间的包含关系并不是简单的一层嵌套关系，它们在实际应用中更多的是相互配合和集成的关系：

大模型是AI-Agent实现智能功能的重要组成部分之一。在一个更广义的AI-Agent设计框架下，大模型可以作为处理自然语言理解和生成任务的关键模块，帮助AI-Agent理解用户输入、生成回复或进行复杂的文本推理。

AI-Agent 可能包含多个不同的组件，如感知模块（用于处理视觉、听觉等信息）、决策模块、行动模块以及知识处理模块（其中就可能使用到大模型）。因此，大模型是构建AI-Agent时的一个高级功能单元，而非直接包含于AI-Agent内，而是被集成在AI-Agent架构的不同层次上以提供NLP相关能力。

LangChain 作为一个工具包或框架，并不直接“包含”AI-Agent或者大模型，但它为管理和组织多个大模型协同工作提供了基础设施。通过LangChain，开发者可以更容易地构建更为复杂和智能化的系统，这些系统在某种程度上可以被视为具备高度智能交互能力的AI-Agent。在这种情况下，LangChain可以视为一个高层次的整合平台，在这个平台上可以设计和实现各种类型的AI-Agent，这些Agent能够高效利用多个大模型来执行其功能。

综上所述，AI-Agent可以看作是一个包含了多种技术手段（包括但不限于大模型）的整体解决方案；大模型是AI-Agent所使用的众多技术资源中的核心智能部件；而LangChain则是一个专门针对大模型优化集成和调用的开发框架，它为构建基于大模型的AI-Agent提供了便利。

当涉及具体的例子和代码时，需要明确一点：AI-agent、大模型和LangChain都是相对抽象的概念，它们在实际应用中可能涉及多种不同的技术和工具。因此，以下示例将尽量简化，并以一个假设的场景来说明它们之间的关系。假设我们要构建一个智能问答系统，其中AI-agent负责与用户交互，大模型用于提供强大的自然语言处理能力，而LangChain作为框架帮助我们整合这些组件。首先，我们需要一个大模型来处理自然语言。在这个例子中，我们可以使用预训练的语言模型，如GPT-3。GPT-3是一个具有大量参数和复杂结构的语言模型，它可以生成连贯的文本并回答各种问题。接下来，我们可以使用LangChain来构建应用程序。LangChain提供了一套工具和组件，可以帮助我们更高效地与大模型进行交互。在这个例子中，我们可以使用LangChain的API来调用GPT-3模型，并将用户的输入传递给模型进行处理。以下是一个简化的示例代码，展示了如何使用LangChain调用GPT-3模型进行问答：pythonimport langchain# 假设我们已经设置了GPT-3的API密钥和访问权限api_key = "your_gpt3_api_key"# 创建一个LangChain的LLM（Large Language Model）实例llm = langchain.LLM(llm_name="GPT-3", api_key=api_key)# 定义一个简单的问答函数def ask_question(question):# 使用LangChain的LLM实例调用GPT-3模型response = llm.generate(question)return response# 用户输入问题question = "你好，请问今天天气怎么样？"# 调用问答函数获取回答answer = ask_question(question)# 打印回答print(answer)需要注意的是，上述代码只是一个简化的示例，实际应用中可能需要更多的设置和配置。此外，LangChain本身并不直接包含GPT-3模型，而是通过API调用与GPT-3进行交互。至于AI-agent的部分，在这个示例中，我们可以将问答系统看作是一个简单的AI-agent。它接收用户的输入（问题），使用大模型（GPT-3）进行处理，并返回回答作为输出。AI-agent在这个过程中扮演了与用户进行交互和决策执行的角色。请注意，以上代码仅用于演示目的，并且可能需要进一步的调整和适配才能在实际环境中运行。具体的实现方式还可能取决于所使用的库、框架和API的具体要求。