跳到主要内容

Agent 能力分级

学习目标

完成本节后,你将能够:

  • 用分层思路描述不同 Agent 的能力边界
  • 区分“会回答”、“会调用工具”、“会多步完成任务”之间的差异
  • 根据任务复杂度选择更合适的系统形态
  • 用一个小例子练习任务所需能力等级判断

一、为什么要给 Agent 分级?

1.1 因为“Agent”这个词太容易被说大

有些系统只是:

  • 会调用一个工具

有些系统则可以:

  • 多步规划
  • 记住状态
  • 协同多个工具

如果都叫 Agent,就会混淆很多概念。

1.2 分级的意义在于更诚实地描述系统能力

它能帮助你回答:

  • 这个系统到底能做什么?
  • 它是稳定工作流,还是灵活智能体?
  • 它的问题更可能出在哪一层?

二、一个实用的能力分级框架

2.1 L0:纯回答型

特点:

  • 能根据输入生成回答
  • 基本不主动调用工具
  • 更像聊天模型

例子:

  • 普通问答机器人
  • 纯 Prompt 生成器

2.2 L1:单工具执行型

特点:

  • 能根据问题选择一个工具
  • 一次调用后直接回答

例子:

  • 查天气助手
  • 计算器助手
  • 单次检索问答

三、再往上一层

3.1 L2:多步工具协同型

特点:

  • 会做两步以上动作
  • 能根据中间结果决定下一步

例子:

  • 先查订单,再查退款政策,再给结论
  • 先搜资料,再总结成报告

3.2 L3:目标驱动型

特点:

  • 接收一个较高层目标
  • 自己组织一段执行流程
  • 可能带状态管理和失败重试

例子:

  • 自动研究助理
  • 自动数据分析助手
  • 自动代码修复流程

四、更高层能力通常意味着更高风险

4.1 L4:长时运行 / 多 Agent / 强自治

特点:

  • 能运行较长任务链
  • 可能调多个工具、多个子 Agent
  • 有记忆、计划、回顾机制

这类系统听起来最酷,但也最难工程化。

4.2 能力越高,不代表越适合你的任务

因为能力提升往往伴随:

  • 成本更高
  • 调试更难
  • 出错路径更多

所以正确思路通常不是“越高越好”,而是:

用刚刚够用的那一级。


五、一张能力分级速查表

等级核心能力典型系统
L0纯回答聊天问答
L1单工具调用天气 / 计算 / 单次检索
L2多步执行先查再算、先搜再写
L3目标驱动研究助理、数据分析助手
L4长时自治 / 多 Agent复杂自动化团队系统

六、一个小练习:给任务分等级

6.1 可运行示例

tasks = [
"回答:什么是 RAG?",
"查一下北京天气",
"先查退款政策,再判断我是否满足条件",
"根据销售数据自动生成周报并发邮件"
]

def recommend_level(task):
if "先查" in task and "再" in task:
return "L2"
if "自动生成周报" in task or "发邮件" in task:
return "L3"
if "查一下" in task:
return "L1"
return "L0"

for task in tasks:
print(task, "-> 推荐能力等级:", recommend_level(task))

这当然是简化版,但它能帮你建立一个非常实用的习惯:

先判断任务需要哪个能力等级,再决定系统怎么做。


七、怎么从低一级往上升级?

7.1 从 L0 到 L1

关键是加上:

  • 工具接口
  • 参数生成
  • 工具结果回填

7.2 从 L1 到 L2

关键是加上:

  • 中间状态
  • 多步执行
  • 动作间依赖

7.3 从 L2 到 L3

关键是加上:

  • 任务拆解
  • 子目标管理
  • 错误恢复

越往上,越像在做“小型操作系统”。


八、工程上怎么避免“能力吹过头”?

8.1 先给系统设边界

例如:

  • 最多执行几步
  • 最多调用几个工具
  • 哪些任务必须人工确认

8.2 先用最小能力上线

很多系统一开始其实只需要:

  • L1 或 L2

如果一上来就做 L4,往往会陷入:

  • 太复杂
  • 太贵
  • 太不稳

九、初学者常见误区

9.1 以为有工具调用就是高级 Agent

会调一个工具,通常最多只是 L1。

9.2 以为越多步骤越智能

步骤变多,有时只是错误路径变多。

9.3 不区分任务等级就乱堆架构

这是很多 Agent 项目难落地的原因之一。


小结

这一节最重要的认识是:

Agent 的能力不是一个开关,而是一条连续的等级带。

学会分级,你就更容易做出稳妥的架构判断,也更不容易被“全自动智能体”这种说法带偏。


练习

  1. 自己列出 5 个任务,给它们分别判断更适合 L0、L1、L2 还是 L3。
  2. 想一想:你的某个真实项目,为什么不一定需要上到 L3 / L4?
  3. 如果一个系统经常调用错工具,它更像是哪个能力层级出了问题?