什么是 Agent Skills?

Agent Skills = 智能体为了完成复杂目标,所具备的一组“可组合、可调用、可执行”的能力模块它不是 Prompt 本身,而是:感知 + 思考 + 规划 + 执行 + 反思 的能力集合如果把大模型比作「大脑」,那 Agent Skills 就是它的“手、眼、工具箱和工作流”。一、Agent 的整体能力架构(先看

作者:lh

Agent Skills = 智能体为了完成复杂目标,所具备的一组“可组合、可调用、可执行”的能力模块

它不是 Prompt 本身,而是:
感知 + 思考 + 规划 + 执行 + 反思 的能力集合

如果把大模型比作「大脑」,那 Agent Skills 就是它的“手、眼、工具箱和工作流”



一、Agent 的整体能力架构(先看全景)

一个成熟 Agent,通常具备这 6 大类 skills:

感知(Perception)
  ↓
理解(Understanding)
  ↓
规划(Planning)
  ↓
执行(Action / Tool Use)
  ↓
记忆(Memory)
  ↓
反思(Reflection / Self-Improvement)

下面我逐类给你讲,每一类都配 工程级解释 + 真实例子



二、核心 Agent Skills 详解(重点)



感知类 Skills(Perception Skills)

本质

Agent 获取外部世界信息的能力

不仅是“读文本”,而是多模态 + 状态感知。

常见能力

  • 文本理解(自然语言)
  • 结构化数据解析(JSON / 表格)
  • 文件感知(PDF / Excel / 代码)
  • 多模态感知(图片 / 音频 / 视频)
  • 环境状态感知(API 返回 / 数据库状态)

工程体现

def perception(input):
    text = parse_text(input)
    files = parse_files(input)
    state = get_env_state()
    return Observation(text, files, state)

例子

财务 Agent:
  • 读取 PDF 财报
  • 解析表格
  • 获取股票 API 当前价格
  • 感知用户的历史偏好


理解与建模 Skills(Understanding)

本质

把“原始输入”转成 可推理的内部表示

不是简单 embedding,而是:

  • 意图识别
  • 任务类型判断
  • 约束提取
  • 上下文建模

常见能力

  • 意图分类(问答 / 规划 / 执行)
  • 任务分解(这个问题到底要干啥)
  • 实体识别(人 / 时间 / 地点 / 金额)
  • 约束识别(预算、时限、规则)

例子

用户说:

“帮我分析这家公司值不值得长期持有”

Agent 内部理解:

{
  "task": "investment_analysis",
  "horizon": "long_term",
  "constraints": ["risk_control"],
  "required_tools": ["financial_data", "valuation_model"]
}


规划 Skills(Planning)⭐(Agent 的灵魂)

本质

把一个模糊目标,拆成可执行步骤

这是 Agent ≠ ChatBot 的关键。



常见规划能力

  • 子任务分解(Task Decomposition)
  • 顺序规划(Step-by-step)
  • 条件规划(If / Else)
  • 多路径规划(Plan A / B / C)
  • 动态重规划(失败后调整)

常见规划方式

① ReAct(思考 + 行动)

Thought → Action → Observation → Thought → ...

② Plan-and-Execute

生成完整计划 → 按步骤执行 → 监控

③ Tree / Graph Planning

  • 多分支尝试
  • 适合复杂决策(如投资、博弈)


例子(真实)

目标:“帮我做一个金融问答系统”

规划结果:

  1. 明确数据类型(PDF / CSV / API)
  2. 选择向量库
  3. 设计分块策略
  4. 选择模型
  5. 设计评估方式
  6. 部署


执行 / 工具调用 Skills(Action Skills)🔥

本质

Agent 真正“干活”的能力

大模型负责“想”,工具负责“做”。



常见 Action 类型

  • API 调用
  • 数据库查询
  • 代码执行
  • 文件读写
  • 调用其他 Agent
  • 调用模型(多模型协作)

工程实现

tools = {
  "search": web_search,
  "sql": run_sql,
  "python": run_python,
}

action = agent.decide_action()
result = tools[action.name](action.args)

关键点

  • Tool Schema(严格输入输出)
  • Tool Selection(选哪个工具)
  • Tool Error Handling(失败重试)
  • Tool Chaining(多工具串联)


例子

Agent 自动:
  • 查财报
  • 算指标
  • 画图
  • 输出结论

这一步,ChatGPT 本身是做不到的,Agent 可以。



记忆 Skills(Memory)🧠

本质

让 Agent 不再“失忆”


记忆分类

① 短期记忆(Working Memory)

  • 当前任务上下文
  • Token 窗口内

② 长期记忆(Long-term Memory)

  • 用户偏好
  • 历史结论
  • 已完成任务
  • 知识库(RAG)

③ 情景记忆(Episodic)

  • “我之前帮你分析过这家公司”


工程实现

  • Vector DB(Milvus / FAISS)
  • Key-Value Store
  • Memory Summarization
  • Memory Retrieval Policy


反思 / 自我改进 Skills(Reflection)

本质

Agent 能发现自己哪里做错了,并改进

这是高级 Agent 的标志。



常见能力

  • 结果评估(是否完成目标)
  • 错误归因
  • 策略调整
  • Prompt / Plan 优化

示例

本次回答缺少数据支撑
→ 下次必须先调用 financial_api


三、Agent Skills 在工程中的真实形态


能力在代码中是什么
感知Input Parser
理解Intent / Schema
规划Planner / Controller
执行Tool Executor
记忆Vector DB / Cache
反思Evaluator / Critic


四、Agent vs 普通大模型(你可以这么理解)


对比项Chat 模型Agent
是否有目标
是否会规划
是否能调用工具限制
是否能持续执行
是否能自我修正


五、你现在最该掌握的 Agent Skills(建议路线)

结合你AI + 工程背景,我建议你重点抓:

1️⃣ 规划能力(Plan / ReAct)

2️⃣ Tool Calling 设计能力

3️⃣ Memory + RAG 融合

4️⃣ 多 Agent 协作(Agent Team)