什么是 Agent Skills？

Agent Skills = 智能体为了完成复杂目标，所具备的一组“可组合、可调用、可执行”的能力模块它不是 Prompt 本身，而是：感知 + 思考 + 规划 + 执行 + 反思的能力集合如果把大模型比作「大脑」，那 Agent Skills 就是它的“手、眼、工具箱和工作流”。一、Agent 的整体能力架构（先看

作者：lh

2026-01-27T20:21:53.060947

Agent Skills = 智能体为了完成复杂目标，所具备的一组“可组合、可调用、可执行”的能力模块

它不是 Prompt 本身，而是：
感知 + 思考 + 规划 + 执行 + 反思 的能力集合

如果把大模型比作「大脑」，那 Agent Skills 就是它的“手、眼、工具箱和工作流”。

一、Agent 的整体能力架构（先看全景）

一个成熟 Agent，通常具备这 6 大类 skills：

感知（Perception）
  ↓
理解（Understanding）
  ↓
规划（Planning）
  ↓
执行（Action / Tool Use）
  ↓
记忆（Memory）
  ↓
反思（Reflection / Self-Improvement）

下面我逐类给你讲，每一类都配 工程级解释 + 真实例子。

二、核心 Agent Skills 详解（重点）

感知类 Skills（Perception Skills）

本质

Agent 获取外部世界信息的能力

不仅是“读文本”，而是多模态 + 状态感知。

常见能力

文本理解（自然语言）
结构化数据解析（JSON / 表格）
文件感知（PDF / Excel / 代码）
多模态感知（图片 / 音频 / 视频）
环境状态感知（API 返回 / 数据库状态）

工程体现

def perception(input):
    text = parse_text(input)
    files = parse_files(input)
    state = get_env_state()
    return Observation(text, files, state)

例子

财务 Agent：

读取 PDF 财报
解析表格
获取股票 API 当前价格
感知用户的历史偏好

理解与建模 Skills（Understanding）

本质

把“原始输入”转成可推理的内部表示

不是简单 embedding，而是：

意图识别
任务类型判断
约束提取
上下文建模

常见能力

意图分类（问答 / 规划 / 执行）
任务分解（这个问题到底要干啥）
实体识别（人 / 时间 / 地点 / 金额）
约束识别（预算、时限、规则）

例子

用户说：

“帮我分析这家公司值不值得长期持有”

Agent 内部理解：

{
  "task": "investment_analysis",
  "horizon": "long_term",
  "constraints": ["risk_control"],
  "required_tools": ["financial_data", "valuation_model"]
}

规划 Skills（Planning）⭐（Agent 的灵魂）

本质

把一个模糊目标，拆成可执行步骤

这是 Agent ≠ ChatBot 的关键。

常见规划能力

子任务分解（Task Decomposition）
顺序规划（Step-by-step）
条件规划（If / Else）
多路径规划（Plan A / B / C）
动态重规划（失败后调整）

常见规划方式

① ReAct（思考 + 行动）

Thought → Action → Observation → Thought → ...

② Plan-and-Execute

生成完整计划 → 按步骤执行 → 监控

③ Tree / Graph Planning

多分支尝试
适合复杂决策（如投资、博弈）

例子（真实）

目标：“帮我做一个金融问答系统”

规划结果：

明确数据类型（PDF / CSV / API）
选择向量库
设计分块策略
选择模型
设计评估方式
部署

执行 / 工具调用 Skills（Action Skills）🔥

本质

Agent 真正“干活”的能力

大模型负责“想”，工具负责“做”。

常见 Action 类型

API 调用
数据库查询
代码执行
文件读写
调用其他 Agent
调用模型（多模型协作）

工程实现

tools = {
  "search": web_search,
  "sql": run_sql,
  "python": run_python,
}

action = agent.decide_action()
result = tools[action.name](action.args)

关键点

Tool Schema（严格输入输出）
Tool Selection（选哪个工具）
Tool Error Handling（失败重试）
Tool Chaining（多工具串联）

例子

Agent 自动：

查财报
算指标
画图
输出结论

这一步，ChatGPT 本身是做不到的，Agent 可以。

记忆 Skills（Memory）🧠

本质

让 Agent 不再“失忆”

记忆分类

① 短期记忆（Working Memory）

当前任务上下文
Token 窗口内

② 长期记忆（Long-term Memory）

用户偏好
历史结论
已完成任务
知识库（RAG）

③ 情景记忆（Episodic）

“我之前帮你分析过这家公司”

工程实现

Vector DB（Milvus / FAISS）
Key-Value Store
Memory Summarization
Memory Retrieval Policy

反思 / 自我改进 Skills（Reflection）

本质

Agent 能发现自己哪里做错了，并改进

这是高级 Agent 的标志。

常见能力

结果评估（是否完成目标）
错误归因
策略调整
Prompt / Plan 优化

示例

本次回答缺少数据支撑
→ 下次必须先调用 financial_api

三、Agent Skills 在工程中的真实形态

能力	在代码中是什么
感知	Input Parser
理解	Intent / Schema
规划	Planner / Controller
执行	Tool Executor
记忆	Vector DB / Cache
反思	Evaluator / Critic

四、Agent vs 普通大模型（你可以这么理解）

对比项	Chat 模型	Agent
是否有目标	❌	✅
是否会规划	❌	✅
是否能调用工具	限制	强
是否能持续执行	❌	✅
是否能自我修正	❌	✅

五、你现在最该掌握的 Agent Skills（建议路线）

结合你AI + 工程背景，我建议你重点抓：

1️⃣ 规划能力（Plan / ReAct）

2️⃣ Tool Calling 设计能力

3️⃣ Memory + RAG 融合

4️⃣ 多 Agent 协作（Agent Team）