什么是 Agent Skills?
Agent Skills = 智能体为了完成复杂目标,所具备的一组“可组合、可调用、可执行”的能力模块它不是 Prompt 本身,而是:感知 + 思考 + 规划 + 执行 + 反思 的能力集合如果把大模型比作「大脑」,那 Agent Skills 就是它的“手、眼、工具箱和工作流”。一、Agent 的整体能力架构(先看
作者:lh
Agent Skills = 智能体为了完成复杂目标,所具备的一组“可组合、可调用、可执行”的能力模块
它不是 Prompt 本身,而是:
感知 + 思考 + 规划 + 执行 + 反思 的能力集合
如果把大模型比作「大脑」,那 Agent Skills 就是它的“手、眼、工具箱和工作流”。
一、Agent 的整体能力架构(先看全景)
一个成熟 Agent,通常具备这 6 大类 skills:
感知(Perception)
↓
理解(Understanding)
↓
规划(Planning)
↓
执行(Action / Tool Use)
↓
记忆(Memory)
↓
反思(Reflection / Self-Improvement)
下面我逐类给你讲,每一类都配 工程级解释 + 真实例子。
二、核心 Agent Skills 详解(重点)
感知类 Skills(Perception Skills)
本质
Agent 获取外部世界信息的能力
不仅是“读文本”,而是多模态 + 状态感知。
常见能力
- 文本理解(自然语言)
- 结构化数据解析(JSON / 表格)
- 文件感知(PDF / Excel / 代码)
- 多模态感知(图片 / 音频 / 视频)
- 环境状态感知(API 返回 / 数据库状态)
工程体现
def perception(input):
text = parse_text(input)
files = parse_files(input)
state = get_env_state()
return Observation(text, files, state)
例子
财务 Agent:
- 读取 PDF 财报
- 解析表格
- 获取股票 API 当前价格
- 感知用户的历史偏好
理解与建模 Skills(Understanding)
本质
把“原始输入”转成 可推理的内部表示
不是简单 embedding,而是:
- 意图识别
- 任务类型判断
- 约束提取
- 上下文建模
常见能力
- 意图分类(问答 / 规划 / 执行)
- 任务分解(这个问题到底要干啥)
- 实体识别(人 / 时间 / 地点 / 金额)
- 约束识别(预算、时限、规则)
例子
用户说:
“帮我分析这家公司值不值得长期持有”
Agent 内部理解:
{
"task": "investment_analysis",
"horizon": "long_term",
"constraints": ["risk_control"],
"required_tools": ["financial_data", "valuation_model"]
}
规划 Skills(Planning)⭐(Agent 的灵魂)
本质
把一个模糊目标,拆成可执行步骤
这是 Agent ≠ ChatBot 的关键。
常见规划能力
- 子任务分解(Task Decomposition)
- 顺序规划(Step-by-step)
- 条件规划(If / Else)
- 多路径规划(Plan A / B / C)
- 动态重规划(失败后调整)
常见规划方式
① ReAct(思考 + 行动)
Thought → Action → Observation → Thought → ...
② Plan-and-Execute
生成完整计划 → 按步骤执行 → 监控
③ Tree / Graph Planning
- 多分支尝试
- 适合复杂决策(如投资、博弈)
例子(真实)
目标:“帮我做一个金融问答系统”
规划结果:
- 明确数据类型(PDF / CSV / API)
- 选择向量库
- 设计分块策略
- 选择模型
- 设计评估方式
- 部署
执行 / 工具调用 Skills(Action Skills)🔥
本质
Agent 真正“干活”的能力
大模型负责“想”,工具负责“做”。
常见 Action 类型
- API 调用
- 数据库查询
- 代码执行
- 文件读写
- 调用其他 Agent
- 调用模型(多模型协作)
工程实现
tools = {
"search": web_search,
"sql": run_sql,
"python": run_python,
}
action = agent.decide_action()
result = tools[action.name](action.args)
关键点
- Tool Schema(严格输入输出)
- Tool Selection(选哪个工具)
- Tool Error Handling(失败重试)
- Tool Chaining(多工具串联)
例子
Agent 自动:
- 查财报
- 算指标
- 画图
- 输出结论
这一步,ChatGPT 本身是做不到的,Agent 可以。
记忆 Skills(Memory)🧠
本质
让 Agent 不再“失忆”
记忆分类
① 短期记忆(Working Memory)
- 当前任务上下文
- Token 窗口内
② 长期记忆(Long-term Memory)
- 用户偏好
- 历史结论
- 已完成任务
- 知识库(RAG)
③ 情景记忆(Episodic)
- “我之前帮你分析过这家公司”
工程实现
- Vector DB(Milvus / FAISS)
- Key-Value Store
- Memory Summarization
- Memory Retrieval Policy
反思 / 自我改进 Skills(Reflection)
本质
Agent 能发现自己哪里做错了,并改进
这是高级 Agent 的标志。
常见能力
- 结果评估(是否完成目标)
- 错误归因
- 策略调整
- Prompt / Plan 优化
示例
本次回答缺少数据支撑
→ 下次必须先调用 financial_api
三、Agent Skills 在工程中的真实形态
| 能力 | 在代码中是什么 |
|---|---|
| 感知 | Input Parser |
| 理解 | Intent / Schema |
| 规划 | Planner / Controller |
| 执行 | Tool Executor |
| 记忆 | Vector DB / Cache |
| 反思 | Evaluator / Critic |
四、Agent vs 普通大模型(你可以这么理解)
| 对比项 | Chat 模型 | Agent |
|---|---|---|
| 是否有目标 | ❌ | ✅ |
| 是否会规划 | ❌ | ✅ |
| 是否能调用工具 | 限制 | 强 |
| 是否能持续执行 | ❌ | ✅ |
| 是否能自我修正 | ❌ | ✅ |
五、你现在最该掌握的 Agent Skills(建议路线)
结合你AI + 工程背景,我建议你重点抓:
1️⃣ 规划能力(Plan / ReAct)
2️⃣ Tool Calling 设计能力
3️⃣ Memory + RAG 融合
4️⃣ 多 Agent 协作(Agent Team)