返回博客
从一个词元,到驾驭一支智能体团队
知识

从一个词元,到驾驭一支智能体团队

大模型会理解、会生成,但企业要的往往是跨系统执行。本文用"词元→技能→智能体→驾驭框架"四级结构,解释 AI 怎样从会说话变成会做事,以及什么时候该上智能体,什么时候不该。

最近一个企业客户提了个需求:销售和客服每天在微信、邮件、电话纪要里留下大量客户沟通信息,能不能让 AI 自动把关键内容录进 ERP,再从 ERP 拉出订单、开票、回款数据,整理后导入财务系统?

企业要的不是"AI 会不会总结",而是"它能不能把事做完"。

模型本身做不到。它能读懂对话、抽取字段、写跟进摘要、判断客户风险,但从"理解客户沟通"到"写入 ERP",再到"按财务口径整理并导入财务系统",中间每一步都涉及工具调用、主数据匹配、流程约束、异常回退和结果校验。少一层,系统就只能停在演示里。

真正卡住验收的,往往不是模型回答质量,而是最后几步系统动作做不了。演示阶段,模型像一个很会说的实习生;验收阶段,业务要的是能跨部门、跨系统、按规则完成工作的执行团队。

企业缺的不是再多一个提示词,也不是换一个更大的模型,而是把模型的原始智能逐级组织成业务结果的工程体系。拆成四级递进:

词元 → 技能 → 智能体 → 智能体驾驭框架

四级递进:从原始智能到生产级执行

从词元到智能体团队:四级递进架构

第一级:词元,模型的原始智能

词元是大模型处理信息的最小单位。文本、表格、图片,最后都会变成词元,再由模型去理解、推理和生成。

词元还有另一层含义:AI 成本的计量单位。近一年推理成本持续下降,企业越来越敢把更多文档、对话、报表交给模型处理。词元正在变成一种越来越便宜的"智能燃料"。

但燃料不是结果。

把 20 页客户沟通纪要喂给模型,它可以总结得很好;把 ERP 导入模板贴给它,它也能猜出字段含义;让它分析回款风险,它还能说出一套像样的判断。可这些能力加在一起,仍然不等于"把客户信息正确写进系统,再把财务数据按另一套口径整理出去"。

词元解决的是"理解和生成",不是"交付和执行"。 就像汽油能驱动引擎,但汽油本身不会帮你把货送到目的地——中间还需要变速箱、方向盘和导航系统。

第二级:技能,把零散能力打包成可靠动作

为什么模型明明"看懂了",企业还是不敢让它直接写 ERP?

因为从理解到执行,中间至少缺四样东西:

  • 工具:能调 ERP、能读订单、能生成财务导入文件。
  • 知识:知道客户名称怎么对主数据、字段怎么映射、哪些财务科目不能碰。
  • 流程:先抽取、再匹配、再写入、再复核,异常时退到哪一步。
  • 验证:写进去的客户编号对不对、金额口径对不对、是否重复录入。

这四样东西不能靠临场发挥,得被打包成可复用单元。这就是技能

打个比方:一个好厨师可以随机应变做出一道菜,但连锁餐厅靠的不是天才厨师,而是一套经过验证的标准菜谱——原料清单、操作步骤、出品标准、异常处理全写死。技能就是企业给 AI 的标准菜谱,把工具、知识、流程和验证绑在一起,让模型不是"猜着做",而是"按菜谱做"。

技能层:把工具、知识、流程、验证打包成可复用动作

放到客户沟通入账场景里,一个像样的"客户沟通入账"技能至少包括:

  • 工具层:企业微信/邮件纪要读取、ERP 接口、财务导入模板生成器。
  • 知识层:客户主数据映射、商机阶段定义、发票与回款口径、财务系统字段规则。
  • 流程层:提取沟通信息 → 匹配客户 → 生成 ERP 草稿 → 拉取订单/开票/回款 → 转成财务模板。
  • 验证层:客户是否存在、金额是否冲突、是否重复写入、哪些异常必须转人工。

企业真正要建设的,不是"一个更聪明的模型",而是一条被反复验证过的做事路径

再比如法务合同审核:模型能读懂条款、能提炼风险点,但没有技能层,它做不了后面的事——按模板提取关键条款、补齐审批字段、匹配合同类型、选择法务流转路径、把高风险条款打回人工。模型会说,不代表流程会走。

技能怎么做出来

一个能上线的技能,通常经历四步:

  1. 先配工具。 没有可调用的系统接口,后面全是空谈。
  2. 再学业务。 真正值钱的知识往往在一线运营、财务、法务手里,不在文档标题里。
  3. 做对照验证。 同一批真实样本,同时跑"有技能"和"无技能"两组,验证字段准确率、流程完整率、异常拦截率。
  4. 补边界和异常。 不是只看主流程通不通,更要看客户重名、金额冲突、字段缺失、系统超时这些边缘情况。

技能的价值,本质上是在企业里复制"一个做熟了这件事的人"。

第三级:智能体,让系统自己选路

当一个系统不只掌握一项技能,而且能根据目标、上下文和当前状态,自主决定调用哪项技能、按什么顺序执行时,它才进入智能体阶段。

一个重要区别:

  • 工作流是人把路径先写死,模型只负责走。
  • 智能体是模型根据现场情况动态选路、调用工具、修正步骤。

类比一下:工作流像地铁,线路固定、准点、高效,但只能去它经过的站;智能体像出租车,能去任何地方,但贵、慢,还可能绕路。能坐地铁到的地方,没必要打车。只有在目的地不确定、路况多变的时候,才需要出租车的灵活性。

当一个复杂任务被拆成多个角色,系统就不再是"一个智能体",而是一支智能体团队

还是用客户沟通入账这个场景举例。更稳的设计不会让一个大而全的智能体包完所有事,而是拆成三个角色:

  1. 信息录入智能体:从客户沟通里提取结构化信息,生成 ERP 写入草稿。
  2. 数据整理智能体:从 ERP 拉订单、开票、回款数据,按财务模板整理。
  3. 审核智能体:检查缺字段、金额异常、重复客户、跨系统口径冲突,决定自动提交还是转人工。

能力不再只来自单个模型,而是来自分工、协作和交接

智能体团队:多角色协作完成跨系统任务

智能体团队协作流程:客户沟通→ERP→财务系统

企业落地通常经历三步演化:

  • 静态工作流:模型按固定步骤执行。可控,但一变就脆。
  • 半动态智能体:模型在关键节点做有限决策。灵活一些,但边界必须先画清楚。
  • 智能体团队:多角色协作完成复杂任务。覆盖面更强,但必须被驾驭。

最容易踩的坑:把"多开几个智能体"误以为"做成了智能体团队"。真正的团队,不是角色越多越好,而是每个角色的职责、输入、输出和升级路径都清楚

第四级:驾驭框架,决定能不能进生产

技能解决"会不会做",智能体解决"能不能自己选路",驾驭框架解决"能不能稳定交付"。

心理学家乔纳森·海特有一个经典比喻:人的理性像骑在大象背上的骑手——大象力大无穷、本能驱动,骑手负责方向和边界。智能体就是那头大象:能穿越复杂地形、能搬动沉重任务,但如果没有骑手,它可能踩坏庄稼、走错方向、甚至伤到自己人。驾驭框架就是骑象人:不负责出力,但负责方向、节奏和止步线。

骑象人手里有四根缰绳:

1. 护栏:哪些动作可以做,哪些绝对不能做

  • 没有人审的情况下,不能直接改财务主数据;
  • 涉及开票、付款、合同归档等敏感动作,必须进入审批链;
  • 超过成本、时长、调用次数上限时,任务自动终止;
  • 能调用哪些系统、哪些接口、哪些账号权限,必须白名单化。

没有护栏,智能体越能干,风险越大。

2. 反馈环:做完一步就验一步

企业最怕的不是智能体失败,而是它悄悄地错

比如 ERP 写入成功了,但客户编号写错;财务模板生成了,但税率字段口径不一致;合同摘要抽出来了,但审批流选错了。没有反馈环,这些错误会沿着流程一直传下去,最后在更贵的环节爆掉。

生产级系统必须做到:执行一步,验证一步;发现异常,自行修正或升级人工;通过后再走下一步。

3. 上下文与状态管理:让团队记得住关键事实

单轮对话里的模型擅长"当下理解";企业流程里的智能体必须擅长"持续记账"。

同一个任务跑几十步之后,哪些信息要保留,哪些历史要压缩,哪些状态要持久化,哪些子任务要放进独立上下文——不能靠模型自己记。否则跑着跑着,前面提取的客户主数据忘了,后面写入系统时就开始漂。

4. 可观测性:每一步都能追溯、复盘、问责

只要智能体开始碰企业系统,审计就不是附加项,而是基础设施。

必须知道:它什么时候调了哪个接口、为什么选了这条路径、哪一步触发了异常、哪些结果是自动提交的、哪些是人工确认的。

没有可观测性,业务团队不敢用,合规团队不会放行,技术团队也没法定位问题。

模型决定上限,驾驭框架决定下限。 企业真正买单的不是"最会说的那个模型",而是"这套系统能不能稳定、可追溯、可控地做完事情"。

驾驭框架四层控制:护栏、反馈环、状态管理、可观测性

两个场景验证

场景一:客户沟通信息自动入 ERP,再流向财务系统

难点在跨系统执行。

一份客户沟通纪要里,可能同时出现客户名称、采购意向、预计签约时间、特殊折扣、回款风险、发票要求。模型先抽取这些信息,再和 ERP 里的客户主数据做匹配。如果客户名称有简称、别名、历史版本,还要先做归一化。写入 ERP 后,又要从 ERP 拉出订单、开票、回款状态,按财务系统的字段规范整理成另一套导入模板。

任何一处错配,都会直接污染业务系统。考验的是:能不能连对系统、识别异常、在高风险动作前停下来、留下完整的审计记录。

场景二:合同关键条款提取,再发起法务审批

表面像"文档理解",实际是"理解 + 流转"。

模型可以从合同里提取付款条款、违约责任、交付节点、续约条件,但企业真正要的是:按合同类型补齐审批字段、自动选择流转路径、高风险条款打标、低风险合同进快审通道、不确定项交给法务复核。

业务最终买单的不是"摘要写得像不像人",而是审批能不能更快、更稳、更可控地跑起来

什么时候不该上智能体

不是所有问题都值得做成智能体,更不是所有问题都值得上多智能体。

四种情况先别急着上:

  1. 流程非常确定。 条件分支加几条规则就能写清楚,智能体通常是过度工程。
  2. 系统基础太乱。 ERP、财务、CRM 连字段定义都不统一,上智能体只会把脏数据更快地放大。
  3. 没有验证和回滚。 写错之后没人知道、也撤不回来,先把护栏补齐。
  4. 业务责任人不清楚。 没人定义什么算成功、什么要转人工、什么能自动提交,系统一定会在验收时出问题。

务实的判断标准:

  • 核心结构化字段准确率低于 95%,先不要自动写系统;
  • 高风险动作没有人工审批链,先不要放权;
  • 相比人工基线,整体流程时长降幅不到 30%,先别急着扩大范围;
  • 异常单没有明确升级路径,先别做"自动闭环"。

企业真正需要的,不是把智能体尽快上线,而是把智能体放在该做、能做、做错了也可控的位置上。

回到最初的问题

为什么一个模型明明会总结、会提取、会分析,却还是做不了"客户沟通入 ERP,再同步财务系统"这类业务动作?

因为从词元到结果,中间隔着四道台阶:

  • 词元:解决理解和生成,给企业原始智能。
  • 技能:把工具、知识、流程、验证打包,给企业可复用动作。
  • 智能体:让系统根据现场情况自主选路,给企业可执行流程。
  • 驾驭框架:让执行过程可控、可追溯、可升级,给企业可上线能力。

从一个词元到驾驭一支智能体团队,跨越的不是"模型够不够聪明",而是企业有没有把智能组织成结果的工程能力


参考资料

  1. https://www.anthropic.com/research/building-effective-agents
  2. https://www.anthropic.com/engineering/writing-tools-for-agents
  3. https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
  4. https://www.philschmid.de/agent-harness-2026
  5. https://github.com/anthropics/skills/tree/main/skills/skill-creator
  6. https://www.deeplearning.ai/courses/agentic-ai/