我们需要更多 7x24 自主干活的 Agent

2026-05-16 | 阅读用时: 8分钟

这是我最近的一个内部分享。想法写出来才容易得到反馈，所以也记在这里。

我们重度使用 agent，不过是以“附庸”的形式

我们明明已经如此重度使用 AI agent 了，为什么还总觉得团队不够 Agent Native 呢？

我们几乎每个人都在重度使用各种 agents，比如 Claude Code、Codex、OpenClaw、Manus……几乎每个人都在使用 agent，甚至很多人同时在使用多个 agent。在工作里我们也无时无刻不在深度依赖 agent 的帮助，甚至离开 agent 就没法完成日常任务。

实际上，我们仍然在把 agent 当成一个效率工具，一个运行在各自电脑上的工作软件，经验、技能和记忆都沉淀在各自的本地环境里。这造成了很多我们没有察觉到的问题，比如我在团队里经常听到这样的谈话：

“我教会了我的 agent 做这件事，我把 skill 发给你，你也装一下。”

“这个事情我的 agent 最熟，你的 agent 先别乱动，不然会冲突。”

我认为我们存在一个关键问题：我们工作中的大部分 agent，现在仍然只是某个人的“附庸”。

虽然 agent 很大地拓展了我们的个人能力，但站在团队整体来看，这还远远不够极致的。

Agent 应该是团队的第一公民

我觉得更理想的状态是，agent 应该成为团队里的第一公民。

所谓第一公民，不是说它有多么拟人，而是它不再只是某一个人的工具。它应该可以平等地和任何团队成员合作。它的技能、记忆和经验，也应该服务于整个团队。

它经手的事情越多，就越理解团队的业务、系统、历史问题和实践方式。最后，它不只是会处理任务，而是真的知道“我们平时是怎么做事的”。它应该是团队里的一员，我们的同事。

不属于某一个人
可以与任何团队成员开展合作
技能和记忆为团队整体服务
最了解它所有经手的工作

其实我们已经看到一些苗头了。

比如我们有个群聊机器人，它可以访问我们各种数据平台。大家想看业务数据的时候，第一反应不是去后台点来点去，而是直接问它。
还有另外一个机器人，我们把线上 bug 发给它，它会尝试复现和排查、提交 issue，甚至推动人类工程师来处理问题。
……

这些实践很有启发，但我觉得还不够极致。

为什么还需要人类运营手动收集用户反馈，再转发给机器人？为什么机器人不能自己去监听用户发言，自己发现高频问题？
为什么流量上涨时，还需要人类先注意到异常，再找机器人分析流量来源？为什么不能有一个 agent 自己盯着这些指标，发现异常后主动开始分析？
为什么线上因为 DB 性能问题变得不稳定时，瓶颈发现还要依赖人类介入？为什么不能有 agent 长期观察性能指标，在用户激增时自动发现风险？
……

这些在今天的技术层面都不是无法实现的，那么是什么阻碍我们朝着这个方向思考和实践呢？

Token 用量是糟糕的衡量指标

现在很多人会用 token 用量衡量 AI 使用程度。一个团队每个月消耗多少 token，每个人每天用了多少 token，模型调用量增长了多少……

这个指标当然有意义，但它衡量的更像是“工具使用强度”。

这就像一个人说：我非常会用车，因为我每两天就能烧掉一箱油。

token 用量更像是 AI 工具使用强度，而不是 agent native 程度。

如果我们讨论的是一个团队到底有多 agent native，我觉得 token 用量作为衡量指标是不够好的。

更有挑战性的衡量指标：拥有 7x24 小时不间断工作的 agent 数量

我认为一个更有挑战性的指标，是我们拥有多少 7x24 小时不间断工作的 agent。

如果按最严苛的标准：

不是长期待机，而是一直干活
要么正在干活，要么正盯着活
几乎不断地消耗 tokens

这里说的 7x24 不是长期待机，也不是有消息才回复。更严格一点，它应该要么正在干活，要么正在盯着活。理想情况下哎，它应该 7x24 小时持续不断地消耗 token。

这个视角的变化很重要。我们不再讨论对一台机器的使用强度，而是开始讨论整个工厂的规模和产能。

一个“大而全”的 agent 可能是不够的

很自然会有人问：那是不是只需要一个超级 agent？给它所有权限，接上所有工具，塞进所有记忆，让它负责全部事情。

至少在今天，我认为一个“大而全”agent 可能是不够用的。在我们的实践中，我们已经切实地感受到了一些现实问题：

1. 工具权限隔离

首先是工具权限隔离的问题，这也是我最头疼和担心的。一个 agent 要做很多工作，必然需要接入很多工具，但不同工作和工具的权限边界是不一样。比如我不希望一个 agent 既可以和用户沟通、回答用户问题，又可以直接访问生产环境和业务代码。

正确做法是保持最小权限原则。对于不同的工作内容，只提供必要的工具权限。但如果一个 agent 需要同时处理多个工作内容，就很难做到权限隔离了。它可能会因为权限过大而带来安全风险，或者因为权限过小而无法完成任务。

2. 记忆串扰

其次是记忆串扰。不同工作流里的经验和偏好混在一起，有时候反而会干扰判断。一个 agent 刚刚在处理运营数据，下一分钟又去修改测试流程，长期下来记忆会变得很复杂。不同任务的记忆混在一起，可能会导致它在某些场景下做出不合理的行为。比如它可能会把市场营销的文案包装经验误用到运营数据分析里，这就太糟糕了。

3. 上下文切换的不便利

还有上下文切换的问题。这是人类和 agent 同时会遇到的，如果我们在同一个地方和 agent 沟通不同背景的任务，不管是人类还是 agent，切换上下文真的会变得非常痛苦。

4. 访问管理

访问管理也会变得麻烦。我们既希望将 agent 接到各种地方，又不想同时暴露过多的风险。不同人、不同项目、不同系统，对 agent 的信任边界不一样。一个全能 agent 很难同时满足这些边界。

所以我更倾向于相信，未来我们会有很多个相对独立的 agent。它们有自己的长期记忆、工具权限和工作习惯。它们是团队里的不同工作主体。

我们会发现 A2A 的最佳实践吗？

当想明白我们可能有多个 agent 之后，下一个问题就是：它们应该如何协作？

我觉得这件事会很有意思，因为 agent 可能比我们想象中更擅长合作。

我们每天有多少工作，只是在团队之间传达信息。然而人类协作有一个很大的限制，就是同步带宽极其低效。开会、写文档、发消息，这些 IO 都非常慢，而且很容易丢失上下文。比如你阅读这段文字的速度可能只有每秒 4、5 个字节。

但 agent 之间的同步带宽是极高的，完全取决于网络带宽和推理速度。一个工作模块的完整背景，对人来说可能要花一小时都讲不清楚。但对 agent 来说就是几万 tokens 的上下文传递。

更进一步，既然每个 agent 都有各自的记忆，它们甚至可以传递一部分“大脑”。如果人类拥有这样的能力，我们的世界能减少多少的误解和争端？

理想情况下，人类与 agent 之间、agent 与 agent 的协作方式可能是一个网，每个 agent 都能找到最合适的伙伴来协作，快速推进各种工作内容。

比如运营 agent 发现某个漏斗指标异常，发现埋点不够，于是把背景同步给 QA agent。QA agent 根据自己对测试流程的理解，判断应该补哪些场景，再把任务交给 coding agent。coding agent 完成代码后，QA agent 继续验证，最后再交给人类 review。

不要太早替 agent 分工

一旦讨论多个 agent，我们很容易套用人类组织里的分工形式：role、scope、responsibility。

比如前端 agent、后端 agent、数据 agent、测试 agent……听起来很合理，但我对此非常谨慎。

今天的 LLM 早就不是传统意义上的专家。它非常的聪明和全能。它可以写代码，可以读文档，可以分析数据，可以做产品判断，也可以沟通和计划。但如果一开始就设定了“你是前端 agent”，它可能就真的会把注意力全部收缩到前端，从而丢失了整体的视野。

明明它有能力发现产品、后端、数据、发布流程里的问题，但因为身份被限定了，它会认为那些不是自己的事。

另外这还很容易带来一种边界感：我的部分完成了，剩下的就不归我管。

Agent 本来就很擅长提前结束工作。我们如果再随意地给它画出边界，它就更容易在一个很窄的范围里完成任务，然后停下来。

对于像 agent 这样非常聪明和全能的人才，最好的方法可能是赋予它一个使命，让它自我驱动地参与工作。

所以我现在更喜欢另一个词：mission。

也许好的长期 agent，不应该先被定义成某个角色，而应该先被赋予一个使命。

从 /goal 到 /mission

最近几周 AI 界最重要的进步之一，我认为是 codex 开始内置 /goal 功能。它让 agent 在任务中不再等待人类的介入和指导，而是可以主动地规划和执行，不断推进直到目标达成。

实际上 /goal 的原理非常简单：当设置一个目标后，agent 就获得了一个会话（thread）级别的状态，记录了目标的达成情况、检验条件和已付出的成本。每次 agent 完成一个循环（loop）后，它都会检查这个状态，看看目标是否已经达成。如果没有，它就会继续执行下一个步骤，直到完成或超过成本而放弃。

这是一个了不起的进步，因为这可以让 agent 全自动运行一两个小时。但我觉得还是不够，应该更加激进。

对于 7x24 agent 来说，最难的事情就是要怎么不断找活给它干。最理想的情况下，它应该是完全自驱的，自己给自己找活干。

所以我设想了一个 /mission 的概念。和 /goal 很不一样，它是 agent 的一个全生命周期的状态（lifetime level）。Agent 在完成日常工作的同时，每天晚上总结和整理记忆的时候，应该重新思考下它的使命，从而调整它接下来几天的工作方式，或者指定一个新的任务计划……

这可能是 7x24 agent 真正有价值的地方。

一个很小的起点

所以我最近越来越觉得，“7x24 小时不停干活的 agent 数量”是一个比 token 用量更有挑战性的指标。

它会逼着我们把更多工作交给有独立主体性的 agent，而不是只把 agent 当成个人工具。

它也会逼着我们思考 agent 之间如何协作。不是简单地互相发消息，而是如何同步上下文、共享经验、传递判断、共同合作。

它还会逼着我们探索 mission 驱动的 agent。一个长期运行的 agent，应该不只是完成 prompt，而是能围绕一个使命持续调整自己和不断行动。