不要 Tokenmaxing，要 Interruption Minimizing

AI Native 系统的成熟度，不看烧了多少 token，而看 IPB：每 10 亿 token 的 interruption 次数

现在硅谷有一个很明显的趋势：大家开始以消耗了多少 token 为荣。

一个工程师一个月烧了多少 token，一个团队跑了多少 agent，一家公司把 Claude Code、Cursor、Codex 接进了多少工作流，这些数字正在变成新的炫耀资本。

好像 token 用得越多，就代表 AI 用得越深。好像账单越大，就代表组织越 AI Native。好像模型越忙，公司就越先进。

但我越来越觉得，这个指标会很快失效。

真正应该优化的，不是 token maximizing，而是 interruption minimizing。

Part 1 — Tokenmaxing 的问题

Tokenmaxing 不是完全没有道理。

在 AI 发展的早期，团队确实需要先把 AI 用起来。你不大量使用，就不知道 agent 能做什么；你不把任务交给模型，就不知道新的工作流边界在哪里。

所以最开始，鼓励大家多用 AI 是对的。

问题是，一旦 token 消耗变成 KPI，它就开始失真。

Uber 的案例很典型。公开报道里提到，Uber 在 2026 年前几个月就用完了全年 AI 预算，很大一部分来自 Claude Code 这类 coding agent 的快速普及。更关键的是，管理层后来也开始质疑：token 用量上升，并没有清楚对应到更多用户可见的产品改进。

工程团队很兴奋，agent 跑了很多，账单增长很快，但最后沉淀下来的产品价值，不一定成比例增长。

这就是 tokenmaxing 的核心问题：它把“AI 很忙”误认为“组织更有效率”。

token 本质上只是消耗，不是产出。它可能对应一次高质量的代码重构，也可能对应十轮没必要的上下文重复；可能对应一个真正减少人工的自动化流程，也可能对应一堆没人会读的总结、计划和中间稿。

只看 token，就像只看键盘敲击次数来判断工程师生产力。数字很热闹，但意义很可疑。

不过，完全否定 token 指标也不对。它之所以会流行，是因为背后有一个合理类比：在成熟工业体系里，用电量确实可以在一定程度上反映生产活跃度。

一个地区工业用电上升，往往意味着机器在运转、工厂在生产、物流在流动。电力不是最终产品，但在稳定、成熟、可计量的生产系统里，它可以成为生产强度的代理指标。

token 未来也可能类似。等 AI 工作流足够成熟，任务定义、质量评估、成本归因、自动化闭环都稳定下来以后，token 消耗也许可以成为某种生产活跃度指标。

但今天还不是。现在的大多数 AI 系统仍然处在试验期。流程不稳定，评估不稳定，成本结构不稳定，输出质量也不稳定。在这种情况下，token 消耗更像实验室里的试剂消耗，而不是工厂里的用电量。

它能说明你在试，但不能说明你在生产。它能说明系统在运行，但不能说明人被解放了。

Part 2 — 要 Interruption Minimizing

真正应该优化的，是 interruption minimizing：把人类被迫介入系统运行的次数降到最低。

这里不是说把人从公司里拿掉，也不是幻想所有事情立刻无人化。它指的是减少低价值的 interruptions：补上下文、确认显而易见的信息、搬运数据、检查半成品、在不同工具之间做人工胶水。

随着 AI 和 agent 能力变强，一个变化会越来越明显：人的介入本身会变成瓶颈。

过去我们说，人和人之间的沟通是瓶颈。一个事情要推进，需要开会、对齐、写文档、等回复、找负责人。现在 agent 变强以后，新的瓶颈会出现：人和 agent 的沟通也会变成瓶颈。

不是因为人不重要，而是因为每一次系统停下来问人，都会打断自动化的连续性。

理想情况下，一个 AI Native 系统应该以 100% 自动化运营为目标。这个目标不一定马上达到，但它应该是系统设计的北极星。

系统应该默认自己读取上下文、判断状态、调用工具、推进任务、验证结果。只有在真正关键、不可逆、涉及价值判断或责任归属的节点，才把问题交还给人。

这就需要把人的价值和系统的价值分开。

系统的价值，是稳定地运行，是吸收信息、处理任务、执行流程、反馈状态。人的价值，不是反复告诉系统“刚才发生了什么”，也不是帮系统复制粘贴，而是判断方向、设定标准、做关键取舍、承担最终责任。

人和系统的沟通，应该主要发生在两个位置。

第一个位置，是输入端。不要先纠结 prompt 怎么写得更漂亮，也不要只把注意力放在 instruction engineering 上。更重要的是，把公司里所有正在发生的事情变成 AI-readable。

会议、销售通话、客服记录、代码变更、产品反馈、内部文档、决策历史、运营数据，都应该尽可能被记录、结构化、进入知识库，成为系统可以自动读取的输入。

好的系统不应该老是问人“背景是什么”。背景应该已经在那里。

第二个位置，是输出端。系统不应该把所有中间过程都丢给人看，也不应该每走一步就请人确认。它应该在大量自动处理之后，只把最 critical 的输出交给人。

这个客户要不要特殊处理。这个产品方向要不要调整。这个风险要不要接受。这个方案要不要进入执行。

中间当然仍然需要人设计系统。流程怎么定义，权限怎么划分，质量怎么评估，什么节点必须升级给人，这些都需要人的判断。但系统设计的目的，不是让人永远站在系统旁边操作它，而是设计好之后，系统能够尽可能自行运转。

Part 3 — 重新定义人的位置

Interruption minimizing 绝对不是在说“人不重要了”。

恰恰相反，它是在 AI 能力越来越强之后，重新区分人和系统各自应该负责什么。

过去很多 AI 产品喜欢讲 human-in-the-loop，好像只要每个关键环节都有人看一眼，系统就更安全、更可靠。但当 agent 可以连续执行几十步、几百步任务时，人在 loop 里会越来越吃不消。

人类不适合永远站在高速系统的中间。

未来最好的黑客松，可能也应该是这样：大家先把想法、目标和判断标准讲清楚，然后全程尽量不要人参与，过一段时间直接比拼结果，而不是让人在中间操作太多环节。

每一步都让人确认，每个中间结果都让人阅读，每次不确定都把问题抛回给人，这在早期可能是必要的安全机制，但它不可能成为长期的工作方式。AI 的速度越快，人的注意力就越稀缺。到最后，人不是在控制系统，而是在被系统不断打断。

所以 interruption minimizing 的真正目的，不是减少人的价值，而是让人逐步从 AI 已经能够掌握的工作里脱离出来。

那些可以被系统读取、判断、执行、验证的工作，应该尽可能交给系统。人不应该反复做机器已经能做的上下文整理、信息搬运、初步分析、格式转换、状态同步和流程推进。

人的注意力应该被释放出来，放在 AI 还不能真正承担的事情上。

比如，和客户建立信任。比如，理解复杂关系里的真实动机。比如，在不确定条件下做取舍。比如，判断什么值得做，什么不值得做。比如，为一个决策承担责任。

这些事情不是 token 吞吐量可以直接替代的。AI 可以提供信息、建议、模拟和执行能力，但信任、责任、品味、战略判断，仍然需要人来承担。

这件事当然不会一蹴而就。真正的过程一定是逐步发生的：先把信息变成 AI-accessible，再把流程变成 AI-executable，再把反馈变成 AI-readable，最后才有可能让系统在大多数情况下自行运转，只在最关键的节点升级给人。

也正因为它是一个逐步成熟的过程，所以我们需要新的指标。

比起问“我们消耗了多少 token”，更应该问 IPB：Interruptions Per Billion Tokens，也就是每 10 亿 token 需要多少次 interruption。

IPB 可以作为 AI Native 系统成熟度的一个粗略指标。IPB 越低，说明系统越能自己吸收信息、推进任务和处理异常，人越少被打断。

大概可以分五个阶段：IPB 在 3000 以上，基本还是人在操作 AI；1000 到 3000，是熟练工具用户，但人仍然频繁介入；300 到 1000，开始进入异步委托和批量 agent 工作流；50 到 300，说明系统已经有任务状态、自动 retry 和自动验证；如果能低于 50，才比较接近成熟的 AI Native 系统。低于 5，则更像 AI factory，大家把目标讲清楚，系统自己全程运行，最后直接比结果。

这有点像自动驾驶里的 L5。L5 自动驾驶不是说人类不会出行了，而是说人在正常情况下不需要接管方向盘。人仍然决定去哪、为什么去、什么时候去，但具体驾驶过程由系统完成。

成熟的 AI 系统也应该类似：人决定目标、边界、责任和关键取舍，系统负责高速运行、持续处理、自动执行。

最终理想的状态，不是人被 AI 替代，也不是人被 AI 淹没，而是人用一种更轻、更清醒的方式工作。

人专注于 critical work。AI 系统全速运行。高 token 吞吐量转化成真实智能产出。低 interruption rate 让人不再被系统反复拖回低价值细节。

这才是 AI 时代真正值得追求的组织形态：不是更会烧 token 的公司，而是更少 interruption、更能释放人的公司。