企业AI“算账”时代来临：Token成本与价值博弈开启资源重配战

过去两年，许多企业推动AI应用，很大程度上是出于跟上技术趋势和竞争压力的需要。然而，当AI推理成本从实验预算转变为持续的运营支出，CEO和CFO们开始追问一个更现实的问题：AI究竟创造了多少价值？每一美元的Token成本，换来了什么实际成果？

这正是“Token预算战争”的核心。这场“战争”不仅是企业试图压低AI账单，更是要重新判断：哪些业务值得投入更多算力？哪些任务应该换用更便宜的模型？哪些流程可以回归外包或人工？哪些投入只是无效消耗？

文章指出，AI的使用量并不直接等同于价值。在SaaS时代，软件使用量通常意味着产品被采纳；但在AI时代，Token消耗仅仅表明“计价器在运行”。同一工作流，可能因提示词质量、上下文长度、模型选择和重试次数不同，产生数倍的成本差异。账单上涨，既可能是AI在高效工作，也可能意味着系统在无效空转。

因此，企业AI发展的下一阶段，关键不止于模型能力本身，更在于能否将Token成本与具体的业务结果对应起来。第一阶段证明了AI能够完成工作；第二阶段则需要回答：这些工作是否值得企业为之付费。

从“是否采用”到“如何分配”

在公司高层，新的“硬通货”是量化AI投资回报率的能力。每个职能部门都被要求回答：你产出了什么？成本是多少？随着Claude等模型在2025年11月发布，而多数企业2026年年度预算已锁定，第一季度实际使用量常常远超原计划。推理成本不再是试验项目，而是持续发生的运营成本。随之而来的尖锐问题是：AI到底在哪些环节真正创造了价值？

这个问题之所以难以回答，是因为Token的效用未被量化。账单无法区分这笔支出是替代了人工、创造了收入、降低了风险、加速了流程，还是仅仅被消耗在无效测试中。当支出达七位数时，它就成了基础设施的一部分，其技术差异开始实质影响损益表。

“边际Token效用”：规模化阶段的关键指标

核心概念可称为“边际Token效用”——即每多花一美元推理成本所创造的商业价值。这是在规模化阶段真正重要的数字，但目前大多数公司无法看清它。

董事会的问题正从“AI有没有用”转向“AI在何处真正形成杠杆”。因此，Token预算之争，本质是Token分配权的争夺。这场争夺之所以激烈，是因为它触及了高管延续三十年的本能：大团队意味着大权力。然而，当智能成为稀缺资源，新的权力标志变成了：你能调度多少智能。

AI支出与人力成本的直接竞争

大多数AI预算申请，本质是三类主张之一：替代外包劳动力、替代内部劳动力，或创造新收入。但推理成本更复杂，因为任务最终成本取决于系统执行过程的细节。一个需要多次重试、人工修正并调用前沿模型的任务，可能比它意图替代的人力外包更昂贵。

因此，讨论正转向“完成一个结果的成本是多少？”——例如每个解决工单、每笔处理理赔、每份审核合同、每张完成发票的成本，或是避免的招聘、留住的客户、转化的收入所对应的成本。高管们发现，BPO（业务流程外包）因其按“完成单位”计价，最容易建立基准。相比之下，衡量内部员工的生产率提升则困难得多。

AI打破SaaS逻辑：使用量不等于价值

这与SaaS时代的逻辑不同。SaaS曾训练企业将使用量视为价值的代理指标，但AI打破了这一点。同一工作流消耗的推理资源，可能因提示词、检索上下文、所选模型、工具调用、重试次数以及Agent是否卡住而产生巨大差异。账单单位Token是稳定的，但它代表的工作量并不稳定。

更准确地说：信号和噪音使用同一计量单位。Token账单上升，可能意味着工作正在完成，也可能意味着算力被浪费在糟糕的提示词、无关上下文、不必要工具调用、重复推理或能力过剩的模型上。两家企业Token账单可能相同，但一家将推理转化为结果，另一家则在为无效折腾买单——而账单条目看起来一模一样。

为何“边际Token效用”难以洞察？

主要原因有三点：

重试长尾：如果Agent首次正确完成工作流的概率是p，那么每个已解决工作流的预期Token消耗大致按T/p扩大。当完成率从90%降至70%，有效成本提高幅度可能超过单纯错误率上升比例，因为失败会产生复合效应。
上下文膨胀：对于高度依赖注意力的操作，推理成本大致随上下文长度呈O(n²)增长。上下文翻倍，成本可能变为四倍。系统倾向于过度供给信息，导致不必要的成本飙升。
路由低效：当团队不知道哪个模型“足够好”时，默认会选择最强模型。在调用量达数百万次时，将简单任务路由给小模型还是全部使用前沿模型，可能就是可控账单与董事会级别问题的区别。

软件与非软件企业的不同感知

软件公司会首先直面此问题，因其工作已被充分仪表化，拥有PR、部署、周期时间等指标。而非软件企业（如保险、客服、供应链领域）会更深刻地感受此问题，因为它们的工作是运营性的，衡量单位（如工单、理赔）与成本单位（Token）不属同一语言体系，也不在同一组织内。

作者认为，软件公司将把Token预算战争体验为生产率衡量问题（对应此前的“AI裁员”），而非软件企业将将其体验为一场转型挑战。

缺失的关键层：从Token到结果的归因

企业需要一个转换层，将推理支出与完成的工作、产生的业务结果连接起来。这一层必须回答：工作流的真实成本（含重试与修正）是多少？Agent执行轨迹中哪些部分真正重要？工作是否改变了运营模式（如人均处理工单更多、周期更短、BPO预算减少）？

更深一层，需要用业务语言归因结果：不是简单说“工作流花费2.13美元”，而是指出“此类理赔由Agent处理比BPO便宜，但若保单要求额外文件，重试长尾会摧毁经济性”。

衡量即记忆：决策轨迹的价值

为将Token与结果连接，企业必须捕捉中间发生的一切：Agent看到什么、检索什么、调用哪些工具、在哪里重试、何时被人工覆盖、适用哪些规则等。衡量层需记录决策轨迹——这是企业过去几乎从未真正拥有的东西。

决策理由是公司中最易腐败、最易消失的资产之一，它常存在于Slack、邮件、会议和人的脑中。但AI改变了这一点，因为Agent会生成轨迹。这些轨迹起初用于证明支出合理性，一旦被捕捉，其价值将超越成本报告本身，成为组织如何决策的持久记录。

分配层是终极战场

如果推理成为按量计费的运营资源，那么每一美元都必须自证价值。哪些供应商能说明Token何时转化为结果、何时没有以及原因？企业不会独自摸索，而会将其视为转型项目来采购。谁能掌握Token到结果的归因，谁就能决定：哪些工作流值得更多算力、哪些应设限、哪些该换模型、哪些继续由人完成。

一旦能做出这些决策，便控制了企业内部AI支出的流向，并获得了分配资源的信任。企业AI的第一阶段证明模型能完成工作；下一阶段将决定这些工作有多少值得付费。正如查理·芒格所言：“给我看激励机制，我就能告诉你结果。”