导航菜单
首页
排名 涨幅榜 跌幅榜 24h成交额 新币榜
快讯 机构 观点 人物 专题

企业AI“算账”时代来临:Token成本与价值博弈开启资源重配战

过去两年,许多企业推动AI应用,很大程度上是出于跟上技术趋势和竞争压力的需要。然而,当AI推理成本从实验预算转变为持续的运营支出,CEO和CFO们开始追问一个更现实的问题:AI究竟创造了多少价值?每一美元的Token成本,换来了什么实际成果?

这正是“Token预算战争”的核心。这场“战争”不仅是企业试图压低AI账单,更是要重新判断:哪些业务值得投入更多算力?哪些任务应该换用更便宜的模型?哪些流程可以回归外包或人工?哪些投入只是无效消耗?

文章指出,AI的使用量并不直接等同于价值。在SaaS时代,软件使用量通常意味着产品被采纳;但在AI时代,Token消耗仅仅表明“计价器在运行”。同一工作流,可能因提示词质量、上下文长度、模型选择和重试次数不同,产生数倍的成本差异。账单上涨,既可能是AI在高效工作,也可能意味着系统在无效空转。

因此,企业AI发展的下一阶段,关键不止于模型能力本身,更在于能否将Token成本与具体的业务结果对应起来。第一阶段证明了AI能够完成工作;第二阶段则需要回答:这些工作是否值得企业为之付费。

从“是否采用”到“如何分配”

在公司高层,新的“硬通货”是量化AI投资回报率的能力。每个职能部门都被要求回答:你产出了什么?成本是多少?随着Claude等模型在2025年11月发布,而多数企业2026年年度预算已锁定,第一季度实际使用量常常远超原计划。推理成本不再是试验项目,而是持续发生的运营成本。随之而来的尖锐问题是:AI到底在哪些环节真正创造了价值?

这个问题之所以难以回答,是因为Token的效用未被量化。账单无法区分这笔支出是替代了人工、创造了收入、降低了风险、加速了流程,还是仅仅被消耗在无效测试中。当支出达七位数时,它就成了基础设施的一部分,其技术差异开始实质影响损益表。

“边际Token效用”:规模化阶段的关键指标

核心概念可称为“边际Token效用”——即每多花一美元推理成本所创造的商业价值。这是在规模化阶段真正重要的数字,但目前大多数公司无法看清它。

董事会的问题正从“AI有没有用”转向“AI在何处真正形成杠杆”。因此,Token预算之争,本质是Token分配权的争夺。这场争夺之所以激烈,是因为它触及了高管延续三十年的本能:大团队意味着大权力。然而,当智能成为稀缺资源,新的权力标志变成了:你能调度多少智能。

AI支出与人力成本的直接竞争

大多数AI预算申请,本质是三类主张之一:替代外包劳动力、替代内部劳动力,或创造新收入。但推理成本更复杂,因为任务最终成本取决于系统执行过程的细节。一个需要多次重试、人工修正并调用前沿模型的任务,可能比它意图替代的人力外包更昂贵。

因此,讨论正转向“完成一个结果的成本是多少?”——例如每个解决工单、每笔处理理赔、每份审核合同、每张完成发票的成本,或是避免的招聘、留住的客户、转化的收入所对应的成本。高管们发现,BPO(业务流程外包)因其按“完成单位”计价,最容易建立基准。相比之下,衡量内部员工的生产率提升则困难得多。

AI打破SaaS逻辑:使用量不等于价值

这与SaaS时代的逻辑不同。SaaS曾训练企业将使用量视为价值的代理指标,但AI打破了这一点。同一工作流消耗的推理资源,可能因提示词、检索上下文、所选模型、工具调用、重试次数以及Agent是否卡住而产生巨大差异。账单单位Token是稳定的,但它代表的工作量并不稳定。

更准确地说:信号和噪音使用同一计量单位。Token账单上升,可能意味着工作正在完成,也可能意味着算力被浪费在糟糕的提示词、无关上下文、不必要工具调用、重复推理或能力过剩的模型上。两家企业Token账单可能相同,但一家将推理转化为结果,另一家则在为无效折腾买单——而账单条目看起来一模一样。

为何“边际Token效用”难以洞察?

主要原因有三点:

  1. 重试长尾:如果Agent首次正确完成工作流的概率是p,那么每个已解决工作流的预期Token消耗大致按T/p扩大。当完成率从90%降至70%,有效成本提高幅度可能超过单纯错误率上升比例,因为失败会产生复合效应。
  2. 上下文膨胀:对于高度依赖注意力的操作,推理成本大致随上下文长度呈O(n²)增长。上下文翻倍,成本可能变为四倍。系统倾向于过度供给信息,导致不必要的成本飙升。
  3. 路由低效:当团队不知道哪个模型“足够好”时,默认会选择最强模型。在调用量达数百万次时,将简单任务路由给小模型还是全部使用前沿模型,可能就是可控账单与董事会级别问题的区别。

软件与非软件企业的不同感知

软件公司会首先直面此问题,因其工作已被充分仪表化,拥有PR、部署、周期时间等指标。而非软件企业(如保险、客服、供应链领域)会更深刻地感受此问题,因为它们的工作是运营性的,衡量单位(如工单、理赔)与成本单位(Token)不属同一语言体系,也不在同一组织内。

作者认为,软件公司将把Token预算战争体验为生产率衡量问题(对应此前的“AI裁员”),而非软件企业将将其体验为一场转型挑战。

缺失的关键层:从Token到结果的归因

企业需要一个转换层,将推理支出与完成的工作、产生的业务结果连接起来。这一层必须回答:工作流的真实成本(含重试与修正)是多少?Agent执行轨迹中哪些部分真正重要?工作是否改变了运营模式(如人均处理工单更多、周期更短、BPO预算减少)?

更深一层,需要用业务语言归因结果:不是简单说“工作流花费2.13美元”,而是指出“此类理赔由Agent处理比BPO便宜,但若保单要求额外文件,重试长尾会摧毁经济性”。

衡量即记忆:决策轨迹的价值

为将Token与结果连接,企业必须捕捉中间发生的一切:Agent看到什么、检索什么、调用哪些工具、在哪里重试、何时被人工覆盖、适用哪些规则等。衡量层需记录决策轨迹——这是企业过去几乎从未真正拥有的东西。

决策理由是公司中最易腐败、最易消失的资产之一,它常存在于Slack、邮件、会议和人的脑中。但AI改变了这一点,因为Agent会生成轨迹。这些轨迹起初用于证明支出合理性,一旦被捕捉,其价值将超越成本报告本身,成为组织如何决策的持久记录。

分配层是终极战场

如果推理成为按量计费的运营资源,那么每一美元都必须自证价值。哪些供应商能说明Token何时转化为结果、何时没有以及原因?企业不会独自摸索,而会将其视为转型项目来采购。谁能掌握Token到结果的归因,谁就能决定:哪些工作流值得更多算力、哪些应设限、哪些该换模型、哪些继续由人完成。

一旦能做出这些决策,便控制了企业内部AI支出的流向,并获得了分配资源的信任。企业AI的第一阶段证明模型能完成工作;下一阶段将决定这些工作有多少值得付费。正如查理·芒格所言:“给我看激励机制,我就能告诉你结果。”