Token经济:一场正在展开的“智能定价革命”
在人工智能产业快速演进的今天,一个原本只在技术圈流行的术语——Token,正悄然成为理解AI经济形态的关键入口。
根据全球最大AI模型API聚合平台OpenRouter最新数据显示,3月16日至22日,全球AI大模型总Token调用量为20.4万亿,仅中国就达7.359万亿,占全球的36%。
在“中国发展高层论坛”2026年年会上,国家数据局局长刘烈宏表示,到今年3月,中国日均Token调用量突破140万亿,相比2024年初的1000亿,两年增长超千倍。同月,中国AI大模型周Token调用量连续三周超越美国,成为全球AI应用活跃度最高的国家之一。
数字背后,再现的是一个正在悄然改变的使用场景——AI的使用方式,与过去两年完全不一样了。
过去的AI以对话为主,一问一答、做输入和输出;而今天真正活跃在一线的,是一群被称为Agent的智能体,它们不只是回答问题,而是替人完成自动化任务。
在社交平台上,“全民养虾”成为新的潮流;有人在微信朋友圈里,晒出一个月消耗的Token 账单。企业端同样在加速,各家厂商纷纷上线“龙虾类”产品,并且鼓励员工”把事情交给AI”,让AI成为日常工作流的一部分,甚至有公司把“让Agent替你干了多少活儿”写入工作日志,变为可量化的指标。
这场席卷全社会的AI浪潮背后,有一个关键的主角——Token。无论是Agent的调用、视频生成,还是企业协作中的AI使用,最终被消耗的,都是以百万、千万乃至万亿计的Token。
把Token称作“AI时代的算力货币”,在行业中变为一种流行说法。但若深究这一类比是否真正成立,以及Token究竟在重塑怎样的经济秩序,答案远比一句口号复杂。
实际上,Token既不是传统意义上的货币,也不是常规意义上的计算资源,而是一种兼具基础设施、流量商品、无形资产与知识产权特征的新型价值载体。围绕它形成的定价逻辑、市场结构与治理议题,很可能标志着一种新经济形态的开端。
本文尝试从货币理论、产业经济学、市场结构与公共政策等层面,对Token进行一次系统审视。文章将分为上下两篇展开,本篇作为系列上篇,重点关注Token的本质与定义、供给侧的成本与定价,以及需求侧的消耗逻辑。
一、Token是“AI时代的算力货币”吗?
01 有类似属性、但并不等同
在行业中,有人把Token称为“AI时代的算力货币”,这一类比在经济学上部分成立但不严谨。实际上,Token不是货币,类似于电力世界的千瓦时。千瓦时不是货币,但它衡量了电气化时代的生产力。
Token确实具备货币的两项基本属性。它是计量单位,用于衡量AI服务的消耗;它也是交换媒介,将用户的支付转化为可用的智能输出。但Token同时缺失了货币最关键的几项特征:通用接受性、一般等价物和自由流通。
一枚OpenAI的Token不能在Anthropic的平台上使用、与一枚开源小模型的Token在成本和价值上也不等价。它更像游乐场代币或预付费卡——限定场景、不可互换、没有独立信用体系。
更深层的问题在于,Token面临一个内在矛盾,同时承担了两种原本应当分离的角色:一方面它是“成本度量”,衡量算力的物理消耗;另一方面它又是“价值度量”,衡量智能输出的效用。传统货币只承担后一种职能。这种双重性使Token难以像“一元钱”那样实现稳定的等价交换。
若把视线拉到更长的历史尺度,会发现这并非新现象。比如十九世纪末的电力商业化初期,各家公司的电压、频率、计费方式五花八门,彼此不可互通。经过几十年的标准化、公用事业监管和市场化交易,电力才成为今天的普惠基础设施。
Token当前恰恰处于类似的“前标准化”阶段。按照产业演化规律可以预期:跨平台互通协议、统一计量标准、乃至Token期货等金融工具,都将逐步出现。
但Token最深远的意义在于,Token的出现标志着人类第一次能够系统性地量化和交易“智能服务”。
因此,我们讨论的焦点,并不在于是否配得上“货币”二字。与其纠结定义之争,不如探讨它正在开创怎样的新经济形态,这或许将有望形成超越传统货币理论的新理论框架。
02 从传统经济学看:Token类比于“货币”并不成立
如果严格按照经济学教科书衡量货币的三大经典职能,Token几乎在每一项上都显得力不从心。
作为价值尺度,它虽然成为AI服务的定价单位,但厂商之间不等价、价格剧烈波动,无法提供稳定的价值参照。
作为流通手段,它实现了法币到AI服务的单向兑换,却不具备通用流通性,无法在AI之外的任何场景使用。作为储藏手段,它的通缩趋势明显,持有预付Token只会持续贬值,完全不具备保值功能。
与主权货币的“国家信用”相比,Token的“信用”存在四个致命弱点。
第一是脆弱性:公司可能倒闭、模型可能被超越、技术可能被颠覆,Token没有外部担保机制。
第二是分散性:每家公司各自建立信用体系,用户需分别评估不同平台。
第三是易变性:AI领域技术迭代极快,今天的领先者明天可能被淘汰,信用窗口极短。
第四个常被忽视的维度是数据安全信用——用户通过Token将敏感信息发送给平台,实质上是在信任其数据保护能力,一旦发生大规模泄露,Token信用会瞬间崩塌,类似银行挤兑。
归根结底,货币的信用建立在社会契约之上。全社会达成共识认可其价值,这往往需要数十年甚至数百年的积累。Token目前只建立了技术契约——你相信技术有用,所以购买Token。从技术契约走向社会契约,还需要漫长的信用积累过程,包括行业标准化、监管框架建立和市场的持续验证。
如前文提到的,Token正在展现传统货币理论未曾涵盖的新特征:它既是消费品(终端用户付费使用),又是生产资料(开发者用于构建AI产品),这种双重身份在货币史上极为罕见。
更重要的是,它正在扮演“智能接入权”的角色。在AI时代,没有Token就无法获取智能服务,这赋予它类似基础生产要素的战略属性。
用传统货币理论衡量Token,好比用马车时代的交通规则来评判汽车。不是汽车不合格,而是规则需要更新。
目前来看,Token的终局形态未必是“货币”,更可能是“智能经济的基础计量协议”,用以定义智能服务交换的标准单位与规则。经济学界迟早要为这种新型价值交换形态构建新的理论框架。
03 Token的定价衡量,是一场“智能服务的能力交换”
既然Token已经不能再被套进旧货币的框架,那么换一个更贴近它出身的参照物“传统计算资源”来比较,是否可以看清它的轮廓?答案同样是否定的。
谁控制了定价锚,谁就拥有AI经济的话语权。Token与传统计算资源定价存在三个维度的本质区别,维度的差异清晰可见。
首先是从成本定价到价值定价的跃迁:传统计算资源的价格紧密锚定硬件成本,遵循“成本加成”逻辑;Token定价则已脱离硬件成本锚定,转向“价值定价”。比如同一GPU集群运行的GPT不同版本的大模型,Token价格可能相差数十倍,差异源自模型能力而非硬件本身。
其次是从时间租赁到能力购买的范式转变。传统模式本质是“租用硬件时间” ,按小时付费,不论用户是否高效利用了算力。Token模式则将付费锚定在“实际智能输出”上,更接近”按效果付费”。这延续了云计算从IaaS走向SaaS的演化方向——不断远离物理资源、靠近价值产出。
第三是从线性价值到非线性价值的分化。多租一小时CPU,产出大致线性增长;但Token存在显著的“使用者技能溢价”:同样花费一千个Token,精妙的提示词可能比冗长提问多产出百倍商业价值。投入产出比高度依赖用户的认知水平与使用技巧,这是传统计算资源中不存在的现象。
归根结底,传统计算资源的定价衡量的是“物质资源的时间占用”,而Token定价衡量的是“智能服务的能力交换”。这是人类经济史上第一次把“思维产出”拆解为可量化、可交易的原子单位。它不仅是一种新的按成果计费方式,更是智能经济时代定价范式的开端。
二、Token的成本结构是什么?
01 Token的定价权,谁更稀缺是关键
Token的生产成本由四大要素构成:芯片、电力、数据与人才。但这其中不存在单一的定价“锚”,而是一个随时间动态迁移的多锚体系。
这里所说的“锚”,是指在一个成本结构中真正决定价格底线的那个关键要素,就像船只靠“锚”固定位置一样,价格也需要一个最硬的约束来“锚定”它的下限。
在不同阶段,决定Token价格底线的关键要素并不相同,定价权会沿着技术演进的节奏在四大要素之间逐步让渡。
如果把这条迁移路径沿时间轴展开,可以清晰地看到三个阶段:
短期(一到两年),芯片是主锚。比如目前NVIDIA GPU供不应求,芯片成本在推理总成本中占比达到六到七成,芯片的可获取性直接决定了Token的供给量与价格。
GPU的稀缺是怎么一步步传导到Token价格上的?在上游,NVIDIA的GPU产能有限,下单要排队一年以上;中游,OpenAI、Anthropic等AI公司抢不到足够的卡,能建的推理集群就那么大;到了下游,API 能输出的Token量受限,价格自然维持高位,最终那笔账将由每一个AI用户买单。
中期(三到五年),电力将成为硬性约束:随着芯片供给增加和架构创新,芯片价格会持续下降,但电力受物理定律限制,加之AI数据中心能耗激增引发的社会关注,能源成本将成为不可压缩的底线。
长期(五年以上),人才与知识密度将主导定价。芯片和电力都是物理成本,终将被技术进步不断压缩;但训练顶级模型所需的研究人才和数据积累是稀缺的,这构成了高端Token定价的核心锚点。
所以定价锚是从GPU→能源→人才转移。
02 Token的两层结构:成本托底,能力拉开
即便定价权明确了,Token的价格为什么仍然各有差异?这里的核心关键,是区分两类成本——推理成本与训练成本。
推理成本是生产每个Token的边际成本,由芯片和电力主导;训练成本是创造模型能力的一次性投入,由算力、人才和数据主导。
当前Token定价主要反映推理成本,而高端模型的溢价实质上是训练成本的分摊。Token正在从同质商品演变为品质分级商品:低端Token的锚是电力与运维,高端Token的锚是人才与研发。定价锚的总体方向,是从“物质稀缺性”向“智能稀缺性”迁移。
需要补充的一点是,如果价格只是成本传导的结果,那就无法解释一个现象——同一家公司旗下的不同模型,Token价格为何能相差数十倍。
这其中存在缺口,只有引入价值定价的逻辑才能解释:比如说GPT-5能完成复杂推理、代码生成、专业分析等GPT-4难以胜任的任务,能力飞跃支撑了远超成本的溢价。
用户对“更聪明的AI”有明确的支付意愿、企业客户愿意为可靠的商业决策支付溢价,就像愿意为资深顾问而非初级助理支付更高费用。
从市场策略视角看,这种悬殊的价差还体现了“二级价格歧视”:厂商通过提供不同品质的产品线,让不同支付意愿的用户自我选择分层,高价版锁定商业客户,低价版负责获客与维持用户基数,一个产品组合覆盖整条需求曲线。
把这两股力量合在一起,就是当前Token价格的完整形成机制:底部由GPU瓶颈的成本传导托起,顶部由模型能力的价值溢价拉高。
更深一层看,这种“能力分层决定价格分层”的结构,标志着人类首次通过市场机制对“智能等级”本身进行直接定价。比如律师按时间收费、医生按诊次收费,而AI按“思维单位的质量等级”收费。一个“智能分层付费”的新经济秩序正在建立。
三、Token的价格和产业周期会如何变化?
01 摩尔定律之上:Token价格呈现“下行曲线”
当GPU瓶颈不再是主导因素(这个是前提),Token价格将沿着一条由摩尔定律延伸而来的长期曲线持续下行,而且下行的速度比任何人预想的都要惊人。Token价格战会让全世界用上AI,就像电力价格战让全世界用上了电。
先看一组真实数字:2023年3月GPT-4刚发布时,API价格是每百万输入Token 30美元、输出60美元;到今天,同等智能水平的模型,无论是GPT-4o mini、Claude Haiku还是国产的DeepSeek-V3,API价格已经大幅度下探,下降幅度超过95%。
这背后是三条下降曲线的同步叠加:
硬件层面,NVIDIA的H100相比上一代A100在LLM推理效率方面,通常可实现提升三倍左右,新一代B200又在H100基础上再跳一个台阶;
框架层面,vLLM、TensorRT-LLM等推理优化工具把同一张卡的吞吐量拉高数倍;
架构层面,MoE模型(如DeepSeek-V3)通过稀疏激活机制,在相近能力水平下可将推理计算成本降低数倍。
基础模型的Token,很可能将在五年内实现经济意义上的趋零,甚至有可能会便宜到像自来水一样,绝大多数用户无需考虑成本,这其中真正的转折不在价格本身,而在商业模式。
比如ChatGPT免费版向所有用户开放GPT-4o,Google的Gemini 2.0 Flash强调低成本高吞吐等定价策略,这些变化表明“按Token计费”不再是唯一模式,行业正走向“免费基础 + 增值付费”等多种商业模式并存。厂商的盈利方式,也从单一的Token收费,扩展到订阅服务、企业解决方案以及生态闭环。
当然,Token成本趋零并不等于AI使用成本趋零。当Token近乎免费时,新的稀缺将浮现:高质量数据、人类处理AI输出的注意力、AI输出的可信度验证——经济学永远在追逐和关注下一个稀缺资源。
02 Token将经历的产业周期:逐步走向分层
如果把目光从单个Token的价格放大到整个供给侧市场,这场已经持续数年的算力军备竞赛,终将遵循一条典型的产业周期——“短期紧缺 → 中期过剩 → 价格战 → 行业整合”。
先看产能这一侧。当前,各大科技公司每年投入数百亿美元建设AI数据中心。在2024年,全球科技巨头在AI基础设施上的资本开支总和突破2500亿美元:光是微软一家就宣布2025财年投入800亿美元建设AI数据中心,Meta在2024年年报里披露的资本开支接近400亿美元,而Amazon和Google的年度资本开支已上升至千亿美元级别。连中东的主权基金都开始直接下场——阿联酋的MGX基金联合微软、BlackRock宣布打造AI基础设施基金。到2026年,相关投入不但没有收缩,反而继续大幅加码,这些投资换成GPU集群和数据中心,需要两到三年才能集中落地并释放产能。
与此同时,需求侧Agent和自动化工作流虽然确实在爆发式增长,但实际上,企业采购的节奏远比产能投放要慢——需求曲线是平滑的积分,产能曲线是阶跃式的脉冲,两条曲线错开之后,中期的供需宽松甚至过剩几乎会成为必然。
产能过剩的结果,就是价格战,逐渐会呈现分层的格局:
一层是低端Token市场,用来做基础对话、简单任务,这一块竞争会非常激烈,大家拼价格,利润被压得很低,有点像当年云计算打价格战的阶段。
另一层是高端Token市场,用在复杂推理、专业场景,这里更看重的是效果和稳定性,谁更聪明、更可靠,谁就能卖更高的价格。
其中,开源模型类(Llama、Mistral等)将扮演重要的价格“挑战者”角色。开源不会消灭闭源巨头,但会建立低端Token的价格天花板,并将Token供给从少数巨头扩展到成千上万的独立部署者,深刻改变市场结构。
四、谁在消耗Token,以及消耗将走向何方?
01 当Agent开始24小时工作,Token需求加速
随着Agent和自动化工作流的普及,Token的需求增长,正在从一条“正常曲线”,变成一种更复杂、甚至有点反直觉的形态。我们可以概括为:“双S曲线叠加 → J型爆发 → 次线性收敛”。一个Agent一天消耗的Token,可能超过一个人一年的用量。

在最初阶段(2023—2027年),Token的增长主要由人类用户驱动。这是一条典型的S曲线:越来越多的人开始使用AI工具,从写邮件、改简历,到写代码、做学习辅助,使用场景不断扩展。但这条曲线有一个天然上限——人类的时间和注意力。一个人每天能用 AI 的时间是有限的,因此整体增长虽然稳定,但斜率不会特别陡。
这一阶段,本质上还是“人用AI”。Token的消耗,直接绑定在人类行为上。Agent是Token需求的超级放大器。
真正的转折点,来自第二条S曲线—— Agent驱动的增长(2025—2030年)。一旦Agent 开始进入企业系统,Token的消耗逻辑就彻底改变了:它不再跟着“人”,而是跟着“机器流程”走。
比如在客服场景中,一个Agent可以同时处理成百上千个对话,还能自动检索知识库、生成回复、总结记录;在软件开发中,一个任务可能被拆解为多个Agent协同完成——写代码、跑测试、查Bug、做评审,每一步都在消耗 Token;在电商和运营领域,Agent 可以自动生成内容、投放广告、分析数据、再反过来优化策略,形成一个持续运转的闭环。
这些变化叠加在一起,带来了一个明显的“乘数效应”。
首先,Agent可以24小时运行,消耗不再受人类作息限制;其次,多Agent系统会产生递归调用——Agent调用Agent、再由其他Agent 校验结果,每一层都会叠加Token成本;随着自动化成本持续下降,越来越多原本“不值得做”的长尾任务开始被激活,从而进一步扩大了Token的应用边界。
在这个过程中,一个经典的经济学现象——“杰文斯悖论”会非常明显:效率的提升并不会降低资源的总消耗,反而因为使用门槛降低,让更多场景被激活,最终推高整体需求。Token也是一样,越便宜、越高效,反而用得越多。
但这种增长并不会无限延续。企业始终要面对一个基本约束:Token的成本,必须小于它创造的价值。当某些Agent消耗大量Token,却无法带来足够收益时,它们会被优化甚至淘汰。
因此,在经历前期的快速扩张之后,Token的需求增长会逐渐回归理性,从陡峭的J型曲线,过渡到更平缓的“次线性增长”。
从更深层的角度看,真正的变化在于:Token的主要消耗主体,正在从人类转向机器。
这意味着,Token经济的上限,不再由人口规模或人类时间决定,而是取决于整个经济体系能够创造的价值总量,以及背后的算力与能源供给能力。
从时间窗口来看,2026—2028年很可能是一个关键拐点。随着Agent在企业中的大规模部署,Token的需求有可能在短时间内实现一到两个数量级的跃迁,形成一次真正意义上的“J 型爆发”。到那个阶段,我们看到的将不再是“人们在使用 AI”,而是整个经济系统在用 AI 自主运转。
这也解释了为什么,Token的增长,本质上并非源于用户数量的增加,而是一个自动化程度提升与经济结构重塑的故事。
02 Token需求的引爆点:看“两个临界点”
对于Token的价格,不同人群对价格的反应差异悬殊。
企业用户会比较敏感价格。当一家公司在盘算“用AI替代部分人力”这笔账时,每一分成本都会被反复推演。Token价格下降一半,原本因为不划算而没做的事情立刻变得划算,原本只能给VIP客户配AI客服,现在所有客户都能配;原本只处理英文工单,现在十几种语言全覆盖。用量因此往往不是多出一半,而是直接翻一到两倍。
而大部分的终端消费者反而感觉不到价格的变化,因为大多数人用的是每月免费或者固定金额的订阅服务,订阅制把价格信号暂时屏蔽掉了。
不过,随着近期“龙虾”类Agent型产品崛起,不少C端消费者正又一次参与和被拉回到“消耗计价”的逻辑里,他们对价格的敏感度会迅速向企业用户靠近。
真正决定Token市场增长上限的,不仅仅是看这两类已有用户的行为变化,而是一大群原本根本没用过 AI 的人在某个时刻集体涌进来。这才是Token需求最大的潜在来源。
当价格跨过某个临界点之后,激活的不是现有用户需求增加,而是数以亿计的新用户和全新应用类型的需求潜能释放。
这种爆发什么时候会发生?需要两个条件同时满足。
第一个是价格临界点。比如每百万Token的成本降到0.1美元甚至以下,也就是让AI完成一件事的成本降到人力的十分之一以下。那么”这件事要不要用AI做”,不再需要再被论证,而是默认选项。
第二个是认知的“临界点”。很多人不是用不起AI,而是根本不知道AI能帮自己做什么。比如写合同、整理发票、翻译资料、规划行程、做个人健康咨询,这些场景对多数人来说还是“听说过但不怎么用”。这个认知普及本身需要时间和社会性的传播过程。
这两个临界点之间会形成一个自我加速的飞轮:价格降低让更多人愿意尝试,尝试带来口碑和认知普及,认知普及催生更大的需求,需求规模化又反过来推动成本和价格进一步下降。这个飞轮一旦转起来,Token需求的增长就不再是线性爬升,而是突然爆发。
03 Token消耗暴增,但并不代表真实价值
如果Token正在成为AI时代新的基础生产要素,那么它能不能像用电量、钢产量那样,用 Token的消耗量来衡量一个经济体的运行水平?
最核心的障碍在于Token消耗的“异质性”。同样是一个Token,放在不同场景里创造的经济价值可能相差万倍,有的Token被用来支持一次关键的商业决策,产出巨大价值;有的Token 只是在一场漫无目的的闲聊里被消耗,几乎没有任何经济产出。如果把这两类Token不加区分地加总,得出的数字对衡量经济产出几乎没有意义。
毋庸置疑,至少需要解决两个前提问题。
第一,要能区分“生产性消耗”和“消费性消耗”。只有那些真正用于完成工作任务、创造商业价值的Token消耗,才与GDP增长有稳定的正相关关系。
从这个角度看,企业API调用量可能是比“总Token消耗量”更好的经济代理变量,因为它有效过滤掉了大量消费性的闲聊和娱乐性使用。
第二,要建立一个“Token经济效率”的衡量标准,也就是“单位Token能创造多少经济价值”这个比率。这个指标如果持续上升,说明AI对经济的赋能在变得更高效;如果反过来持续下降,则可能是泡沫或浪费的信号。它本身就是一个重要的经济诊断工具。
即便解决了这两个前提,Token消耗和经济产出之间的关系形态仍然不太可能是一条直线,而更接近一条S型曲线。
早期阶段,企业还在学习和试验如何用AI,Token消耗增长很快,但产出跟不上;中期阶段应用逐渐成熟,经济产出随着Token消耗一起快速放大;到了后期,边际收益开始递减,产出增速放缓。不同行业、不同国家当前处在这条曲线的不同位置上,这也是为什么“AI对GDP的拉动”至今众说纷纭,每个经济体的节奏不同。
这里还有一个容易被忽略的反向趋势:随着模型能力提升、推理优化进步、用户使用技巧成熟,完成同一件事所需要的Token数量实际上反而在减少。
一年前要靠几千个Token才能写好的代码,今天可能只需要几百个。这意味着Token消耗的总量增长,很可能会慢于经济价值的增长——“Token 效率”将成为一个持续改善的指标,这也让Token消耗量本身作为产出指标的意义被进一步稀释。
更根本的挑战其实在另一层:大量Token价值不经过交易,因此不会被GDP统计。比如说一个学生用AI做课业辅导、一个普通人用AI做健康咨询、一个创作者用AI提升个人效率等,这些Token消耗都创造了真实的价值,但其中绝大部分没有进入交易环节,不会被计入GDP。按照现有的核算体系,这部分价值就像暗物质一样客观存在却无法被测量。
当越来越多的价值创造发生在交易之外、当AI让非市场化的服务变得唾手可得、当个体的效率提升远远超出传统统计的捕捉能力时,我们习以为常的那套衡量经济的语言可能已经跟不上了。
因此,这场Token经济的叙事,核心不是探讨它未来究竟是否会成为货币,而是关注其背后的关于效率、结构与控制权的再分配:
谁能用更少的Token创造更多的价值,谁就掌握了新的生产力;
谁能构建更高效的Agent系统,谁就拥有新的组织优势;
而谁能定义标准、掌握入口、形成生态,谁就可能在这场重构中获得类似“基础设施”的地位。
从卖Token到卖结果,就像从卖电到卖光明。
从这个意义上说,Token并不是答案,它更像是一个信号。
它在提醒我们:
我们正在从“使用工具的时代”,走向“构建自动化系统的时代”;
从“劳动驱动的增长”,走向“机器驱动的经济”;
从“生产函数中加入AI”,走向“生产函数本身被AI重写”。
而这,或许才是这场变革真正的开始
