重新思考 AI TCO:为何每 Token 成本才是唯一重要的指标

小新 正四品 (知府) 2026-05-10 00:56 1 0 返回 AI 动态
小新 正四品 (知府) 楼主
2026-05-10 00:56
第1楼

摘要:对于云部署而言,这对应支付给云服务提供商的小时费用;而对于本地部署,则是通过摊销自有基础设施得到的等效小时成本。nbsp;仅从算力成本来看,NVIDIA Blackwell平台的成本似乎约为NVIDIA Hopper的2倍,但算力成本并不能说明这项投入究竟能带来多少实际产出。注:数据来源于NVIDIA分析报道及SemiAnalysis InferenceX v2" 基准测试。


传统数据中心过去主要用于数据的存储、检索与处理。但在生成式AI与代理式AI时代,这些设施已演变为AI Token工厂。随着AI推理成为其核心工作负载,它们的主要产出已转变为以Token形式制造的智能。

 

这一转变也需要对包括总体拥有成本(TCO)在内的AI基础设施的经济效益评估的方式相应地进行调整。然而,在评估AI基础设施时,企业仍过于关注芯片峰值规格、计算成本,或每美元所能获得的浮点运算性能,即每美元FLOPS。

 

关键区别在于:

算力成本是企业为AI基础设施所支付的费用,无论是从云服务提供商租用,还是在本地自建部署。每美元FLOPS衡量的是企业每投入一美元所获得的原始算力,但原始算力并不等同于现实世界中的Token产出。每Token成本指的是企业生成并交付每一个Token的综合成本,通常以每百万Token成本来表示。

 

前两者仅是投入指标。但当业务围绕产出运转时,只针对投入优化,本质上是一种根本性的错配。

 

每Token成本决定了企业能否实现AI的规模化盈利。它是唯一能够直接综合反映硬件性能、软件优化、生态系统支持以及实际利用率的TCO指标,而NVIDIA在这一指标上实现了行业最低的每Token成本。

能够降低每Token成本的因素有哪些?

要理解如何优化每Token成本,首先需要了解用于计算“每百万Token成本”的计算公式。

 

在这个公式中,许多评估AI基础设施的企业往往只关注分子项,即每GPU每小时成本。对于云部署而言,这对应支付给云服务提供商的小时费用;而对于本地部署,则是通过摊销自有基础设施得到的等效小时成本。然而,降低每Token成本的关键在于分母,即最大化实际交付的Token产出。

 

这个分母传递了两层商业含义:

最小化每Token成本:当Token产出增加被代入公式时,将降低每Token成本,从而提升每一次交互服务的利润空间。最大化收入:每秒交付更多Token,也意味着每兆瓦产出更多的Token,这将带来更高的智能供给能力,使AI驱动的产品与服务能够在相同基础设施投入下创造更高收入。

 

因此,如果只关注分子,就会忽视真正决定分母的因素。可以将其理解为一个“推理冰山”:分子位于水面之上,直观可见且易于横向比较;而分母则隐藏在水面之下,那才是决定实际Token产出的关键因素。对AI基础设施的准确评估,应从探究水面之下的部分开始。

表层问题:

每GPU小时的成本是多少?峰值PetaFLOPS性能和高带宽内存容量是多少?每美元可获得多少FLOPS?

 

深度成本分析:

每百万Token的成本是多少?尤其是针对大规模混合专家(MoE)推理模型(当前部署最广泛的一类AI模型),其每百万Token成本是多少?每兆瓦可交付多少Token产出?尤其是对本地部署而言,由于在土地、电力与基础设施上的资本投入较大,最大化每兆瓦所产生的智能产出至关重要。纵向扩展(scale-up)互连是否能够支撑MoE模型所需的“all-to-all”通信模式?是否支持FP4精度?推理栈是否能够在保持高精度的同时充分利用FP4?推理运行时是否支持投机解码或多Token预测",以提升用户交互体验?服务层是否支持解耦服务、KV感知路由、KV缓存卸载"以及其他优化?平台是否支持代理式AI的独特工作负载需求,包括超低延迟、高吞吐以及长输入序列长度等?平台是否支持从训练、后训练到大规模推理的完整生命周期,并覆盖所有模型架构,从而实现基础设施可互换性与高利用率?

 

这些算法、硬件与软件化中的每一项优化都必须有效并且是可以相互集成的,否则分母项将无法成立。一块看似“更便宜”的GPU,如果其每秒Token产出数量明显更低,反而会导致更高的每Token成本。能够做到全栈真正优化的AI基础设施,才能够确保每项优化都相互增强,从而持续提升整体效率。

为什么每Token成本比每美元FLOPS更重要?

以下DeepSeek-R1 AI模型的数据展示了理论指标与实际商业结果之间的差异。

 

仅从算力成本来看,NVIDIA Blackwell平台的成本似乎约为NVIDIA Hopper的2倍,但算力成本并不能说明这项投入究竟能带来多少实际产出。如果仅以每美元FLOPS进行分析,相较于NVIDIA Hopper架构,NVIDIA Blackwell仅有约2倍优势。然而,实际结果却呈现出数量级差异:Blackwell每瓦的Token产出量是Hopper的50倍以上,每百万Token的成本降低至其1/35 左右。

注:数据来源于NVIDIA分析报道及SemiAnalysis InferenceX v2" 基准测试。

 

这一悬殊差异表明,相较于上一代Hopper,NVIDIA Blackwell在商业价值上实现了巨大的跃迁,其提升幅度远超系统成本的增加。

如何选择合适的AI基础设施?

仅凭算力成本或每美元理论FLOPS来比较AI基础设施,不仅是不充分的,也无法真实反映推理经济学。正如数据所展示的,要准确评估AI基础设施的营收潜力与盈利能力,需将衡量维度从输入指标转向每Token成本和实际Token产出量。

 

NVIDIA通过在计算、网络、内存、存储、软件以及合作伙伴技术上的极致协同设计",实现了业内最低的Token成本与最高的Token吞吐量。此外,诸如vLLM、SGLang、NVIDIA TensorRT-LLM以及NVIDIA Dynamo等基于NVIDIA平台构建的开源推理软件的持续优化,意味着在现有NVIDIA基础设施部署后,Token产出仍可不断提升,每Token成本会持续下降。

 

一些云服务提供商与NVIDIA云合作伙伴,已在规模化部署中充分体现这一优势。包括CoreWeave"、Nebius"、Nscale" 与Together AI" 在内的合作伙伴,已部署NVIDIA Blackwell基础设施",并对其技术栈进行了优化,为企业提供当前最低的Token成本,同时充分发挥NVIDIA在硬件、软件与生态系统协同设计方面的全部优势,使每一次AI交互的处理都建立在这一完整体系之上。

暂无回复,快来抢沙发吧!

  • 1 / 1 页
敬请注意:文中内容观点和各种评论不代表本网立场!若有违规侵权,请联系我们