首页信息技术 AI 动态

重新思考 AI TCO：为何每 Token 成本才是唯一重要的指标

小新正四品 (知府) 2026-05-10 00:56 1 0 返回 AI 动态

小

小新正四品 (知府) 楼主

2026-05-10 00:56

第1楼

摘要：对于云部署而言，这对应支付给云服务提供商的小时费用；而对于本地部署，则是通过摊销自有基础设施得到的等效小时成本。nbsp;仅从算力成本来看，NVIDIA Blackwell平台的成本似乎约为NVIDIA Hopper的2倍，但算力成本并不能说明这项投入究竟能带来多少实际产出。注：数据来源于NVIDIA分析报道及SemiAnalysis InferenceX v2" 基准测试。

传统数据中心过去主要用于数据的存储、检索与处理。但在生成式AI与代理式AI时代，这些设施已演变为AI Token工厂。随着AI推理成为其核心工作负载，它们的主要产出已转变为以Token形式制造的智能。

这一转变也需要对包括总体拥有成本（TCO）在内的AI基础设施的经济效益评估的方式相应地进行调整。然而，在评估AI基础设施时，企业仍过于关注芯片峰值规格、计算成本，或每美元所能获得的浮点运算性能，即每美元FLOPS。

关键区别在于：

算力成本是企业为AI基础设施所支付的费用，无论是从云服务提供商租用，还是在本地自建部署。每美元FLOPS衡量的是企业每投入一美元所获得的原始算力，但原始算力并不等同于现实世界中的Token产出。每Token成本指的是企业生成并交付每一个Token的综合成本，通常以每百万Token成本来表示。

前两者仅是投入指标。但当业务围绕产出运转时，只针对投入优化，本质上是一种根本性的错配。

每Token成本决定了企业能否实现AI的规模化盈利。它是唯一能够直接综合反映硬件性能、软件优化、生态系统支持以及实际利用率的TCO指标，而NVIDIA在这一指标上实现了行业最低的每Token成本。

能够降低每Token成本的因素有哪些？

要理解如何优化每Token成本，首先需要了解用于计算“每百万Token成本”的计算公式。

在这个公式中，许多评估AI基础设施的企业往往只关注分子项，即每GPU每小时成本。对于云部署而言，这对应支付给云服务提供商的小时费用；而对于本地部署，则是通过摊销自有基础设施得到的等效小时成本。然而，降低每Token成本的关键在于分母，即最大化实际交付的Token产出。

这个分母传递了两层商业含义：

最小化每Token成本：当Token产出增加被代入公式时，将降低每Token成本，从而提升每一次交互服务的利润空间。最大化收入：每秒交付更多Token，也意味着每兆瓦产出更多的Token，这将带来更高的智能供给能力，使AI驱动的产品与服务能够在相同基础设施投入下创造更高收入。

因此，如果只关注分子，就会忽视真正决定分母的因素。可以将其理解为一个“推理冰山”：分子位于水面之上，直观可见且易于横向比较；而分母则隐藏在水面之下，那才是决定实际Token产出的关键因素。对AI基础设施的准确评估，应从探究水面之下的部分开始。

表层问题：

每GPU小时的成本是多少？峰值PetaFLOPS性能和高带宽内存容量是多少？每美元可获得多少FLOPS？

深度成本分析：

每百万Token的成本是多少？尤其是针对大规模混合专家（MoE）推理模型（当前部署最广泛的一类AI模型），其每百万Token成本是多少？每兆瓦可交付多少Token产出？尤其是对本地部署而言，由于在土地、电力与基础设施上的资本投入较大，最大化每兆瓦所产生的智能产出至关重要。纵向扩展（scale-up）互连是否能够支撑MoE模型所需的“all-to-all”通信模式？是否支持FP4精度？推理栈是否能够在保持高精度的同时充分利用FP4？推理运行时是否支持投机解码或多Token预测"，以提升用户交互体验？服务层是否支持解耦服务、KV感知路由、KV缓存卸载"以及其他优化？平台是否支持代理式AI的独特工作负载需求，包括超低延迟、高吞吐以及长输入序列长度等？平台是否支持从训练、后训练到大规模推理的完整生命周期，并覆盖所有模型架构，从而实现基础设施可互换性与高利用率？

这些算法、硬件与软件化中的每一项优化都必须有效并且是可以相互集成的，否则分母项将无法成立。一块看似“更便宜”的GPU，如果其每秒Token产出数量明显更低，反而会导致更高的每Token成本。能够做到全栈真正优化的AI基础设施，才能够确保每项优化都相互增强，从而持续提升整体效率。

为什么每Token成本比每美元FLOPS更重要？

以下DeepSeek-R1 AI模型的数据展示了理论指标与实际商业结果之间的差异。

仅从算力成本来看，NVIDIA Blackwell平台的成本似乎约为NVIDIA Hopper的2倍，但算力成本并不能说明这项投入究竟能带来多少实际产出。如果仅以每美元FLOPS进行分析，相较于NVIDIA Hopper架构，NVIDIA Blackwell仅有约2倍优势。然而，实际结果却呈现出数量级差异：Blackwell每瓦的Token产出量是Hopper的50倍以上，每百万Token的成本降低至其1/35 左右。

注：数据来源于NVIDIA分析报道及SemiAnalysis InferenceX v2" 基准测试。

这一悬殊差异表明，相较于上一代Hopper，NVIDIA Blackwell在商业价值上实现了巨大的跃迁，其提升幅度远超系统成本的增加。

如何选择合适的AI基础设施？

仅凭算力成本或每美元理论FLOPS来比较AI基础设施，不仅是不充分的，也无法真实反映推理经济学。正如数据所展示的，要准确评估AI基础设施的营收潜力与盈利能力，需将衡量维度从输入指标转向每Token成本和实际Token产出量。

NVIDIA通过在计算、网络、内存、存储、软件以及合作伙伴技术上的极致协同设计"，实现了业内最低的Token成本与最高的Token吞吐量。此外，诸如vLLM、SGLang、NVIDIA TensorRT-LLM以及NVIDIA Dynamo等基于NVIDIA平台构建的开源推理软件的持续优化，意味着在现有NVIDIA基础设施部署后，Token产出仍可不断提升，每Token成本会持续下降。

一些云服务提供商与NVIDIA云合作伙伴，已在规模化部署中充分体现这一优势。包括CoreWeave"、Nebius"、Nscale" 与Together AI" 在内的合作伙伴，已部署NVIDIA Blackwell基础设施"，并对其技术栈进行了优化，为企业提供当前最低的Token成本，同时充分发挥NVIDIA在硬件、软件与生态系统协同设计方面的全部优势，使每一次AI交互的处理都建立在这一完整体系之上。

赞 (0) 分享

暂无回复，快来抢沙发吧！

1 / 1 页

敬请注意：文中内容观点和各种评论不代表本网立场！若有违规侵权，请联系我们。

登录后参与讨论

新留园

重新思考 AI TCO：为何每 Token 成本才是唯一重要的指标

能够降低每Token成本的因素有哪些？

为什么每Token成本比每美元FLOPS更重要？

如何选择合适的AI基础设施？

购买奏折推广