首页信息技术 AI 动态

Cloudflare构建了面向LLM的高性能基础设施

小新正三品 (侍郎) 2026-05-10 00:56 23 0 返回 AI 动态

小

小新正三品 (侍郎) 楼主

2026-05-10 00:56

第1楼

摘要：Cloudflare首席产品经理Michelle Chen"、高级工程经理Kevin Flansburg"和首席系统工程师Vlad Krasnov"撰文指出：我们用来提升性能与资源效率的硬件架构叫做解耦预填充（disaggregated prefill）。Cloudflare此前曾发文介绍如何在自己的AI推理平台部署开源模型"，率先在Workers AI上线了Moonshot AI的Kimi K2.5模型，并透露团队正在采用多样化的硬件配置，适配各类大模型的最优运行需求。Cloudflare近期还推出了Unweight"模型压缩系统，官方称可在无损精度的前提下，将大语言模型权重压缩了15%–22%，减少推理时GPU加载与传输的数据量，让模型运行更快、资源效率更高。

Cloudflare最近发布了全新的基础设施"，可以在其全球边缘网络上运行大型的AI大语言模型。由于这类模型依赖昂贵的硬件，并且需要处理海量的输入和输出文本数据，Cloudflare将模型输入处理与输出生成拆分到不同的专用优化系统中，并自研推理引擎实现GPU资源的更高效调度。

Cloudflare团队表示，其中的一个核心优化是把模型推理拆分为两个阶段，由不同服务器分别进行处理，一个阶段负责读取并预处理输入文本，另一阶段专注生成输出内容。Cloudflare首席产品经理Michelle Chen"、高级工程经理Kevin Flansburg"和首席系统工程师Vlad Krasnov"撰文指出：

我们用来提升性能与资源效率的硬件架构叫做解耦预填充（disaggregated prefill）。LLM请求处理分为两个阶段，预填充阶段处理输入Token并填充KV缓存，解码阶段逐一生成输出Token。预填充通常属于计算密集型负载，而解码则是内存密集型负载。

Cloudflare还自研了名为Infire"的AI推理引擎。该引擎在2025年Cloudflare周年庆活动期间正式发布，它可以跨多GPU更高效地运行大语言模型，降低内存占用、缩短模型启动时间，最终实现更低的响应延迟。

像Kimi K2.5这类大语言模型体量极其庞大（参数规模超万亿、模型大小约560GB），必须拆分部署到多块GPU上，仅加载模型到内存就至少需要8块H100显卡，这还未计入推理过程额外占用的内存开销。当谈及Infire引擎与硬件优化为何能高效支撑超大规模的模型、并为用户提供更快的响应时，Chen、Flansburg和Krasnov补充说：

在流水线并行方面，Infire会对流水线所有阶段做合理的负载均衡，避免某一阶段GPU空闲等待而其他阶段满载执行的资源饥饿问题。在张量（tensor）并行方面，Infire以减少GPU间通信开销为优化目标，尽可能提升通信效率。对绝大多数模型而言，流水线并行与张量并行结合使用，就能在吞吐量和延迟之间取得最优平衡。

Cloudflare此前曾发文介绍如何在自己的AI推理平台部署开源模型"，率先在Workers AI上线了Moonshot AI的Kimi K2.5模型，并透露团队正在采用多样化的硬件配置，适配各类大模型的最优运行需求。

图片来源：Cloudflare的博客文章

Cloudflare表示，团队进一步对Infire做了内存优化，缩减内部流程的GPU内存开销，如今仅需2块H200 GPU即可运行Llama 4 Scout，并且仍留有充足容量支撑上下文Token，8块H100GPU便可运行Kimi K2.5，同时预留出足够内存用于KV缓存。

Cloudflare近期还推出了Unweight"模型压缩系统，官方称可在无损精度的前提下，将大语言模型权重压缩了15%–22%，减少推理时GPU加载与传输的数据量，让模型运行更快、资源效率更高。

并不是只有Cloudflare在关注大模型生产落地方面的基础设施挑战。Cockroach Labs最新“AI基础设施现状”报告"指出，随着企业将AI系统投入日常业务，大量企业发现现有基础设施无法承载AI负载所需的规模与可靠性要求：

传统基础设施围绕间歇性的人机交互而设计，无法承受AI这种高压力的负载。想要适配AI业务的高并发与不可预测性，企业不能只做性能升级，更需要从系统架构层面进行根本性的重构。

Cloudflare还分享了他们在提示词缓存（prompt caching）层面的效率优化方案"。

原文链接：

Cloudflare Builds High-Performance Infrastructure for Running LLMs"

赞 (0) 分享

暂无回复，快来抢沙发吧！

1 / 1 页

敬请注意：文中内容观点和各种评论不代表本网立场！若有违规侵权，请联系我们。

登录后参与讨论

新留园

Cloudflare构建了面向LLM的高性能基础设施

购买奏折推广