摘要:Cloudflare首席产品经理Michelle Chen"、高级工程经理Kevin Flansburg"和首席系统工程师Vlad Krasnov"撰文指出:我们用来提升性能与资源效率的硬件架构叫做解耦预填充(disaggregated prefill)。Cloudflare此前曾发文介绍如何在自己的AI推理平台部署开源模型",率先在Workers AI上线了Moonshot AI的Kimi K2.5模型,并透露团队正在采用多样化的硬件配置,适配各类大模型的最优运行需求。Cloudflare近期还推出了Unweight"模型压缩系统,官方称可在无损精度的前提下,将大语言模型权重压缩了15%–22%,减少推理时GPU加载与传输的数据量,让模型运行更快、资源效率更高。
Cloudflare最近发布了全新的基础设施",可以在其全球边缘网络上运行大型的AI大语言模型。由于这类模型依赖昂贵的硬件,并且需要处理海量的输入和输出文本数据,Cloudflare将模型输入处理与输出生成拆分到不同的专用优化系统中,并自研推理引擎实现GPU资源的更高效调度。
Cloudflare团队表示,其中的一个核心优化是把模型推理拆分为两个阶段,由不同服务器分别进行处理,一个阶段负责读取并预处理输入文本,另一阶段专注生成输出内容。Cloudflare首席产品经理Michelle Chen"、高级工程经理Kevin Flansburg"和首席系统工程师Vlad Krasnov"撰文指出:
我们用来提升性能与资源效率的硬件架构叫做解耦预填充(disaggregated prefill)。LLM请求处理分为两个阶段,预填充阶段处理输入Token并填充KV缓存,解码阶段逐一生成输出Token。预填充通常属于计算密集型负载,而解码则是内存密集型负载。
Cloudflare还自研了名为Infire"的AI推理引擎。该引擎在2025年Cloudflare周年庆活动期间正式发布,它可以跨多GPU更高效地运行大语言模型,降低内存占用、缩短模型启动时间,最终实现更低的响应延迟。
像Kimi K2.5这类大语言模型体量极其庞大(参数规模超万亿、模型大小约560GB),必须拆分部署到多块GPU上,仅加载模型到内存就至少需要8块H100显卡,这还未计入推理过程额外占用的内存开销。当谈及Infire引擎与硬件优化为何能高效支撑超大规模的模型、并为用户提供更快的响应时,Chen、Flansburg和Krasnov补充说:
在流水线并行方面,Infire会对流水线所有阶段做合理的负载均衡,避免某一阶段GPU空闲等待而其他阶段满载执行的资源饥饿问题。在张量(tensor)并行方面,Infire以减少GPU间通信开销为优化目标,尽可能提升通信效率。对绝大多数模型而言,流水线并行与张量并行结合使用,就能在吞吐量和延迟之间取得最优平衡。
Cloudflare此前曾发文介绍如何在自己的AI推理平台部署开源模型",率先在Workers AI上线了Moonshot AI的Kimi K2.5模型,并透露团队正在采用多样化的硬件配置,适配各类大模型的最优运行需求。
图片来源:Cloudflare的博客文章
Cloudflare表示,团队进一步对Infire做了内存优化,缩减内部流程的GPU内存开销,如今仅需2块H200 GPU即可运行Llama 4 Scout,并且仍留有充足容量支撑上下文Token,8块H100GPU便可运行Kimi K2.5,同时预留出足够内存用于KV缓存。
Cloudflare近期还推出了Unweight"模型压缩系统,官方称可在无损精度的前提下,将大语言模型权重压缩了15%–22%,减少推理时GPU加载与传输的数据量,让模型运行更快、资源效率更高。
并不是只有Cloudflare在关注大模型生产落地方面的基础设施挑战。Cockroach Labs最新“AI基础设施现状”报告"指出,随着企业将AI系统投入日常业务,大量企业发现现有基础设施无法承载AI负载所需的规模与可靠性要求:
传统基础设施围绕间歇性的人机交互而设计,无法承受AI这种高压力的负载。想要适配AI业务的高并发与不可预测性,企业不能只做性能升级,更需要从系统架构层面进行根本性的重构。
Cloudflare还分享了他们在提示词缓存(prompt caching)层面的效率优化方案"。
原文链接:
Cloudflare Builds High-Performance Infrastructure for Running LLMs"
暂无回复,快来抢沙发吧!
本次需消耗银元:
100
当前账户余额: 0 银元
Cloudflare最近发布了全新的基础设施",可以在其全球边缘网络上运行大型的AI大语言模型。由于这类模型依赖昂贵的硬件,并且需要处理海量的输入和输出文本数据,Cloudflare将模型输入处理与输出生成拆分到不同的专用优化系统中,并自研推理引擎实现GPU资源的更高效调度。
Cloudflare团队表示,其中的一个核心优化是把模型推理拆分为两个阶段,由不同服务器分别进行处理,一个阶段负责读取并预处理输入文本,另一阶段专注生成输出内容。Cloudflare首席产品经理Michelle Chen"、高级工程经理Kevin Flansburg"和首席系统工程师Vlad Krasnov"撰文指出:
Cloudflare还自研了名为Infire"的AI推理引擎。该引擎在2025年Cloudflare周年庆活动期间正式发布,它可以跨多GPU更高效地运行大语言模型,降低内存占用、缩短模型启动时间,最终实现更低的响应延迟。
像Kimi K2.5这类大语言模型体量极其庞大(参数规模超万亿、模型大小约560GB),必须拆分部署到多块GPU上,仅加载模型到内存就至少需要8块H100显卡,这还未计入推理过程额外占用的内存开销。当谈及Infire引擎与硬件优化为何能高效支撑超大规模的模型、并为用户提供更快的响应时,Chen、Flansburg和Krasnov补充说:
Cloudflare此前曾发文介绍如何在自己的AI推理平台部署开源模型",率先在Workers AI上线了Moonshot AI的Kimi K2.5模型,并透露团队正在采用多样化的硬件配置,适配各类大模型的最优运行需求。
图片来源:Cloudflare的博客文章
Cloudflare表示,团队进一步对Infire做了内存优化,缩减内部流程的GPU内存开销,如今仅需2块H200 GPU即可运行Llama 4 Scout,并且仍留有充足容量支撑上下文Token,8块H100GPU便可运行Kimi K2.5,同时预留出足够内存用于KV缓存。
Cloudflare近期还推出了Unweight"模型压缩系统,官方称可在无损精度的前提下,将大语言模型权重压缩了15%–22%,减少推理时GPU加载与传输的数据量,让模型运行更快、资源效率更高。
并不是只有Cloudflare在关注大模型生产落地方面的基础设施挑战。Cockroach Labs最新“AI基础设施现状”报告"指出,随着企业将AI系统投入日常业务,大量企业发现现有基础设施无法承载AI负载所需的规模与可靠性要求:
Cloudflare还分享了他们在提示词缓存(prompt caching)层面的效率优化方案"。
原文链接:
Cloudflare Builds High-Performance Infrastructure for Running LLMs"