全球首个完全AI编写的训练框架来了,速度反超英伟达:面壁要用 AI 把国产算力软件重写一遍

小新 正三品 (侍郎) 2026-06-01 03:14 3 0 返回 AI 动态
小新 正三品 (侍郎) 楼主
2026-06-01 03:14
第1楼

摘要:nbsp;“AI 研发 AI 研究”并非处于概念阶段,海外头部模型公司已经逐渐实践。nbsp;早在 2024 年 10 月,Anthropic 创始人 Dario Amodei 就将“自动化 AI 研究”视为 AGI 时间表中最强的加速器之一,当前Claude系列模型也实现了自我递归迭代;今年3月,Andrej Karpathy 提出并开源“自动研究员”项目,尝试让 AI 自主研究如何优化模型训练。nbsp;目前,OpenClaw、Claude Code、Hermes Agent 等都可能被称为 Harness,但它们目标并不相同。


 

英伟达最难被替代的,从来不是一张 GPU,而是 CUDA 背后十几年积累出来的软件生态。

 

现在,面壁智能想用 AI 来压缩这十几年。

 

近日,面壁智能发布了全球首个全部由 AI 编写、零人介入、面向大模型训练基础设施的生产级训练框架 ForgeTrain。据面壁方面介绍,ForgeTrain 已经在华为升腾系列上完成 MiniCPM5-1B 的训练验证,整体速度提升10%。通过此框架, MiniCPM5-1B的预训练耗时为3-5天,MiniCPM4-0.5B 在英伟达 GPU上预训练用了两天。

 

面壁通过此框架想要验证:当大模型 coding 能力足够强、成本趋近于零时,我们不一定要继续做一个大而全的通用框架,而可以围绕每个模型、每类芯片和每个训练任务,现场“锻造”一套更合适的实现。

 

AI写代码,人来加Harness

 

在英伟达的 VibeTensor(作者包括陈天奇、贾扬清等)证明了 AI Agent 能写出复杂系统软件后,ForgeTrain 则围绕具体模型、芯片和训练任务现场生成生产级训练框架,目标更偏工程落地。

 

面壁团队介绍了ForgeTrain的三阶段构建方法论:

 

1. 从现有训练框架采集关键数据形成评测标准和Harness;

2. 从评测Harness构建二进制一致的训练框架版本(目前已经完成多机多卡版本,比英伟达 Megatron 训练速度快 10%);

3. 解除二进制一致的限制,迭代优化到超越 Megatron 的性能。

 

按照其说法,ForgeTrain 通过搭建一套专用 Harness,让 AI 在闭环环境中不断满足评测指标,并最终写出了一套训练框架。这个过程一旦启动,人类不再参与代码编写和中间修改,而是仅在最后进行验收。ForgeTrain 目前主要覆盖框架和算子层面,算法调参尚未开始从零交给 AI。

 

在实际效果上,ForgeTrain 已经能训练出与 Megatron 结果一致的模型。面壁称,在 MiniCPM 模型上,ForgeTrain 训练结果在人评和机评上与原有训练框架保持一致,同时在核心速度和成本指标上优于英伟达 Megatron,提升10%。

 

面壁智能 AI Infra 负责人李宇轩向 InfoQ 表示,在面壁团队的实践中,大部分工程约束是由模型自主处理的。少部分模型当前还做不到的部分,则会被融入 Harness 中,作为生成训练框架时的先验约束或评测规则。比如,在内存约束方面,AI 自己写出的框架在人的合适引导下,显存使用甚至低于 Megatron。未来,团队会逐渐提高Harness 层面中的 AI 参与比例。

 

面壁团队在构建 Harness 时,会尽量加入更具第一性的工程方法论,让尽可能多的失败在代码生成阶段就被测出,并由 AI 自行修复,依次减少训练失败率。据介绍,从目前结果看,ForgeTrain 相对稳定,可以连续运行数天并完成模型训练。

 

“我们已经拿ForgeTrain训出来模型了,而且训出来的模型和我们用 Megatron 训出来的模型效果是一致的。”李宇轩表示,这直接就证明了ForgeTrain 的生产级可靠性。

 

他进一步解释称,所谓生产级,并不是说 ForgeTrain 已经可以立刻覆盖全球所有模型训练场景,而是至少在 MiniCPM 上,它已经完成了从框架生成到实际训练再到效果验证的闭环。训练出的模型在人评和机评上与原有模型一致,因此它在该场景中已经达到了生产级水平。

 

据悉,ForgeTrain 在内部 8B 模型的验证也已经完成,接下来团队会继续推进 MoE 等更复杂模型,向更大、更复杂模型扩展,并可能在一两个月内取得进展。

 

当写代码没有成本,软件就应“现场锻造”

 

过去几年,大模型进步主要依赖三件事:更多数据、更大算力和更高资本投入。但现在,高质量互联网数据正在被快速消耗,GPU、数据中心、电力等基础设施越来越紧张,继续靠“堆资源”推动模型进化,成本越来越高,边际收益也在下降。

 

在这种背景下,行业必须寻找新的效率来源,面壁则将目标对准了“AI 研发 AI ”。

 

 

 

AI 研发 AI 的价值就在于给定资源下的研发效率提升。人类工程师写代码、跑实验、调框架、做数据管线,往往需要数天、数周甚至数月;而 AI 在部分任务上可以把效率提升 10 倍到 100 倍。如果 AI 能参与代码生成、训练框架开发、算子优化、数据生成、评测反馈、实验迭代甚至模型架构探索,整个 AI 研发链条就会被大幅加速。

 

“AI 研发 AI 研究”并非处于概念阶段,海外头部模型公司已经逐渐实践。

 

早在 2024 年 10 月,Anthropic 创始人 Dario Amodei 就将“自动化 AI 研究”视为 AGI 时间表中最强的加速器之一,当前Claude系列模型也实现了自我递归迭代;今年3月,Andrej Karpathy 提出并开源“自动研究员”项目,尝试让 AI 自主研究如何优化模型训练。与ForgeTrain 更偏训练框架和基础设施层不同,Karpathy 的项目主要聚焦算法层面。

 

如何让 AI 真正接管 AI 研发?李宇轩认为,关键在于一个共识:可评测的问题最终会被 AI 解决,即只要一个问题能够被高效评测,并且能够为模型准备足够专家数据,再通过强化学习将能力回流到模型,AI 就会逐渐把这个问题做得越来越好。

 

这一方法已经在博弈、数学、代码等领域得到验证,但AI 研发本身并没有天然存在的评测环境,AI 训练框架、算法创新、数据管线等任务往往更复杂、更昂贵,也更难被包装成一个稳定的评测系统。

 

这正是 Harness 的意义。Harness 本质上是把一个目标包装成一整套系统:包括环境、上下文、工具、任务流程和评分标准。将 AI 放入这个系统后,它可以根据反馈不断完成任务、修正错误并提升能力。

 

传统任务之所以更容易被 AI 学会,是因为 Harness 天然存在。比如代码任务有编译器、单元测试和运行结果;数学任务有形式化验证或标准答案;游戏任务有胜负机制。相比之下,“AI 制造 AI”没有现成 Harness,而且运行成本很高,因此发展更慢。

 

面壁现在就是为“AI 制造 AI”建立“考场”。当 AI 研发任务能够被包装成可评测环境,AI 就可以在其中训练、试错和提升。ForgeTrain 正是在训练基础设施层面搭建这样一个 Harness 的尝试。

 

并且,基于这一思路,面壁提出了 Forge Engineering,即“锻造工程”。此次发布的 ForgeTrain,正是 Forge Engineering 在大模型训练基础设施上的具体实践。

 

李宇轩表示,过去软件工程追求大型通用框架,是因为人类写代码、维护代码的成本很高。一个训练框架往往需要支持大量模型结构,包括普通稠密模型、MoE 模型、不同参数规模、不同并行策略等。为了降低开发和维护成本,行业不得不把复杂功能整合进一套大而全的通用系统中。

 

但在 AI 写代码能力快速提升后,代码生产成本正在接近于零。如果写代码已经不再是主要负担,那么就没有必要把本不该强行通用的东西捏合在一起,而可以为每一种具体需求重新生成一份最适合它的代码。

 

这就是 Forge Engineering 的核心:并非让 AI 继续写越来越庞大的通用框架,而是让 AI 像工匠一样,为不同模型、不同芯片、不同训练任务“现场锻造”一套高度定制化的软件系统。

 

ForgeTrain 能在核心效率指标上相比 Megatron 10% 的提升,李宇轩认为,这背后的关键原因,并不是它写出了一个更庞大的通用框架,而是它可以针对某一种模型类型做深度定制优化。

 

Megatron 需要覆盖更广模型和场景,因此必须在通用性和性能之间做权衡;ForgeTrain 则可以为特定模型从零生成一套更贴合需求的框架,从而获得更细粒度优化空间。

 

“到年底能把国产算力软件全做一遍”

 

ForgeTrain 的另一个重要意义,在于它为国产算力软件生态的赶超提供了一种新思路。

 

李宇轩表示,英伟达生态之所以好用,并不是某一个框架单点优秀,而是它长期积累了大量开发者和工程实践。各种坑已经被开发者反复踩过,各种工具链和细节也在长期迭代中被打磨成熟。相比之下,国产算力生态起步较晚,同时英伟达还在投入,若仍依靠人类开发者一点点打磨生态,追赶难度很高。

 

业界也曾尝试通过TVM等开源编译框架实现“一次编写,自动适配所有硬件”,但不同算法与不同芯片架构的组合优化方案近乎无穷,传统规则搜索方式难以覆盖;而为兼容所有硬件而构建的通用抽象层,不仅牺牲性能,还带来巨大的维护工作量,最终解决问题的工具反而成了问题本身。

 

“AI 可能改变这一局面。”李宇轩认为,人类开发者再多,也不如 AI 不知疲倦地打磨各个细节。真正让国产软件生态接近英伟达的方法,可能是让 AI 成为大量开发者本身,持续优化训练框架、推理框架、算子、数据管线、工具链和各类工程细节。

 

“ForgeTrain 是这一方向的第一步。面壁已经能够在华为升腾生态上生成新的训练框架。未来,当用户需要训练一种新模型时,只要把模型需求告诉系统,系统就有可能直接生成对应框架。”李宇轩说道,用户需要什么,生态就能给出什么,这才是一个好生态的理想状态。

 

从客观上说,这件事大家都可以做。但李宇轩表示,就像所有公司都可以做coding模型,但真正做到最好并形成优势的公司仍然有限。

 

今年,面壁的目标,就是把模型训练环节中不好用的软件用 AI 重写,并且重写AI的软件可以很快再帮其他家模型重写一个框架。面壁表示,到年底能把头部国产算力软件全做一遍。

 

未来,面壁希望用同一套技术路线覆盖训练框架、推理框架、强化学习框架、数据管线和算法范式,并适配国产算力、英伟达以及其他端侧芯片。

 

Harness仍处蛮荒期,Forge的前提是成本

 

值得注意的是,随着 AI 接管更多研发环节,人类在研发流程中的位置也在变化。

 

”原来是大家都在讲  Human in the Loop,但是今年大家至少已经开始转型成 Human on the Loop。 前者是说在整个环节里面, AI 已经在跑一些环节,但一些环节会有人看着;后者是说 AI 已经自主运转了,人只盯着这个系统里面有没有什么问题,有问题了再调整。”李宇轩说道,面壁目前就在往 Human on the Loop方向转型。

 

而这种变化也会影响研发组织。李宇轩认为,从表面看,组织结构可能还没有发生剧烈变化,但研发范式和人与人之间的协作关系事实上已经在改变。随着 AI 在更多研发任务中成为主体,形式上的组织变化可能会在合适的时机自然发生。

 

近期,有消息称 DeepSeek 等公司正在组建 Harness 相关团队。

 

对于 Harness 团队,李宇轩认为,不同公司可以选择集中式团队,也可以由多个团队分散建设,关键要因地制宜。但无论组织形态如何,核心理念应当一致:让 AI 尽可能获得更多信息,尝试让它接手更多事情,并在这个过程中识别 AI 仍然做不好的部分,再进行针对性解决和快速迭代。

 

尽管 Harness 成为行业热词,但李宇轩也强调,当前行业对 Harness 的理解还没有完全形成共识。

 

有些人认为 Harness 只是“新瓶装旧酒”,因为软件工程中早已有框架、工具链、执行环境、评测系统等概念。但这个词之所以在当下变得重要,是因为模型能力进入了新的阶段,模型外部的环境设计和工具组织开始成为能力突破的关键。

 

目前,OpenClaw、Claude Code、Hermes Agent 等都可能被称为 Harness,但它们目标并不相同。有些 Harness 是在模型外部套一层壳,让模型在各种任务上都表现得还不错;有些 Harness 是为了让最强模型变得更强;还有一些 Harness 的目标,是让较弱模型对齐 Claude Code 或 Anthropic 模型的能力。

 

ForgeTrain 的 Harness 则是另一类。它不是通用 Harness,而是为“AI 制造 AI”中的训练框架生成任务设计的专用 Harness,目标是让模型在一个垂直领域里能力大幅增强,而不是让模型在所有任务上都泛化表现。

 

Forge 工程则是在 Harness 工程之上的一种软件生产范式。它的核心前提是:AI 写代码的成本会快速下降。当代码生成变得足够便宜、足够快,软件工程就不必继续把所有需求都压进一个大而全的通用系统,而可以为每个具体任务生成高度定制的软件系统。

 

以训练框架为例,传统框架可能要同时支持千问、Llama、DeepSeek、MiniCPM、MoE 等大量模型。但在 Forge Engineering 中,如果千问和 Llama 足够相似,可以共用一套框架;如果千问和 DeepSeek 差异很大,就可以从零写两套框架,让各自都得到更好优化。

 

李宇轩用手机作比喻:今天的 iPhone 是非常优秀的通用产品,因为背后有一家大型公司长期优化。但如果未来生产效率足够高,最理想的产品可能不是一台通用手机,而是“乔布斯坐在你旁边,用一天时间为你打造一台完全满足你需求的手机”。Forge Engineering 希望在软件层面实现类似效果。

 

李宇轩认为,当前 Harness 行业整体仍处于蛮荒状态。不同团队的目标、方法、评测标准和技术路径都可能不同。但它们的共同点在于:都试图在模型之上建立一套“缰绳”,为模型提供稳定环境、工具、上下文和行动指引,让模型能够完成更复杂的任务。

 

暂无回复,快来抢沙发吧!

  • 1 / 1 页
敬请注意:文中内容观点和各种评论不代表本网立场!若有违规侵权,请联系我们