首页信息技术 AI 动态

全球首个完全AI编写的训练框架来了，速度反超英伟达：面壁要用 AI 把国产算力软件重写一遍

小新正三品 (侍郎) 2026-06-01 03:14 29 0 返回 AI 动态

小

小新正三品 (侍郎) 楼主

2026-06-01 03:14

第1楼

摘要：nbsp;“AI 研发 AI 研究”并非处于概念阶段，海外头部模型公司已经逐渐实践。nbsp;早在 2024 年 10 月，Anthropic 创始人 Dario Amodei 就将“自动化 AI 研究”视为 AGI 时间表中最强的加速器之一，当前Claude系列模型也实现了自我递归迭代；今年3月，Andrej Karpathy 提出并开源“自动研究员”项目，尝试让 AI 自主研究如何优化模型训练。nbsp;目前，OpenClaw、Claude Code、Hermes Agent 等都可能被称为 Harness，但它们目标并不相同。

英伟达最难被替代的，从来不是一张 GPU，而是 CUDA 背后十几年积累出来的软件生态。

现在，面壁智能想用 AI 来压缩这十几年。

近日，面壁智能发布了全球首个全部由 AI 编写、零人介入、面向大模型训练基础设施的生产级训练框架 ForgeTrain。据面壁方面介绍，ForgeTrain 已经在华为升腾系列上完成 MiniCPM5-1B 的训练验证，整体速度提升10%。通过此框架， MiniCPM5-1B的预训练耗时为3-5天，MiniCPM4-0.5B 在英伟达 GPU上预训练用了两天。

面壁通过此框架想要验证：当大模型 coding 能力足够强、成本趋近于零时，我们不一定要继续做一个大而全的通用框架，而可以围绕每个模型、每类芯片和每个训练任务，现场“锻造”一套更合适的实现。

AI写代码，人来加Harness

在英伟达的 VibeTensor（作者包括陈天奇、贾扬清等）证明了 AI Agent 能写出复杂系统软件后，ForgeTrain 则围绕具体模型、芯片和训练任务现场生成生产级训练框架，目标更偏工程落地。

面壁团队介绍了ForgeTrain的三阶段构建方法论：

1. 从现有训练框架采集关键数据形成评测标准和Harness；

2. 从评测Harness构建二进制一致的训练框架版本（目前已经完成多机多卡版本，比英伟达 Megatron 训练速度快 10%）；

3. 解除二进制一致的限制，迭代优化到超越 Megatron 的性能。

按照其说法，ForgeTrain 通过搭建一套专用 Harness，让 AI 在闭环环境中不断满足评测指标，并最终写出了一套训练框架。这个过程一旦启动，人类不再参与代码编写和中间修改，而是仅在最后进行验收。ForgeTrain 目前主要覆盖框架和算子层面，算法调参尚未开始从零交给 AI。

在实际效果上，ForgeTrain 已经能训练出与 Megatron 结果一致的模型。面壁称，在 MiniCPM 模型上，ForgeTrain 训练结果在人评和机评上与原有训练框架保持一致，同时在核心速度和成本指标上优于英伟达 Megatron，提升10%。

面壁智能 AI Infra 负责人李宇轩向 InfoQ 表示，在面壁团队的实践中，大部分工程约束是由模型自主处理的。少部分模型当前还做不到的部分，则会被融入 Harness 中，作为生成训练框架时的先验约束或评测规则。比如，在内存约束方面，AI 自己写出的框架在人的合适引导下，显存使用甚至低于 Megatron。未来，团队会逐渐提高Harness 层面中的 AI 参与比例。

面壁团队在构建 Harness 时，会尽量加入更具第一性的工程方法论，让尽可能多的失败在代码生成阶段就被测出，并由 AI 自行修复，依次减少训练失败率。据介绍，从目前结果看，ForgeTrain 相对稳定，可以连续运行数天并完成模型训练。

“我们已经拿ForgeTrain训出来模型了，而且训出来的模型和我们用 Megatron 训出来的模型效果是一致的。”李宇轩表示，这直接就证明了ForgeTrain 的生产级可靠性。

他进一步解释称，所谓生产级，并不是说 ForgeTrain 已经可以立刻覆盖全球所有模型训练场景，而是至少在 MiniCPM 上，它已经完成了从框架生成到实际训练再到效果验证的闭环。训练出的模型在人评和机评上与原有模型一致，因此它在该场景中已经达到了生产级水平。

据悉，ForgeTrain 在内部 8B 模型的验证也已经完成，接下来团队会继续推进 MoE 等更复杂模型，向更大、更复杂模型扩展，并可能在一两个月内取得进展。

当写代码没有成本，软件就应“现场锻造”

过去几年，大模型进步主要依赖三件事：更多数据、更大算力和更高资本投入。但现在，高质量互联网数据正在被快速消耗，GPU、数据中心、电力等基础设施越来越紧张，继续靠“堆资源”推动模型进化，成本越来越高，边际收益也在下降。

在这种背景下，行业必须寻找新的效率来源，面壁则将目标对准了“AI 研发 AI ”。

AI 研发 AI 的价值就在于给定资源下的研发效率提升。人类工程师写代码、跑实验、调框架、做数据管线，往往需要数天、数周甚至数月；而 AI 在部分任务上可以把效率提升 10 倍到 100 倍。如果 AI 能参与代码生成、训练框架开发、算子优化、数据生成、评测反馈、实验迭代甚至模型架构探索，整个 AI 研发链条就会被大幅加速。

“AI 研发 AI 研究”并非处于概念阶段，海外头部模型公司已经逐渐实践。

早在 2024 年 10 月，Anthropic 创始人 Dario Amodei 就将“自动化 AI 研究”视为 AGI 时间表中最强的加速器之一，当前Claude系列模型也实现了自我递归迭代；今年3月，Andrej Karpathy 提出并开源“自动研究员”项目，尝试让 AI 自主研究如何优化模型训练。与ForgeTrain 更偏训练框架和基础设施层不同，Karpathy 的项目主要聚焦算法层面。

如何让 AI 真正接管 AI 研发？李宇轩认为，关键在于一个共识：可评测的问题最终会被 AI 解决，即只要一个问题能够被高效评测，并且能够为模型准备足够专家数据，再通过强化学习将能力回流到模型，AI 就会逐渐把这个问题做得越来越好。

这一方法已经在博弈、数学、代码等领域得到验证，但AI 研发本身并没有天然存在的评测环境，AI 训练框架、算法创新、数据管线等任务往往更复杂、更昂贵，也更难被包装成一个稳定的评测系统。

这正是 Harness 的意义。Harness 本质上是把一个目标包装成一整套系统：包括环境、上下文、工具、任务流程和评分标准。将 AI 放入这个系统后，它可以根据反馈不断完成任务、修正错误并提升能力。

传统任务之所以更容易被 AI 学会，是因为 Harness 天然存在。比如代码任务有编译器、单元测试和运行结果；数学任务有形式化验证或标准答案；游戏任务有胜负机制。相比之下，“AI 制造 AI”没有现成 Harness，而且运行成本很高，因此发展更慢。

面壁现在就是为“AI 制造 AI”建立“考场”。当 AI 研发任务能够被包装成可评测环境，AI 就可以在其中训练、试错和提升。ForgeTrain 正是在训练基础设施层面搭建这样一个 Harness 的尝试。

并且，基于这一思路，面壁提出了 Forge Engineering，即“锻造工程”。此次发布的 ForgeTrain，正是 Forge Engineering 在大模型训练基础设施上的具体实践。

李宇轩表示，过去软件工程追求大型通用框架，是因为人类写代码、维护代码的成本很高。一个训练框架往往需要支持大量模型结构，包括普通稠密模型、MoE 模型、不同参数规模、不同并行策略等。为了降低开发和维护成本，行业不得不把复杂功能整合进一套大而全的通用系统中。

但在 AI 写代码能力快速提升后，代码生产成本正在接近于零。如果写代码已经不再是主要负担，那么就没有必要把本不该强行通用的东西捏合在一起，而可以为每一种具体需求重新生成一份最适合它的代码。

这就是 Forge Engineering 的核心：并非让 AI 继续写越来越庞大的通用框架，而是让 AI 像工匠一样，为不同模型、不同芯片、不同训练任务“现场锻造”一套高度定制化的软件系统。

ForgeTrain 能在核心效率指标上相比 Megatron 10% 的提升，李宇轩认为，这背后的关键原因，并不是它写出了一个更庞大的通用框架，而是它可以针对某一种模型类型做深度定制优化。

Megatron 需要覆盖更广模型和场景，因此必须在通用性和性能之间做权衡；ForgeTrain 则可以为特定模型从零生成一套更贴合需求的框架，从而获得更细粒度优化空间。

“到年底能把国产算力软件全做一遍”

ForgeTrain 的另一个重要意义，在于它为国产算力软件生态的赶超提供了一种新思路。

李宇轩表示，英伟达生态之所以好用，并不是某一个框架单点优秀，而是它长期积累了大量开发者和工程实践。各种坑已经被开发者反复踩过，各种工具链和细节也在长期迭代中被打磨成熟。相比之下，国产算力生态起步较晚，同时英伟达还在投入，若仍依靠人类开发者一点点打磨生态，追赶难度很高。

业界也曾尝试通过TVM等开源编译框架实现“一次编写，自动适配所有硬件”，但不同算法与不同芯片架构的组合优化方案近乎无穷，传统规则搜索方式难以覆盖；而为兼容所有硬件而构建的通用抽象层，不仅牺牲性能，还带来巨大的维护工作量，最终解决问题的工具反而成了问题本身。

“AI 可能改变这一局面。”李宇轩认为，人类开发者再多，也不如 AI 不知疲倦地打磨各个细节。真正让国产软件生态接近英伟达的方法，可能是让 AI 成为大量开发者本身，持续优化训练框架、推理框架、算子、数据管线、工具链和各类工程细节。

“ForgeTrain 是这一方向的第一步。面壁已经能够在华为升腾生态上生成新的训练框架。未来，当用户需要训练一种新模型时，只要把模型需求告诉系统，系统就有可能直接生成对应框架。”李宇轩说道，用户需要什么，生态就能给出什么，这才是一个好生态的理想状态。

从客观上说，这件事大家都可以做。但李宇轩表示，就像所有公司都可以做coding模型，但真正做到最好并形成优势的公司仍然有限。

今年，面壁的目标，就是把模型训练环节中不好用的软件用 AI 重写，并且重写AI的软件可以很快再帮其他家模型重写一个框架。面壁表示，到年底能把头部国产算力软件全做一遍。

未来，面壁希望用同一套技术路线覆盖训练框架、推理框架、强化学习框架、数据管线和算法范式，并适配国产算力、英伟达以及其他端侧芯片。

Harness仍处蛮荒期，Forge的前提是成本

值得注意的是，随着 AI 接管更多研发环节，人类在研发流程中的位置也在变化。

”原来是大家都在讲 Human in the Loop，但是今年大家至少已经开始转型成 Human on the Loop。前者是说在整个环节里面， AI 已经在跑一些环节，但一些环节会有人看着；后者是说 AI 已经自主运转了，人只盯着这个系统里面有没有什么问题，有问题了再调整。”李宇轩说道，面壁目前就在往 Human on the Loop方向转型。

而这种变化也会影响研发组织。李宇轩认为，从表面看，组织结构可能还没有发生剧烈变化，但研发范式和人与人之间的协作关系事实上已经在改变。随着 AI 在更多研发任务中成为主体，形式上的组织变化可能会在合适的时机自然发生。

近期，有消息称 DeepSeek 等公司正在组建 Harness 相关团队。

对于 Harness 团队，李宇轩认为，不同公司可以选择集中式团队，也可以由多个团队分散建设，关键要因地制宜。但无论组织形态如何，核心理念应当一致：让 AI 尽可能获得更多信息，尝试让它接手更多事情，并在这个过程中识别 AI 仍然做不好的部分，再进行针对性解决和快速迭代。

尽管 Harness 成为行业热词，但李宇轩也强调，当前行业对 Harness 的理解还没有完全形成共识。

有些人认为 Harness 只是“新瓶装旧酒”，因为软件工程中早已有框架、工具链、执行环境、评测系统等概念。但这个词之所以在当下变得重要，是因为模型能力进入了新的阶段，模型外部的环境设计和工具组织开始成为能力突破的关键。

目前，OpenClaw、Claude Code、Hermes Agent 等都可能被称为 Harness，但它们目标并不相同。有些 Harness 是在模型外部套一层壳，让模型在各种任务上都表现得还不错；有些 Harness 是为了让最强模型变得更强；还有一些 Harness 的目标，是让较弱模型对齐 Claude Code 或 Anthropic 模型的能力。

ForgeTrain 的 Harness 则是另一类。它不是通用 Harness，而是为“AI 制造 AI”中的训练框架生成任务设计的专用 Harness，目标是让模型在一个垂直领域里能力大幅增强，而不是让模型在所有任务上都泛化表现。

Forge 工程则是在 Harness 工程之上的一种软件生产范式。它的核心前提是：AI 写代码的成本会快速下降。当代码生成变得足够便宜、足够快，软件工程就不必继续把所有需求都压进一个大而全的通用系统，而可以为每个具体任务生成高度定制的软件系统。

以训练框架为例，传统框架可能要同时支持千问、Llama、DeepSeek、MiniCPM、MoE 等大量模型。但在 Forge Engineering 中，如果千问和 Llama 足够相似，可以共用一套框架；如果千问和 DeepSeek 差异很大，就可以从零写两套框架，让各自都得到更好优化。

李宇轩用手机作比喻：今天的 iPhone 是非常优秀的通用产品，因为背后有一家大型公司长期优化。但如果未来生产效率足够高，最理想的产品可能不是一台通用手机，而是“乔布斯坐在你旁边，用一天时间为你打造一台完全满足你需求的手机”。Forge Engineering 希望在软件层面实现类似效果。

李宇轩认为，当前 Harness 行业整体仍处于蛮荒状态。不同团队的目标、方法、评测标准和技术路径都可能不同。但它们的共同点在于：都试图在模型之上建立一套“缰绳”，为模型提供稳定环境、工具、上下文和行动指引，让模型能够完成更复杂的任务。

赞 (0) 分享

暂无回复，快来抢沙发吧！

1 / 1 页

敬请注意：文中内容观点和各种评论不代表本网立场！若有违规侵权，请联系我们。

登录后参与讨论

新留园

全球首个完全AI编写的训练框架来了，速度反超英伟达：面壁要用 AI 把国产算力软件重写一遍

AI写代码，人来加Harness

当写代码没有成本，软件就应“现场锻造”

“到年底能把国产算力软件全做一遍”

Harness仍处蛮荒期，Forge的前提是成本

购买奏折推广