【硬件资讯】夸娥万卡集群正式公开!摩尔线程专业级软硬件产品问世,为企业级AI产品赋能!

新小编 2025-12-27 17:03 11 0
2025-12-27 17:03
第1楼

新闻一:摩尔线程发布夸娥万卡集群:多项关键精度指标达国际主流水平,MTT C256 超节点架构前瞻亮相

12 月 20 日消息,摩尔线程首届 MUSA 开发者大会(简称:MDC 2025)今天在北京中关村国际创新中心正式开幕。

作为国内首个聚焦全功能 GPU 的开发者技术盛会,大会系统展示了摩尔线程以自主 MUSA 统一架构为核心的全栈技术成果,摩尔线程创始人、董事长兼 CEO 张建中在本次大会上正式发布了夸娥万卡智算集群。

据介绍,夸娥万卡集群具备全精度、全功能通用计算能力,在万卡规模下实现高效稳定的 AI 训练与推理。

其核心突破包括:浮点运算能力达到 10Exa-Flops,训练算力利用率(MFU)在 Dense 大模型上达 60%,MOE 大模型上达 40%,有效训练时间占比超过 90%,训练线性扩展效率达 95%,与国际主流生态高度兼容,并在多项指标上具备显著能效优势。

在训练侧,摩尔线程基于原生 FP8 能力完整复现顶尖大模型训练流程,并在多项关键精度指标上达到国际主流水平。技术层面实现关键优化:Flash Attention 算力利用率超 95%,并突破 FP8 累加精度等关键技术瓶颈,充分释放国产 GPU 在大模型训练中的性能潜力。

在推理侧,摩尔线程联合硅基流动,经过系统级工程优化与 FP8 精度加速,在 DeepSeek R1 671B 全量模型上实现性能突破:MTT S5000 单卡 Prefill 吞吐突破 4000 tokens/s、Decode 吞吐突破 1000 tokens/s,树立国产推理性能新标杆。

   昨天我们讲了摩尔线程MUSA开发者大会上的新架构和家用产品,那真正高端的商用产品在哪里呢?兄弟!在这里!!摩尔线程本次带来了MTT C256超节点架构以及更大规模的夸娥万卡集群!摩尔显存本次也不光是大规模获得提升,它的FP8浮点运算在本次的展示中已经是原生支持了,我个人认为是未来很可期的。

    从现场的播片来看,摩尔线程的MTT C256超节点架构以及夸娥万卡集群都具备了为企业级AI服务提供支持的能力,或许未来真的能用上基于摩尔线程的国产AI产品吧。

新闻2:龙芯中科:首款 GPU 芯片 9A1000 已交付流片,后续有 9A2000/3000 的研发计划

12 月 15 日消息,龙芯中科今日发布投资者关系活动记录表,介绍了公司 GPGPU 的研发规划及进展。

龙芯中科透露,其 GPGPU 的技术路线是图形和 AI 做成一个核,包含图形和科学计算的功能,总体上考虑是从端侧做起,面向推理的应用为主,然后再增加更高性能的 AI 算力。公司的首款产品 9A1000 显示功能大致相当于 AMD 的 RX550,还有几十 T 的算力,和龙芯 CPU 形成自我配套,达到系统性价比最高,产品定位是入门级独显。

龙芯中科还表示,公司争取开发 9A1000 的 Windows 驱动,使其也可以与 Windows 电脑配套。9A1000 已经交付流片,后续还有 9A2000 和 9A3000 的研发计划

据IT之家此前报道,龙芯 9A1000 是龙芯首款 GPU 芯片,定位为支持 AI 加速的入门级显卡,GPU 核全面升级,功能方面,图形 API OpenGL4.0 / OpenGL ES3.2;性能方面,图形流水线 x2,主频提升 25%;面积方面,流处理器面积减小 20%;功耗方面,轻负载功耗降低 70%。GPU 规模 x4(vs 2K3000),性能提升 5 倍以上,AI 算力达到 40TOPS。

龙芯 9A2000 是龙芯高性能 GPU 芯片,面向中高端显卡,应用于桌面和服务器,通过优化和堆料,做大做强。GPU 核升级到第三代架构,单位面积算力进一步提升,图形 API 支持 OpenGL4.6,加入虚拟化支持,张量单元支持更多数据类型,GPU 规模 x4(vs 9A1000),单精度浮点算力 5Tflops,INT8 AI 算力 160TOPS,内存带宽 256GB/s,支持双片互联,总体性能再翻一倍,达到同工艺代下国际先进水平。

除了摩尔线程外,我们的另一个国产芯片厂商——龙芯,也即将带来自家的首款GPU产品,在最新的信息中,9A1000 已交付流片,根据厂商透露信息,性能可能只相当于RX 550,但总算是踏出了从无到有的一步。虽然是与龙芯生态软硬件配套的产品,但龙芯仍考虑开发Windows驱动,看来有望上市销售,不知道能不能成为又一款消费级的国产GPU产品。

新闻3:龙芯 Loong64 正式转正:将纳入 Debian 14 发行版,首批软件包持续构建中

12 月 20 日消息,Debian 官方今日宣布,龙芯 Loong64 架构现已成为 Debian 官方架构。

这一进展距离 Loong64 在 Debian Ports 中完成初始引导已过去两年多时间。若后续进展顺利,Loong64 将随即将到来的 Debian 14(IT之家注:代号“Forky”)版本一同发布。

官方公告显示,在成为官方架构之前,相关团队已借助 Debian Ports 中的软件包,手动构建并导入了首批 112 个软件包。

我们欣然宣布,自其首次在 Debian Ports 启动引导两年多后,loong64 架构现已成为 Debian 官方支持架构。若后续进展顺利,该架构将纳入即将发布的 Debian 14(代号 "Forky")版本。

基于 Debian 移植版的既有成果,我们已手动构建并导入包含 112 个软件包的初始集合。该基础环境成功创建了初始 chroot 系统,并搭建起首个构建节点。目前该节点已启动自动化构建流程,仅一夜即完成 300 个新增软件包的编译与上传。

预计此轮初始引导过程将持续约一周,后期若增加构建节点数量将进一步提升编译效率。

谨此致谢,

阿德里安(Adrian)

最后,龙芯生态也有新的好消息,Debian 官方今日宣布,龙芯 Loong64 架构现已成为 Debian 官方架构,将更快更好的得到这一Linux发行版本的支持。虽然此前就已经在龙芯开发者和民间开发者的努力下,龙芯设备已经用上过不少Linux发行版本,但得到官方支持的性质并不一样,这或许为龙芯之后的生态搭建做下了铺垫。

  • 1 / 1 页
敬请注意:文中内容观点和各种评论不代表本网立场!若有违规侵权,请联系我们.