“大模型第一股”打响上市前哨战!智谱刷新开源编程SOTA,在修复代码、终端操作表现超Claude 4.5

新小编 2025-12-24 01:21 13 0
2025-12-24 01:21
第1楼

正在冲刺大模型第一股的智谱,今天又拿出了诚意满满的新一代大模型GLM-4.7,还给开源了。

GLM-4.7主打编程与代理式任务(coding + agentic tasks)的提升,同时在推理能力等方面也有所增强。

众所周知,今年的大模型,已经从卷“会答题”发展成了卷“能干活”。对应的变化,也体现在评测体系上,这些测试覆盖了真实代码修改、终端操作、多工具调用以及长链路任务执行等场景。

智谱也是把GLM-4.7一口气送进了17项基准测试,和GPT-5、Claude Sonnet 4.5、Gemini 3.0 Pro、DeepSeek-V3.2、Kimi K2 Thinking等同台竞技。

然后在一众强劲对手中,GLM-4.7还在两项BenchMark中刷新了公开SOTA:在AIME 2025(测试高级数学推理能力)中正确率已达95.7%;在BrowseComp-ZH中分数达66.6%。

另外,它在SWE-bench-Verified得分73.8%,在LiveCodeBench V6得分84.9%,超过Claude Sonnet 4.5,刷新了两项开源SOTA。

UI质量飞跃,来看看具体Case

仅凭BenchMark的高分或许还不够有说服力,智谱官方也放出了一系列Case,来直观展示GLM-4.7的实用效果如何。

首先,是前端开发。

要生成一个普通HTML网页,在GLM-4.7中基本能一句话搞定,大大减少后期微调时间。

而且比起上一代生成的布局结构更清晰,配色不容易冲突,组件风格也更统一;而且还能覆盖多种风格,从简约、复古到时尚等应有

除了普通HTML,做一个基于Web的交互式体验页面(Interactive Web Experience)也是不在话下。

比如用同一段Prompt:

给前一代GLM-4.6,生成效果是这样的:

而给GLM-4.7生成的UI质量就提升了一大截,比如其动态效果和3D交互感都明显增强了。

GLM-4.7体现出的高级审美能力,还在“艺术作品”的3D展示中带来质的飞跃。

它在空间层次、透视关系上处理得很清楚,同时在配色、材质对比、景深和构图上也下了功夫;该亮的地方亮,该收的地方收。

比如要生成一个花园空间,中间是一座装饰华丽的宝塔,周围被盛开的樱花树包围,GLM-4.7的作品既有体积像素的3D感,又美观和谐。

而同样的Prompt给GLM-4.6,效果是这样的:

另外,在幻灯片制作上,GLM-4.7也明显“好看了”。

PPT16:9的适配率从 52% 提升至 91%,生成的页面布局更准确、元素比例更舒服,整体观感更接近一份可以直接拿去用的成品。

这样的审美同样体现在海报设计上,排版与配色更加灵活,具备设计感。

同样设计以“巴黎”为主题的海报,GLM-4.7明显从配色和排版上更胜一筹,懂得突出主题,注意文字比例和位置,图片的镶嵌和配色,而不是死板的罗列排布。

不少网友也对使用效果给出好评,称体验的效果很不错。

也有网友提出,还想看看GLM-4.7与最牛编码模型Opus4.5之间的比拼。

GLM-4.7 的三种“思考模式”

那么,GLM-4.7为什么能有这样的进步?

在推理机制上,GLM-4.7 围绕“如何在复杂任务中更稳定地思考与行动”这一核心问题,对模型的思维流程进行了系统性重构。

形成了由“交织式思考(Interleaved Thinking)+保留式思考(Preserved Thinking)+轮级思考(Turn-level Thinking)”组成的一整套推理机制。

具体而言,交错式思考,指的是GLM-4.7在每次响应和工具调用之前都会进行思考。

这其实是自GLM-4.5起就引入的基础能力,GLM-4.7对其进行了强化,使模型在每一次生成回复或调用工具之前,都会先进行内部推理,再决定下一步行动,从而提升指令遵循的准确性和生成质量。

保留式思考,指的是在编码代理场景中,GLM-4.7 能够自动保留多轮对话中的所有思维模块,重用现有推理过程,而不是从头开始重新推导。

这主要用于多回合、长链路任务中,减少了信息丢失和不一致的情况。

最后,轮级思考就是GLM-4.7 支持对会话内的推理进行逐回合控制,允许在同一会话内按回合决定是否启用推理。

对于简单、低复杂度的请求可以关闭思考以降低延迟和计算成本,而在需要精确决策和稳定执行的任务中再开启完整推理流程。

通过这套“推理组合拳”,GLM-4.7 在复杂任务中的行为表现更加稳定连贯,也更容易控制;这为其在代理式编程和长周期任务执行中提供了关键的技术基础。

智谱冲刺“大模型第一股”

在冲刺“大模型第一股”的前夕,智谱用一次技术密度极高的模型更新,主动把自己推到聚光灯下。

这里再来简单回顾一下智谱的上市细节。

12月19日,港交所官网披露,北京大模型公司智谱已通过聆讯,IPO 招股书同步公开。这意味着,智谱正式迈入上市冲刺的最后阶段。

按招股书口径,公司最新估值为 243.77 亿元,中国大模型公司第一次以如此完整的姿态,走到公开市场面前。

从经营数据看,智谱仍处在典型的高速放量阶段。

2022—2024 年,公司收入从 0.6 亿元增长至 3.1 亿元;而真正的拐点出现在 2025 年上半年:2024H1 收入仅 0.4 亿元,2025H1 已跃升至 1.9 亿元,同比增幅超过 300%。

其中,近 85% 的收入来自本地化部署,客户覆盖互联网、公共服务、电信和传统企业;MaaS 平台则通过持续降价放大调用规模,2025H1 云端机构客户增至 3061 家,并对本地化部署形成明显引流。

但另一条曲线同样陡峭。招股书显示,智谱的亏损扩张速度远快于收入增长。

2022—2024 年及 2025H1,经调整净亏损分别为 0.97 亿元、6.21 亿元、24.66 亿元和 17.52 亿元,几乎全部指向研发投入。

同一时期,研发费用从 0.8 亿元升至 22.0 亿元,算力相关支出占比超过 70%。毛利率仍维持在 50% 以上,但在 MaaS 价格战中持续承压。

把时间轴往前拉,这其实是一家成立不到 6 年的公司。智谱成立于 2019 年、脱胎于清华大学知识工程实验室(KEG),是国内最早一批独立大模型公司之一。

从 GLM 架构起步,它就选择了一条清晰却昂贵的路径:持续把资源押注在模型能力本身。截至 2025 年,其模型已支持约 8000 万台设备、服务超过 1.2 万家机构客户。

开源链接:

GitHub:https://github.com/zai-org/GLM-4.5

Hugging Face:huggingface.co/zai-org/GLM-4.7

魔搭社区:https://modelscope.cn/models/ZhipuAI/GLM-4.7

参考链接:

https://z.ai/blog/glm-4.7

https://x.com/Zai_org/status/2003156119087382683

https://mp.weixin.qq.com/s/tGKf-PQV9xerbAyRew3MHQ

  • 1 / 1 页
敬请注意:文中内容观点和各种评论不代表本网立场!若有违规侵权,请联系我们.