首页信息技术 AI 动态

“大模型第一股”打响上市前哨战！智谱刷新开源编程SOTA，在修复代码、终端操作表现超Claude 4.5

新小编正九品 (县丞) 2025-12-24 01:21 24 0 返回 AI 动态

新

新小编正九品 (县丞) 楼主

2025-12-24 01:21

第1楼

正在冲刺大模型第一股的智谱，今天又拿出了诚意满满的新一代大模型GLM-4.7，还给开源了。

GLM-4.7主打编程与代理式任务（coding + agentic tasks）的提升，同时在推理能力等方面也有所增强。

众所周知，今年的大模型，已经从卷“会答题”发展成了卷“能干活”。对应的变化，也体现在评测体系上，这些测试覆盖了真实代码修改、终端操作、多工具调用以及长链路任务执行等场景。

智谱也是把GLM-4.7一口气送进了17项基准测试，和GPT-5、Claude Sonnet 4.5、Gemini 3.0 Pro、DeepSeek-V3.2、Kimi K2 Thinking等同台竞技。

然后在一众强劲对手中，GLM-4.7还在两项BenchMark中刷新了公开SOTA：在AIME 2025（测试高级数学推理能力）中正确率已达95.7%；在BrowseComp-ZH中分数达66.6%。

另外，它在SWE-bench-Verified得分73.8%，在LiveCodeBench V6得分84.9%，超过Claude Sonnet 4.5，刷新了两项开源SOTA。

UI质量飞跃，来看看具体Case

仅凭BenchMark的高分或许还不够有说服力，智谱官方也放出了一系列Case，来直观展示GLM-4.7的实用效果如何。

首先，是前端开发。

要生成一个普通HTML网页，在GLM-4.7中基本能一句话搞定，大大减少后期微调时间。

而且比起上一代生成的布局结构更清晰，配色不容易冲突，组件风格也更统一；而且还能覆盖多种风格，从简约、复古到时尚等应有

除了普通HTML，做一个基于Web的交互式体验页面（Interactive Web Experience）也是不在话下。

比如用同一段Prompt：

给前一代GLM-4.6，生成效果是这样的：

而给GLM-4.7生成的UI质量就提升了一大截，比如其动态效果和3D交互感都明显增强了。

GLM-4.7体现出的高级审美能力，还在“艺术作品”的3D展示中带来质的飞跃。

它在空间层次、透视关系上处理得很清楚，同时在配色、材质对比、景深和构图上也下了功夫；该亮的地方亮，该收的地方收。

比如要生成一个花园空间，中间是一座装饰华丽的宝塔，周围被盛开的樱花树包围，GLM-4.7的作品既有体积像素的3D感，又美观和谐。

而同样的Prompt给GLM-4.6，效果是这样的：

另外，在幻灯片制作上，GLM-4.7也明显“好看了”。

PPT16:9的适配率从 52% 提升至 91%，生成的页面布局更准确、元素比例更舒服，整体观感更接近一份可以直接拿去用的成品。

这样的审美同样体现在海报设计上，排版与配色更加灵活，具备设计感。

同样设计以“巴黎”为主题的海报，GLM-4.7明显从配色和排版上更胜一筹，懂得突出主题，注意文字比例和位置，图片的镶嵌和配色，而不是死板的罗列排布。

不少网友也对使用效果给出好评，称体验的效果很不错。

也有网友提出，还想看看GLM-4.7与最牛编码模型Opus4.5之间的比拼。

GLM-4.7 的三种“思考模式”

那么，GLM-4.7为什么能有这样的进步？

在推理机制上，GLM-4.7 围绕“如何在复杂任务中更稳定地思考与行动”这一核心问题，对模型的思维流程进行了系统性重构。

形成了由“交织式思考（Interleaved Thinking）+保留式思考（Preserved Thinking）+轮级思考（Turn-level Thinking）”组成的一整套推理机制。

具体而言，交错式思考，指的是GLM-4.7在每次响应和工具调用之前都会进行思考。

这其实是自GLM-4.5起就引入的基础能力，GLM-4.7对其进行了强化，使模型在每一次生成回复或调用工具之前，都会先进行内部推理，再决定下一步行动，从而提升指令遵循的准确性和生成质量。

保留式思考，指的是在编码代理场景中，GLM-4.7 能够自动保留多轮对话中的所有思维模块，重用现有推理过程，而不是从头开始重新推导。

这主要用于多回合、长链路任务中，减少了信息丢失和不一致的情况。

最后，轮级思考就是GLM-4.7 支持对会话内的推理进行逐回合控制，允许在同一会话内按回合决定是否启用推理。

对于简单、低复杂度的请求可以关闭思考以降低延迟和计算成本，而在需要精确决策和稳定执行的任务中再开启完整推理流程。

通过这套“推理组合拳”，GLM-4.7 在复杂任务中的行为表现更加稳定连贯，也更容易控制；这为其在代理式编程和长周期任务执行中提供了关键的技术基础。

智谱冲刺“大模型第一股”

在冲刺“大模型第一股”的前夕，智谱用一次技术密度极高的模型更新，主动把自己推到聚光灯下。

这里再来简单回顾一下智谱的上市细节。

12月19日，港交所官网披露，北京大模型公司智谱已通过聆讯，IPO 招股书同步公开。这意味着，智谱正式迈入上市冲刺的最后阶段。

按招股书口径，公司最新估值为 243.77 亿元，中国大模型公司第一次以如此完整的姿态，走到公开市场面前。

从经营数据看，智谱仍处在典型的高速放量阶段。

2022—2024 年，公司收入从 0.6 亿元增长至 3.1 亿元；而真正的拐点出现在 2025 年上半年：2024H1 收入仅 0.4 亿元，2025H1 已跃升至 1.9 亿元，同比增幅超过 300%。

其中，近 85% 的收入来自本地化部署，客户覆盖互联网、公共服务、电信和传统企业；MaaS 平台则通过持续降价放大调用规模，2025H1 云端机构客户增至 3061 家，并对本地化部署形成明显引流。

但另一条曲线同样陡峭。招股书显示，智谱的亏损扩张速度远快于收入增长。

2022—2024 年及 2025H1，经调整净亏损分别为 0.97 亿元、6.21 亿元、24.66 亿元和 17.52 亿元，几乎全部指向研发投入。

同一时期，研发费用从 0.8 亿元升至 22.0 亿元，算力相关支出占比超过 70%。毛利率仍维持在 50% 以上，但在 MaaS 价格战中持续承压。

把时间轴往前拉，这其实是一家成立不到 6 年的公司。智谱成立于 2019 年、脱胎于清华大学知识工程实验室（KEG），是国内最早一批独立大模型公司之一。

从 GLM 架构起步，它就选择了一条清晰却昂贵的路径：持续把资源押注在模型能力本身。截至 2025 年，其模型已支持约 8000 万台设备、服务超过 1.2 万家机构客户。

开源链接：

GitHub：https://github.com/zai-org/GLM-4.5

Hugging Face：huggingface.co/zai-org/GLM-4.7

魔搭社区：https://modelscope.cn/models/ZhipuAI/GLM-4.7

参考链接：

https://z.ai/blog/glm-4.7

https://x.com/Zai_org/status/2003156119087382683

https://mp.weixin.qq.com/s/tGKf-PQV9xerbAyRew3MHQ

赞 (0) 分享

暂无回复，快来抢沙发吧！

1 / 1 页

敬请注意：文中内容观点和各种评论不代表本网立场！若有违规侵权，请联系我们。

登录后参与讨论