对谈理想 CTO 谢炎:AI 时代需要新的计算架构,我想在汽车上试出来

小新 正四品 (知府) 2026-05-12 22:00 3 0 返回 经济观察
小新 正四品 (知府) 楼主
2026-05-12 22:00
第1楼

摘要:基于类似逻辑,理想在 2022 年立项自研芯片,并已为此累计投入数十亿元资金。数据流架构由 MIT 的几位教授在 1970 年代提出。不认为马赫 M100 已经成功,现在只达成目标的 60%晚点:回片时间目前有两种说法,一种是 2025 年初,一种是 2025 年 5 月。


“现在马赫 M100 的业务目标达成度只有 60%。” 北京车展前夕,距离理想自研芯片量产装车只剩一个月,理想汽车 CTO、系统与计算群组负责人谢炎告诉《晚点 Auto》,“真正的成功,是搭载马赫 M100 的 L9 智驾能力跑到业界第一,然后车又卖得很好。那样我们才能非常有底气地说达到业务目标。”

1982 年,美国计算机科学家 Alan Kay 曾说,“你如果真正认真对待你的软件,就要自己做硬件。” 基于类似逻辑,理想在 2022 年立项自研芯片,并已为此累计投入数十亿元资金。谢炎是理想芯片自研项目的负责人。他 2022 年 7 月经美团创始人王兴介绍加入理想。半年后,他晋升为理想 CTO。

提起这个,谢炎在华为和阿里的前同事说他赶上了好时光——当时理想正值业务上行期,公司上下充满 “想赢” 的干劲。特斯拉证明了自研芯片对提升智驾体验的帮助,而国内新能源车市场正意气风发,资本市场也愿意给冒尖的新势力更多想象空间。

到马赫 M100 准备上车时,理想经历了自 ONE 交付以来的首次年度销量下滑,不仅纯电战略遭遇挫折,增程产品也面临空前竞争。随着新势力们挨个步入成立的第十个年头,中国新能源车的产品同质化和价格内卷相互促成。像自研芯片这等烧钱决策,如果当时看起来有多么理所当然,今天就要花多大的力气来证明它的正确。

通常情况下,没有经验的公司会从小芯片做起,低成本跑通设计、流片和供应链流程。即使是小芯片,失败一次也要损失数百万美元;换成先进制程大芯片,除了每个环节更难,流片成本也指数级增加到千万级美元,失败一次跟马斯克又炸掉一枚火箭差不多了。

谢炎刚加入时,理想芯片团队只有两名员工,不到一个月就剩一个了。留守的那位问他,“公司已经决定做芯片,但要怎么做?” 谢炎反对做小芯片试水。他告诉我们,理想不是为了证明有能力做芯片而做芯片,应该直接解决最核心的问题:确保首颗自研芯片量产时能超越同期最强的英伟达芯片。

他没有沿着更主流的 GPGPU 路线追赶英伟达,而是选择了数据流架构。按照理想的说法,马赫 M100 单颗有效算力达 1280 TOPS,同时由于数据流架构提供的算法优化空间,其有效算力是英伟达 Thor-U 的 3 倍。

数据流架构由 MIT 的几位教授在 1970 年代提出。谢炎在美国特拉华大学读研时接触到它,认为它比冯·诺依曼架构更接近大规模 AI 计算的需要,过去几十年一直没有大规模商用一是因为它的优势需要足够大的计算规模才能显现,二是编程和调试难度也更高。

谢炎相信 AI 改变了一些假设,“我相信 AI 时代会有一套新的计算架构,一直想在汽车上把它试出来”。他告诉我们,GPU 依赖集中式调度和大量数据搬运,规模越大,效率损耗越明显;数据流架构让数据驱动计算,理论上能减少等待和搬运,把更多晶体管用于真正的计算。但这也把压力转移到软件栈、编译器和软硬协同上。

杜克大学电子与计算机工程系教授陈怡然认为,马赫 M100 是一次有前景的工程尝试,但不应简单地认为数据流架构就是未来发展方向——关键在于采用哪种具体的数据流设计,以及它与目标应用和软件系统的协同效果。由于大部分优化工作转移到软件栈,实际效果很大程度上取决于编译器的成熟度,以及软硬件协同设计的质量。此外,自动驾驶算法模型演进很快,这种架构必须在 CNN、Transformer 等计算范式间保持足够的灵活性。

“数据流架构是一个宽泛概念,涵盖从脉动阵列、内核级数据重用方案到更激进的编译器调度架构(如 Groq)等多种设计。” 陈怡然教授对《晚点 Auto》解释,“马赫 M100 采用了介于传统 GPU/TPU 与 Groq 纯静态编译器调度模型之间的技术路线,通过编译器等软件更精确地控制芯片内部的数据流动和计算过程,既保持实用的 NPU/SoC 设计,又让数据搬运、本地缓存、互连通信和同步变得更可控。”

他认为,自动驾驶涉及环境感知、行为预测、路径规划等存在大量复杂计算任务的环节,现在还涉及大型 AI 模型推理。“如果软件系统能有效协调这些数据传输和计算,芯片利用率会显著提高,处理速度更稳定、能耗更低。”

谢炎承认马赫 M100 上车过程也确实有不少 “坑”:硬件设计复杂度降低,软件复杂度提高,对传统编程方式并不友好,第一版智驾模型从更新到完成车端适配用了两个月。尽管现在已经可以大幅缩短到不到一周,但仍有很大优化空间。接下来,他们还需要通过编译器等软件工具来充分释放芯片的硬件性能潜力。

这件事由一个不大的团队推进。理想芯片团队早期长时间只有几十人,现在约 200 人,仍远小于外界想象中的完整芯片团队规模。谢炎说,人多不一定好,人多时很多都是在搞政治斗争。核心部分自己做,后端、SoC 集成等环节可以借助供应商。在理想近万人的研发体系里,这个团队更像一个安静的角落,尽量不被每月销量起伏干扰。

“只要我们还没困难到一点儿钱都没有,那就保持这个研发强度,把内功练好。重要的是,你相信这件事本身不管在什么时代都重要。” 谢炎说。

以下是我们与谢炎的对话,略经编辑。

不认为马赫 M100 已经成功,现在只达成目标的 60%

晚点:回片时间目前有两种说法,一种是 2025 年初,一种是 2025 年 5 月。

谢炎:2025 年初。我们回片后测试了三个月,到 5 月份,保证它没什么问题,所有东西都稳定了才说成功。一般刚回片就宣布成功,是为了吸引资本。你不测三个月,根本不能确定里面有没有问题。

晚点:流片结果和你们的预期完全一致吗?

谢炎:对。这就是前期工作做得多的好处。你做得越多,回来之后跟你的预期越一致。

晚点:很多公司会在流片成功后很快对外宣布。

谢炎:对,一般都是这么干的。我们把芯片从台积电背回来,第 12 个小时就点亮了,但我什么都没说,因为我知道那不代表任何意义。

晚点:当时有担心过流片回来,但模型在上面跑不了吗?

谢炎:当然有,所以我们在流片之前做了极其充分的测试。大多数公司不会做到我们那个水平。我们不仅在模拟器上把操作系统跑起来,而且把很多大模型都完整地跑了,保证这个东西最终出来时尽量不出意外情况。很多人觉得我们的测试做得过于充分。

晚点:李想知道马赫 M100 流片成功后是什么反应?

谢炎:我不记得了。直到今天,我也不认为它已经算是成功,真正的成功是全新一代理想 L9 搭载马赫 M100 芯片后,智驾能够跑到业界第一,然后车又卖得很好,我们才能非常有底气地说达到业务目标。现在只算达到 60%,即使今天的确已经跑起来了。

晚点:智驾业界第一的目标,包括超过特斯拉吗?

谢炎:我们的最终目标当然包括特斯拉,对标全球最高水平。

理想汽车马赫 M100 自研芯片。来源:理想汽车

晚点:你工作经验非常丰富,见过不同芯片流片。在理想和其他公司,个人感受有什么不一样?

谢炎:这颗芯片还是挺了不起的。好多公司可能做了很长时间,但只是做一些比较小的芯片。所以你看我们团队,虽然有些人在业界也工作了十几、二十几年,甚至更长时间,但还是挺兴奋。

这么短的时间做这么大制程的芯片,在中国不多见。中国有上千家芯片公司,但是做到这个水平的比较少,我们又是第一次做,而且我们是新团队、新架构,工艺制程又有挑战。当然台积电比较成熟、靠谱,我也非常感激他们。

晚点:你前面提到做芯片也希望 “车卖得好”,你们需要对汽车产品的商业成功负责吗?

谢炎:我们没法对商业成功负责,只能让芯片具备足够竞争力,也就是性价比一定很高,算力发挥的效能一定超越能买到的芯片。如果做不到这些,自研就没有意义。

晚点:理想是全系车型都要搭载马赫 M100 吗?

谢炎:我们希望是全系搭载。当你有成本、性能优势,没理由不全系搭载。

晚点:全系搭载对技术决策有什么影响?

谢炎:这很重要,我们一开始的目标就是全系搭载,如果内部都不愿意用,那就说明芯片不够好。反过来讲,全系搭载也帮我们计算出大概需要在成本、性能上做到什么程度。包括我们在立项时也计算过,搭载多少辆后能摊平全部研发成本,每块芯片大概要比外购便宜多少钱。

晚点:是从去年芯片流片成功之后就决定全系搭载吗?还是说会有一些中间的讨论?

谢炎:决策过程不是你想象的那样,更多是一开始大家约定好要做到什么程度,经过验证足够有竞争力才能搭载。所以要一步步验证,流片回来,能跑起来,初步看到的确如我所说,性能、成本也有优势,逐步就用了。大部分人还是会打一个问号,因为不参与这件事,也可以理解。当逐步让他们从看见到相信,决策就落地了。

晚点:哪个指标真正打动了他们?

谢炎:主要还是性能。如果性能好,成本又不错,比市面上能买到的都好,产品线没理由不用。

晚点:从芯片跑起来,到真正上车,中间最大的挑战是什么?

谢炎:第一颗芯片最后要上车,让模型都能跑起来且性能很好,还需要一些软件工作。数据流架构芯片最终靠 AI 能够越来越快,但第一颗芯片还是有很多坑。比如它在硬件上的设计复杂度降低,但软件复杂度提升,它不是那么适合人类编程,但这也不是不可以做。因为我自己做编译器,我还是会跟团队讨论怎么让编程更简单。

我们第一版模型编出来花了两个月,后面会是一个月、半个月、一周,编译器越成熟迭代越快。按照我们以前学习的编译理论,最优性能永远可以逼近但不可达到,所以可以不断优化。现在我们从模型更新到完成车端适配用不到一周了,最终我们希望达到一天之内完成适配。

晚点:不同车型搭载几颗马赫 M100 芯片的决策,你参与了吗?

谢炎:各有各的分工,一般对于分工之外的工作我会了解,但尽量不影响他们决策,因为还有商业和其他考虑。

晚点:一颗芯片从设计到量产,最难的环节是什么?

谢炎:各种困难都有,但最难的是选择做什么、不做什么。这些选择来自清晰的产品定义,需要有好的应用场景才能明确目标。在理想,我们能比较清晰地看到需求,这最宝贵。一旦需求定义清晰,技术路线就会清晰,剩下就是匹配资源,看投入产出是否划算。后面的工作也有难度,但并不是最难的。

技术上,前、后端设计的挑战确实比较大,好在我们团队的人都比较靠谱,经验也比较丰富,像罗老师(理想算力单元部门负责人罗旻)都是干了很多年的人。而且后端团队也很强,比如我们要把这颗芯片控制在一定面积以内,他们干了很多非常细致的活儿,以至于我们后端供应商的人都觉得太挑战,他们同时给好几家公司做芯片,说明我们的要求比美国那些公司高。

自研芯片是加入理想的前提,不做就无法实现产品差异化

晚点:关于自研芯片,你们最初是怎么考虑的?

谢炎:在我 2022 年加入公司前一年,理想就已经开始考虑做芯片,但没确定要做多大算力、做到什么程度、什么时候交付。这些是我来理想后,经过讨论才定下来。

来之前跟李想沟通,我提到一个重要观点:未来竞争是产品软硬件一体的竞争,就像手机一样。手机产业早年有两种公司,一种是苹果、华为,有自己的操作系统和芯片,另一种没有。两者之间存在巨大差距。我当时和想哥达成一致:如果理想未来以产品为核心竞争力,一定得自研核心软硬件。

晚点:面试时,你和李想就是这么沟通的?

谢炎:我第一句话就问想哥,理想汽车如果要做成头部公司,是不是一定要做成苹果那样?第二句话问,我们会不会做芯片?所以来这里的前提是我已经有一个预设,因为做操作系统很多年,我觉得不结合芯片也做不出什么花来。

晚点:自研芯片投入很大,李想当时是什么态度?

谢炎:想哥从一开始就无条件支持,因为他也相信这是核心竞争力不可或缺的一部分。

晚点:听说理想决定做芯片时,管理层为此批了 10 亿美元预算,有这回事吗?

谢炎:他没有具体批预算,我们立项时有一个预算金额,当时我是按照下限去卡的。我认为做第一颗芯片不要花太多钱。

晚点:我们的意思是,理想芯片自研的整体预算是 10 亿美元。

谢炎:芯片自研是逐步迭代的过程,很难用固定预算来衡量。比如苹果从 A4 开始做,从 A 系列做到 M 系列,从手机、服务器到笔记本都用自研芯片,这些投入没办法用单一预算来衡量多还是少。

我们更多是按项目批预算,有了第一个项目就会滚动到第二代、第三代,后续会越来越强。因为背后的逻辑是 AI 算力永远不够。现在 AI 还没真正进入大家的生活,只有 Chatbot、“小龙虾” 等简单应用,这只是产业早期的早期,非常像 1970 年代末的计算机。那时大家觉得 640K 内存就够了,处理器 1M 赫兹都极其高端,一直到 1980 年代中期才出现。更早就是 8088、8086,就是几百 K,还可能更低一些。

但随着应用爆发,算力需求远远超出预期。不仅是算力大幅提升,而且数量肯定要更多。因为一开始只是极客用,就像乔布斯开始卖给硅谷那些人,后来变成每家每户、各行各业都要用。我们认为这只是开始,AI 发展没有回头路,需求只会越来越强,用量只会越来越多。

晚点:那到底是多少?

谢炎:不能说。

晚点:这么重的投入,李想为什么会支持?

谢炎:他比较相信垂直整合实现差异化这个逻辑。

对于任何产品,真正的差异化就是掌握核心技术链条,比别人更快迭代创新。在这个逻辑下,该做什么、不该做什么就很清晰。能帮我们在性能和成本方面实现差异化的,就精准投入;不能的就不做大投入,即使它今天很重要。

每个时代都有核心产品,它不仅自身重要,还能孵化技术并溢出到其他领域。八九十年代是 PC,最近二十年是手机。智能手机技术成熟后,Pad、电视、车载触摸屏都出来了。如果没有安卓、高通、苹果,汽车公司要花多少年才能低成本做出流畅的车内交互体验?

智能电动车就是这样的产品,可以围绕它把端侧人工智能做得非常成熟,因为它是当前个人能拥有的最大算力终端设备。一辆车有 7 到 11 颗高分辨率摄像头,可以孵化机器人和三维世界行动智能体的基础技术,让这些技术变得高性能、低成本、小型化。当技术孵化充分时,其他应用就变得容易。如果今天直接做机器人,真的太累了,因为好多东西根本没成熟,更别说再早几年。

晚点:2022 年前后,市场上有两种典型论调:一是英伟达做了 30 年芯片,其中自动驾驶芯片从 Parker 到 Orin 多次迭代,后来者怎么超越?二是余凯说,主机厂年销量不到一百万辆就会亏钱。基于这些观点,大家觉得车企自研智驾芯片难度很大,或者第一代芯片就是交学费的。

谢炎:这个逻辑大体没问题,但需要拆开分析问题细节才会看到真相。

比如说量不够,如果是手机芯片的确要很大的量,因为手机芯片很小。但是不要静态去看汽车的 AI,我们在 2022 年就看到汽车的 AI 计算量将来会变得很大。

不要低估计算量需求,技术还在发展,永远需要更多计算量。汽车作为全自动化行动的机器人,需要的计算规模很大,对应的芯片面积也很大。以芯片面积算,汽车比手机高很多。现在一颗 Thor-U 要 800 到 1000 美金。当然,具体价格也与采购规模有关系。

此外,高端车可能需要搭载两颗。所以哪怕不看软硬件协同价值、产品竞争力价值,只看自研芯片节省的采购成本,我认为可以降一半甚至更多。而且这是持续动态发展的,像汽车这种高智能化产品,芯片的成本占比很高。今天高端车要搭载 1600 到 2000 美元的智驾芯片,未来可能到 2500 甚至 3000 美元,成本降一半的规模相当可观,所以不需要搭载一百万辆就足够覆盖芯片研发成本。只要能满足一年销量,就能覆盖好几年芯片研发团队的费用。

另外自己研究、设计之后的效率比较高。如果今年卖的车都部署自研芯片,我们一年省下来的钱就超过三年研发费用,更别说这颗芯片可能要用两年,甚至三年。

晚点:特斯拉 2019 年就量产了自研芯片 Hardware 3.0,后来国内厂商陆续跟进。你当时会觉得这是必然趋势吗?

谢炎:拿手机做类比挺好。头部公司体量足够大,比如手机和汽车,一定会掌握产品里面最核心的部件来保证竞争力。乔布斯说过,不可能我做一个产品,最核心的技术自己没有控制力。这很危险,因为那意味着别人可以很容易地复制你的产品,而你也无法有效掌握产品技术迭代的节奏。如果最核心部分大家都一样,都是高通或 Google,就很难做出真正的差异化。

反过来讲,如果企业有志于成为最头部公司,最核心的部件肯定要掌握。当然也不是什么都要做,比如做汽车没必要做轮胎、钢板,供应商提供就好。但车里的 AI 算力肯定是不断发展的,所以我们要做马赫 M100。

晚点:所以一辆智能电动车最核心的部件就是这颗 AI 芯片?

谢炎:是核心部件之一,因为车本身还有一些可以差异化的部件。决定一个部件是否自研,主要看两个条件:一是它很重要,能决定用户体验差别;二是它能够差异化,因为技术还在高速发展,没有进入平台期。

AI 恰好两者都具备。当我们把汽车看成机器人,AI 一定是决定性因素,这辆车聪明不聪明肯定能看出来。第二,AI 还在高速发展,所以一定要投入,因为你可以靠自己的掌控力快速和别人拉开差距,而如果靠供应商就只能听天由命。

我一位同事以前在苹果。苹果自研芯片起初用的是 Arm 的 IP 核,想改进某些部分提高效率,但 Arm 说不能改,因为它要满足所有客户的需求。Arm 已经是很强的 IP 供应商,但它要成为所有客户的最大公约数,不会为最强的公司定制产品。即使它愿意定制,时间成本也会很高且效率低。所以苹果后来只买 Arm 的指令集授权,IP 全是自己设计。现在苹果核比世界上任何 Arm 核效率都高,因为可以完全适配自己的操作系统和应用需求,提供别人无法提供的性能。

晚点:有点像 Alan Kay(美国计算机科学家) 讲到的,“你如果真正认真对待你的软件,就要自己做硬件。”

谢炎:对,这句话很经典。我最早在英特尔做编译器、操作系统等底层软件,它们和处理器等硬件是直接配合的。如果你仔细看底层软件和处理器架构的设计,它们是围绕一套统一的架构思想联合设计起来的。当然,经过几十年发展,软件和硬件之间的界限已并非与大多数人理解的那样泾渭分明。

现在计算机系统的底层逻辑在 1950 年代出现,70 年之后,第一次遇到了真正意义上的巨变——从以符号逻辑为基础,转向以概率论和深度神经网络为基础。那么,整个计算机架构,包括硬件、软件和操作系统,都有必要围绕新的基础进行大范围重构,来有效支撑需求的爆发式增长。2022 年我来公司时就和技术团队说,这是所有计算机系统从业者 70 年一遇的机会。

要掌握自研芯片核心的 For AI 部分,不做小芯片试水

晚点:你加入理想时,自研芯片团队是什么状况?

谢炎:当时芯片团队只有两个员工,不到一个月就走了一个。剩下那个员工问我 “公司已经决定做芯片,但要怎么做?” 当时蔚小理都在做,而且其他两家比我们早,团队的想法是先做颗小芯片试水。

我第一反应是没必要,因为我们不是为了证明有能力做芯片而做芯片。我们应该直接从这个时代,汽车芯片上最重要的问题入手,那就是 AI 推理计算。不要畏惧没人、没经验。这些都不关键,唯一关键的就是战略目标的正确性。

我们最终确定:自研的目标是在量产时超越同期最强大的英伟达芯片。这个决定很重要。真正有意义的就是围绕这个时代的主题,做一颗足够强的 AI 芯片。

晚点:你们启动自研时设定的性能目标是什么?现在达到了吗?

谢炎:单纯证明能做芯片不是我们的目标,毕竟很多公司都可以把英伟达架构或 Google 第一代 TPU 进行某种克隆,有脉动阵列,加处理器,再加 GPU 就能做出来。但这不是我们的选择。我们不是因为要追求原创,而是要确保这颗芯片能帮助理想在 AI 时代技术领先。

我们当时定义的目标是:一半成本、两倍性能,也就是四倍效能。实际算力会更高,因为 GPU 当时基本是 20%-30% 的执行效率,这由它的架构天生决定,可能最多优化到 40%,再往上就很难。我们目标是达到 50%-60% 的执行效率。今天看来基本做到了,马赫 M100 的实际算力是英伟达的 3 倍,成本还比它低。

今天看马赫 M100 芯片,我们很自豪,这是中国第一款完全原创设计的 AI 芯片,采用了非主流但更适合 AI 的数据流架构。

晚点:四倍效能对标英伟达,当时指的是 Thor 还是 Orin,包括中间还有过 Atlan?

谢炎:我们当时瞄准的目标是 Orin-X,但今天看来,马赫 M100 的实际算力是 Thor-U 的 3 倍。

马赫 M100 的架构示意图。来源:理想汽车论文 “M100:An Orchestrated Dataflow Architecture Powering General AI Computing”。

晚点:马赫 M100 芯片当中哪个地方不能被 Trade off(取舍),哪些地方可以?

谢炎:核心中的核心是 for AI 的那部分,要完全掌握在自己手上。有公司去买 NPU 核,那还不如不自研,直接买芯片就好——AI 部分都不掌握,等于做芯片不掌握任何东西。所以 AI 的 NPU 核一定要自己设计,而且得完全知道为什么这样设计,上面的编译器、软件、模型都要能垂直整合。相对来说,CPU 核因为不在 AI 推理计算中占据主导,发展速度也比较平缓,可以不作为前期重点投入的方向。

晚点:这也是你们在 2022 年定下来的?

谢炎:对,非常清晰,从来没有动摇过。很多人说,为什么理想自己不搞一个 CPU,因为没必要。

晚点:当初定义芯片时哪些判断今天看起来挺准的,哪些又导致你们得在软件上做更好?

谢炎:软件上肯定需要做一些工作,比如某块本地内存到底需要多大容量才能发挥最大效能,这需要软件和模型一起适配。我们大部分判断是对的,如果说当年还可以做得更好,也许还可以更激进一点。2022 年时我们已经超出所有自动驾驶团队的判断,大家都说 Orin-X 已经比较充足了,而我们的设计目标是大家需求上限的 2 倍。即使这样,今年来看还是偏保守。

晚点:“激进” 指哪些参数?

谢炎:就是我们需要更大效能、更大算力。我非常相信未来需要更大算力,只是以什么成本获得。如果成本能基本保持不变,肯定是算力越多越好。

更别提我们除了智驾外,还要把 L9 Livis 打造成智能机器人。现在我们好多能力都要算力,而且要的还不少。一辆车有 11 颗 “眼睛”,除了自动驾驶,它还要能够理解你,帮你干活,甚至未来我们可能会在车内装个机械臂帮你拎东西。

类似的需求都需要足够强大的本地算力,因为云端算力会受无线连接的影响。你并不希望你的物理智能体时灵时不灵,也不希望它工作时的响应速度时快时慢。

从这个角度讲,算力将是一辆汽车的核心。汽车再往下发展,开得更快没必要,除非它能飞起来。续航也差不多了,那就需要它更像一个机器人,既当司机又能帮你干活。像想哥说的,帮你接孩子、接朋友。你说帮我洗个车,它自己就去了,还能跟人交流。

晚点:定义芯片时,智驾团队更了解当前算法和量产节奏,芯片和操作系统团队则要提前看三四年后的需求。不同团队对技术演进的判断不完全一样,你们怎么平衡这些意见?

谢炎:我们参考了智驾团队的输入,但底层技术研发周期长,所以我们还是要强迫自己看得再远一点,不然三四年后出来的产品可能落伍或者匹配不上新的算法需求。这里是不同团队看待问题的不同角度。

晚点:当时无论端到端还是 VLA,今天大家谈论比较多的智驾术语还没成为主流。

谢炎:不需要这些术语成为主流,要相信系统需要更多参数来学会人类驾驶习惯。这是肯定的。

晚点:如果能重新来一次,你们会在算力上做到什么水平?包括内存带宽、PCIe(芯片互连)等。

谢炎:互联的能力可以做得更高一点。当时觉得单芯片的设计算力已经很高,所以没有设计 PCIe 支持。但今天看来还是不够。不过我们也通过操作系统的互联技术手段,达到了互联带宽需求。这也是一个掌握技术全栈后带来的价值。

晚点:你们确定采用数据流架构时,芯片团队有多大规模?

谢炎:不多,我们初期有很长时间是二三十人。

晚点:业界有种说法,“一个完整建制的芯片团队应该在 600 人左右。” 你们现在大概多少人?后续还要增加吗?

谢炎:我们目前大约 200 人。有时候我觉得人多不一定是好事,人少一点更团结、效率更高。这又不是打群架,人多就好。人数和单位效率在一定规模以上是成反比的。而且我们有模型团队、操作系统团队,大家协同起来效率非常高,不是所有东西都要芯片团队自己干。

晚点:芯片团队的成员主要来自哪些地方?

谢炎:各个公司都有,也有很多校招。我们没有针对性地找哪个公司的人,只要能力够强,我们就招过来。大家形成战斗力就行,没必要挖整建制的人,那对其他公司也不好。

晚点:要高薪挖他们吗?

谢炎:理想的薪酬不低,但这值得,好的人还是值得好的薪酬。更重要的是,我们这里干的事情应该算业界很先进的。在中国很先进,可能在整个世界也不算差。

晚点:你们的薪酬高于行业平均水平?

谢炎:对。

晚点:定义这颗芯片时,各种参数优先级怎么确定?

谢炎:参数不是先定的。定义芯片最重要的是先理解要解决的问题,比如我们要在自动驾驶或 AI 任务上超越业界最领先的厂商。然后是量化的分析任务的计算特征,包括数据吞吐、计算密度等。因为芯片最终是为跑任务服务的,如果没有深刻理解任务,芯片做出来再去适配会适得其反。

所以,我们一开始花了半年分析计算特征,第二步是理解如何设计数据流架构,最后才是定义所谓的参数,比如总线带宽、多少个 Tile、多少 TOPS、计算单元互联带宽、I/O 接口带宽、CPU 数量、CPU 和 NPU 之间的交换带宽等。

我们不像大部分公司那样,把已经做好的芯片参数拿过来,然后这儿加一点、那儿减一点。一是因为上面说的原因,二是我们用全新架构,不可能拿英伟达的参数来改。

晚点:分析计算特征用了半年,大家一起 Co-Design 也是发生在这半年吗?

谢炎:时间会更长,Co-Design 分几个阶段。

首先,定义芯片时要大家一起定义,这非常重要。设计过程中可能有新认知,也需要大家一起讨论。因为实现功能时你会发现,比如要达到某个带宽,如果绕线密度太高就需要妥协,少绕一点;反过来讲,算法团队要看能否通过软件方法弥补。这需要软件、算法、编译、硬件团队大量协同设计。

其次,芯片回来后硬件已经无法修改,所以模型设计要对硬件特性扬长避短。软件如模型形状、参数形状可以匹配硬件特性:硬件在哪些形状上效率最高,我们就匹配哪些形状。

所以前期是硬件瞄着模型做,芯片回来后是模型、编译一起想办法瞄着硬件做。芯片供应商很难这么紧密协作。如果拆成几家公司去做,可以做到优秀,但做不到杰出和卓越。

晚点:哪些人会参与讨论?

谢炎:很多人参与讨论,这也是我们跟其他公司很不一样的地方。在其他厂商,做芯片的做芯片,做模型的做模型,做软件的做软件、做编译的做编译,互相之间不通。我们在开始设计时就把这些团队都拉到一起,因为最终是要为 Workload 服务,让这颗芯片在跑 AI 计算任务时更快。

所以比较关键的有做模型的人、算法的人,有做编译器、软件的人,以及硬件架构师。甚至还有后端的人,他们要去看在某个工艺上能不能达到我们要求的计算吞吐、数据搬运延时、带宽等指标。做产品定义时大家能坐到一起设计,这是我们当时作为一家规模不大公司的好处。

“超越最好的智驾芯片,数据流架构是唯一的机会”

晚点:数据流架构很早就被提出,为什么到今天才适合用在车端 AI 芯片上?数据流不是全新概念,国内基本没有其他厂商做,国外有厂商把它应用在数据中心。

谢炎:你说得很对,数据流架构是个非常古老的概念,最早在 1970 年代提出,MIT 的 Jack B. Dennis、Arvind、高光荣教授他们提的,到现在已经几十年,但工业界落地非常少,最重要的原因是计算规模不够大。在计算和数据规模较小时,数据流架构的效率优势很难发挥和体现。

冯·诺依曼架构有个很大的优势——方便人类编程。它把存储和 IO 操作都抽象成指令,加上计算指令,以一种中心化的指令序列 step by step 推动计算任务,特别适合人脑在有限的上下文长度下做思考和编排。代价是损失了一定的计算并行度,降低了效率。但这在 AI 计算之前的时代还能忍受。而且过去也发明了乱序发射、超流水线、多级缓存、分支预测等复杂的 CPU 微架构技术来缓解。

数据流架构的优劣势正好相反,它用数据依赖图映射的硬件结构,天然高并行度,但提升了人类编程的复杂度,而且调试工作和编译器的难度也大幅提升。

所以 AI 出现前,数据流架构不成立——虽然概念很好,但落地很难。但当计算规模扩大到一定程度后,冯·诺依曼架构的瓶颈已经越来越明显。再往后走,数据流架构应该是一种更好的体系架构方式。

晚点:具体讲讲,数据流架构为什么更适合 AI?

谢炎:这得从 CPU 架构说起。CPU 就像厨房,有切菜、配菜、炒菜等工种,中间有个调度员负责发指令。这种集中式管理容易 Debug 和编程,但调度员负载很重,规模扩大后容易形成瓶颈:可能有人空闲但调度员没看到,或者有人本可以更早切菜但因为指令没到而等待。CPU 中有 30%-35% 的晶体管用于任务调度。

GPU 在此基础上改进,不再设置超大调度员,而是把人员分组并为每组配简单调度员,减少晶体管占用。但本质问题没解决:指令没到就得等待,造成浪费;各组资源不能互用;规模扩大还需要分层调度,有点像计划经济,效率很低。系统也不能直接掌握资源匹配情况,中间需要一层又一层规划人员。

还有数据搬运的物流问题。调度和数据都是集中式的,会形成瓶颈。所以 GPU 里有大量内存(Memory)和缓存(Cache),都是为了支撑中心化调度。规模小时没问题且容易 Debug,因为全是中心化的;规模变得超大时,瓶颈也会越来越明显。所以 GPU 需要做多层 Cache 和高 HBM 带宽来弥补效率不足。

晚点:数据流架构怎么解决这些问题?

谢炎:那些不直接产生价值的晶体管相当于额外开销,但芯片本质是要完成计算任务,真正起作用的是那些切菜、配菜、炒菜的人。能不能不要中心化?答案是可以,正因中心化代价很高,所以要走向分布式。

不用指令驱动,可以去掉调度员,让切菜、配菜、炒菜的人直接协作,这样能提升效率,省掉很多晶体管。但难点是让大家在没有调度员的情况下高效工作,这对组织要求很高,所以编译器很重要。在我们的处理器里,虽然还有程序,但不按原来方式执行,Debug 很难。

但好处是,这样的架构天然适合 AI,反过来当 AI 能力很强时,AI 也比人更能管理这些超大资源匹配。冥冥之中自有天意。技术没有好坏,只有匹配不匹配。

因为我们没有中心化调度,所有执行不是调度员告诉你开始,而是每个人在自己工位上,数据到了就开始,执行完就继续放到流水线上。

晚点:你当时怎么想到用数据流架构?

谢炎:数据流架构主要开创者之一高光荣教授是我在特拉华大学读书时的导师。当年我们实验室名称是 “计算机体系结构和并行系统实验室”(CAPSL),重点研究方向之一是使用数据流架构解决大规模并行计算问题。

在当年很多问题的解决过程中,我们看到了数据流架构的独特优势。我那时的感觉是:它比冯·诺依曼架构更接近计算本质。但受限于当时计算机应用的需求范围,这套架构思想主要是在超级计算机和大规模科学计算场景下运用,而一般的 Windows 和 Mac 的通用桌面计算并不能有效发挥其优势。

深度神经网络出现并流行后,特别是当下大模型 Scaling Law 推动模型参数和计算规模快速增长,需要更高效地解决大规模并行计算和数据搬运的问题。这让我们重新看到,围绕 AI 计算的数据流架构的设计优势。

晚点:但应该不是立项之初就确定用数据流架构的吧?

谢炎:团队早期在架构路线上有过深入讨论。当时有种思路是做定制化加速器——把特定算法固化在硬件里,效率很高但不可编程;需要灵活性的部分就额外加 GPU。这种方案的好处是起步快,业界不少公司这么做。

但我认为,这本质上是两套东西的拼接,不是统一架构,而且上限不高——芯片里有一部分跑的时候另一部分就闲置,造成资源浪费。更关键的是,AI 算子在快速演进,如果核心计算单元不可编程,很难适应未来算法变化。所以,我们最终选择可编程的数据流架构,虽然难度更大,但天花板更高,能跟随 AI 发展持续演进。

晚点:之前大家用英伟达一方面是它的芯片好,另一方面是 CUDA 生态难以割舍。有些工程师说不用 CUDA,工作效率会降低很多,这个问题怎么解决?

谢炎:第一,用英伟达芯片成本很高。如果自研产品定义清晰,虽然工具链没有 CUDA 好用,可能需要工程师多花一两周做适配,但车能获得 50% 的成本降低、好几倍的性能优势,哪个更重要?这背后更多是产品性价比和经营的考量。

第二,数据流架构本身是 for AI 的,AI 也是 for 数据流架构的。未来这些适配工作都会由 AI 来做。当 AI 足够强时,CUDA 的生态优势会降低,因为以前人是编程主力,需要 CUDA 等抽象层做更好的分层、抽象和简化,其目的是降低人类程序员的编程难度。

而不久以后,或者当前已经开始,编程主体越来越多是 AI,编译器也可以是 AI,那么 CUDA 这类更多为人类设计的辅助 “拐棍”,重要性会越来越低。AI 甚至可以抛开 “拐棍” 直接快速对硬件编程,获取更高的性能和效率。

对以推理任务为主的产品公司来说,推理效率的重要性在快速上升,而人类编程通用性的重要性在降低。英伟达已经意识到这一点,所以花两百亿美金去买 Groq。这家公司是 Google 前员工做的,它的产品是非常静态的数据流架构,完全不支持 CUDA,没有大家认知的可编程性,但推理效率会远高于英伟达的 GPGPU 架构。

晚点:数据流不是主流架构,要用这种架构时,芯片团队和公司内部有没有争论?

谢炎:有挺多讨论。芯片团队内部一开始有人因为技术理念不同而离开,这没有对错,只是相信和看见的东西不同。当架构思路统一后,大家目标一致,配合很默契,执行起来反而比较顺利。

公司内部前期肯定也有一些疑问,毕竟这是全新领域。大家会想:理想没做过芯片,能做好吗?我猜想,很多芯片之外的同事疑惑的不是架构的选择,但更多是能超越市面上最好的芯片这个目标本身是否理性。

这点上,我们花了大量时间对 Workload 和架构设计做量化分析,增强了信心;同时我们也相信,如果和博尔特比短跑,你无法通过直线跑道 —— 也就是 GPGPU 架构 —— 进行超越。不同的路线或手段,比如数据流架构,是唯一的机会。

晚点:这相当于是走 “中国特色社会主义” 道路?

谢炎:对,我们必须选一条不同的道路。如果只是证明能够替代,那么走前人走过的成熟路线就足够了,风险更低。但这么做,前人很容易成为我们的天花板。另一方面,如果做不到 “明显” 更好,做的价值也就大打折扣。

晚点:你当时是这么和李想介绍的吗?

谢炎:对,一模一样,我们 2022 年的立项文档完全就是这个逻辑。

晚点:他听完后什么反应?

谢炎:不记得了,但肯定没有认为我们在胡说八道(哈哈)。实际上,他没有做选择,因为他知道这件事重要,并且支持我们做芯片。

晚点:李想是业界公认对细节要求很高的 CEO,但芯片应该有很多地方超出他的技术认知。比如技术路线对不对,李想怎么判断?

谢炎:作为 CEO,他会把大的战略和商业逻辑判断好,比如我们每年销售多少车,每辆车消耗多少芯片和成本,自研可以带来多少成本和效率上的价值。同时技术路线的逻辑也可以用非常第一性的方法来判断。

比如,我刚才说的厨房的类比,不需要知道具体技术怎么做。更本质的,这可以类比计划经济和市场经济。计划经济在规模小时更容易构建,直接下指令方式也够高效。当规模非常大时,市场经济的优势会越来越大。

晚点:你们前期讨论他参与得多吗?

谢炎:每个节点他都会看。

晚点:不需要每个节点他都点头?

谢炎:对,因为测试、架构、后端这些都是技术节点。李想还是会抓大放小,关键节点看得很细,中间过程没必要看那么细,否则 CEO 就太累了。

晚点:再比如你要多少人、多少钱、花多长时间。

谢炎:这个还好,他知道我比较克制,不会为了做一件事就先堆十倍人力。我有一个理念,最好的团队规模是你想要规模的 80%,这样效率最高。比如你想要 200 人,那 160 人可能更好,人多反而有害。

晚点:你 2022 年入职理想时,李想有一个评价:谢炎是全球操作系统前 10 号选手。

谢炎:没有,我不敢这么说,我只是做的时间比较长。

晚点:总体上你有丰富的软件研发经验,加上是做编译器出身。业内人士说你在理想做芯片,可以用软件经验去优化硬件?

谢炎:对,芯片能力发挥多少,最终软件起很大作用。无论 2010 年前的英特尔,还是现在的英伟达,软件工程师人数都比硬件工程师多不少。英伟达的组织架构里,软件团队人数是硬件团队的 2 到 3 倍。这说明同样的硬件,软件优化好不好,最终发挥出的能力天差地别。

但更重要的是,计算机的软件和硬件架构,其实是应该一起设计的。软件作为一种构建在硬件之上的 “逻辑实体”,它的底层,也就是软件和硬件的接口设计,会极大影响整个计算机系统的效率。一个优秀的芯片架构设计,同时需要硬件和软件两方面的视角。

过去几十年,人们慢慢忘记了这点重要性,是因为传统架构应付通用计算已经够用,并没有必要在这里做大的创新,也就没有必要用软硬件结合的手段来设计。但今天我们看到了 AI 计算的需求在快速爆发,而传统架构已经接近极限。当我们需要为了更大规模、更高效率的计算重新设计整个计算机的时候,这样的双向视角和能力,是一个优秀团队必须具备的。

芯片能力要转化为智驾体验优势,理想还得趟过很多坑

晚点:芯片上车涉及芯片、基座模型和智驾算法团队三方协作,会不会有需求冲突的时候?

谢炎:需求倒不太会冲突,因为大家的最终目的是希望在智驾上实现领先。最重要的不是芯片做得好,而是智驾能力强。接下来,我也会花较长时间和智驾团队一起看,怎么在模型上真正领先。这是非常重要的一场仗,如果智驾都不能领先,怎么能说明芯片领先?

晚点:你之前跟智驾团队的交流频率如何?

谢炎:主要会议我都参加,技术讨论有些我也参加。

晚点:现在呢?

谢炎:现在因为我有这个职责,所以会更多参与讨论,技术路线上也会分享一些具体想法。各家目前的智驾水平在伯仲之间,没有人太领先,差距非常小。但往后发展有两个关键点:

第一,要大胆投资未来技术。特斯拉的技术路线就迭代过好几次,最怕觉得 “这一代就够了”。技术永远是用新路线解决更难问题,所以要挑战自己,打破原有认知。所以我们会大量投入研发,不仅是量产技术,还会研究其他可能的技术路线。

第二,更高效的算力非常重要。我们会加强模型和芯片的协作。有更强算力后,能做事的空间就大很多,不会像在小规模的跷跷板上,这个高了、那个就低了。当算力大时,可以用通用方法解决很多问题。今天的大语言模型不为任何一个特定行业设计,但由于参数足够大、数据足够多,自然就通用起来。

智驾现在还处于专用期,越往后越需要通用能力解决长尾问题。这些问题不可能靠专用小模型解决,肯定需要大模型,而且需要系统具备人类认知,所以需要很大算力。自动驾驶从今天的 70-80 分提升到 100 分,每提升 10 分需要的算力不是简单乘以 2,可能是乘以 5 或 10。

晚点:所以特斯拉 AI5 芯片大概 2000TOPS 的稀疏算力远远没到尽头?

谢炎:离真正的 L4 也还不太够,当然这只是我个人的判断。

晚点:你们已经在车端用马赫 M100 替代英伟达,但云端还在用英伟达。云端算力不够用而且很贵,这个问题怎么解决?

谢炎:英伟达不会因为我们没用它的车端芯片就不供应云端产品,老黄不是这样的人。马斯克也买英伟达的云端产品,车端同样没在用,所以该合作还是合作。我们可以用所有云厂商和芯片厂商的产品。国产的都在用,只要好用就行,我们不挑。

晚点:车端模型往后肯定会变得更大,理想会通过更低精度推理的方式提升效率吗?

谢炎:当然。

晚点:能做到什么水平?

谢炎:Google 首席科学家 Jeff Dean 的观点我特别认可。他最近两年一直在讲稀疏和低精度,降低精度也是一种广义的稀疏。这跟硬件设计强相关,如何设计更低精度的推理,不能仅是硬件设计,而是从算法、模型设计上保证,即使精度降下来,算法都能保持足够性能。这些技术是我们的重点研究方向。

晚点:有可能做到 FP4 吗?

谢炎:对,4 甚至 2。

晚点:这么低的精度?自动驾驶毕竟要讲究安全。

谢炎:这个东西必须跟软件结合,所以并不是所有地方都用低精度。就像你开车时,视觉焦点之外看个大概就行,其余部分根本不需要高精度。所以在训练和架构的联合设计上有很多讲究:如何用好低精度,如何用好结构化稀疏和其他稀疏方法,比如 KV 缓存的稀疏化,这里面有很多可供软硬件联合设计的地方,不是简单部署一下硬件就好了。水还挺深,也挺有意思。

晚点:预计马赫 M100 从什么时候开始支持机器人?

谢炎:这得看我们机器人业务的节奏,不着急。芯片就在那,业务准备好随时可以用,更重要的是机器人的技术方向。理想做机器人,肯定不会简单复制别人的方法,那样没意义,更重要的是走出一条自己的路,那会决定怎么用我们的芯片。如果机器人业务需要高性能的量产芯片,马赫 M100 比市面其他芯片都好,又有内部支持,效率会很高。

晚点:机器人团队还缺少像自动驾驶跑在车上这样的具体场景,可能机器人团队还得探索一些场景,才能走到量产。

谢炎:对,产品要定义好。我们机器人团队也用基座模型。现在想哥定义的分层是:芯片、模型、机器人和自动驾驶,包括其他业务用的大模型都基于基模团队提供的模型,所以模型训练都在一起。也就是说,机器人用的基座模型本身就适配我们的自研芯片。

晚点:你在四季度业绩会上提到,因为有星环 OS 和马赫 M100 芯片,理想取消了上一代平台的 XCU,并因此节省 1000 元单车成本,具体是怎么回事?

谢炎:很简单,马赫 M100 有比较强的处理器,里面有 24 个 A78,我们用虚拟化和操作系统技术隔离出一部分给 XCU 用,整个 XCU 控制器就节省掉了。

晚点:除了自动驾驶,马赫 M100 还有其他应用场景吗?

谢炎:大家一定要理解,这颗芯片不叫自动驾驶芯片,而是 AI 推理芯片。座舱肯定需要,最终车内需要一个 AI 的计算中心,所有 AI 集中到这里最高效,而且我们也是自研的,有最大的掌控力,这样效能最高、单位算力成本最低。无论自动驾驶还是座舱里需要的 AI,都放到一起效率才最高。如果这边摆一个 AI 小计算,那边摆一个 AI 小计算,而且两边架构还不一样,适配起来都麻烦。

在底盘和以后要推出的机器人上,我们也都会用马赫 M100。你看特斯拉 FSD 芯片在机器人上也用。媒体经常把 ASIC(Application-Specific Integrated Circuit,专用集成电路)和 PU(Processing Unit,处理单元)搞混,ASIC 是完全固化的芯片,为自动驾驶设计的就只能跑自动驾驶算法,其他算法跑不了,而我们做的是 PU。

晚点:从 2021 年特斯拉开始大规模推送 FSD Beta 版起,智驾行业经历过多次算法变动,这对理想设计芯片的思路有冲击吗?你们做了哪些调整?

谢炎:这就是做 ASIC 和 PU 的差别。做 ASIC 如果应用一变,硬件固化了就是灾难。但我们做的是 PU,可编程、有灵活度,只要应用计算大的特征不变,算子的变化都能适配,而且效率都保持得很高。就像 CPU,英特尔和 AMD 的处理器没有为哪个具体应用做固化,但什么应用都能跑,且效果还不错。

不过,如果计算特征发生巨大变化,的确有影响。大语言模型兴起后,计算特征确实和之前的深度神经网络有区别,跑大语言模型特别是 Decode 阶段计算密度很低,对带宽要求极高,所以我们做了相应优化,稍微加了一些东西。

晚点:现在大家评价自动驾驶芯片性能时,一看算力、二看带宽。马赫 M100 的内存带宽是 273GB/s,为什么不做得更高一些?

谢炎:只看参数没意义,最终要看有效算力。例如评价一部手机好不好,内存很重要,但苹果内存最低,体验却最好。所以不能简单拿参数衡量芯片能力。就像拳击比赛,获胜选手是综合实力强,不是比泰森重、比泰森高就能打赢泰森。

晚点:怎样才算综合评价?你之前演讲时更多强调跑 CNN 模型或 Transformer 模型的速度。

谢炎:对,尽量用关键模型评价,甚至最好直接拿自动驾驶说话。用一个大的自动驾驶端到端或 VLA 模型评价,这最客观,而不是看参数。

晚点:Orin-X 推出时 Transformer 还不火,所以有人认为,英伟达设计这款芯片时对 Transformer 考虑较少。理想遇到的情况是怎样的?

谢炎:我们跑 Transformer 模型的效率比英伟达高很多,原因有三点。

第一,Transformer 最重要的注意力计算需要把矩阵转置后再相乘,英伟达 GPU 架构的二级缓存承载不了,就要放到全局内存,然后反复访问高带宽内存做远距离读取,所以直接碰到 “内存墙”。我们的数据流架构是数据驱动而非指令驱动,计算单元间传输不需要经过全局内存,可以直接传输并在过程中转置,效率最多比他们高 10 倍。

第二,我们做注意力计算很高效,因为数据流架构可以把计算过程流水线化,不只依赖全局内存,不容易遇到 “内存墙”。然后是矩阵乘,就是最后大的计算结束再去跟大的矩阵相乘时,需要给每个计算单元都复制一份矩阵,而我们有全局广播总线,可以一次把矩阵同时送给所有计算单元。英伟达 GPU 是指令驱动,每个计算单元都要到全局仓库去找,效率更低。

第三,我们的计算单元里有一些算子可以直接形成数据流。不是每次算完再通知其他模块来算,而是把多个计算步骤串联起来连续处理,效率高很多。

这些效率提升来自体系架构设计,不是固化的。如果把所有高效的东西都固化,那参数也会固化,就失去了架构的灵活性优势。

AI 时代,人的一个重要能力是能够跳出分布概率思考

晚点:你评价自己是工程师,但加入理想后很快成为 CTO。你怎么看车企 CTO 这个职位?理想 CTO 需要做哪些核心工作?

谢炎:在任何公司的高管里,CTO 定义最模糊。理想 CTO 有对外技术对接的职责,对内主要是在 AI 计算这条线上——从模型、操作系统到芯片,再到封装等相关技术——保证公司未来有竞争力,在中国一定领先。

这是我投入精力的重点,因为这是理想成为具身智能公司的核心之一,虽然不是唯一,因为车是复杂产品。这条线又分为交付和保证领先两部分。交付要足够好,会花一点精力,但更重要的是往前看,因为技术永远不进则退,所以一定要花时间关注还在地平线上的新技术。

晚点:你现在关注哪些新技术?

谢炎:第一是模型未来的发展,这个我会花精力看,特别是自动驾驶和具身智能模型。第二是芯片架构,我们正在做的是第一代,之后还会继续迭代。

第三,芯片设计本身挺有意思,像盖房子一样,材料和构建方法有无穷想象空间。摩尔定律让半导体接近极限,要进一步提高性能,业界有很多新方向,包括用光、先进封装,从二维转向三维构建等。如何在三维层面构建,以及如何用这些底层材料和搭建方式更好地设计架构,我也会花精力关注。

还有用 AI 赋能芯片设计和编译器,这也很重要,未来我们必须走在前面,效率一定要足够高。所以我在推动核心计算团队用 AI 提升效率,突破原来想象不到的事情,比如直接用 Claude、Codex 等 AI 工具写算子、用 AI 编译优化整个链条。

晚点:你的工作风格是什么?

谢炎:抓重点。从工程师成长到要构建更大事情时,最重要的是学会分配精力。不能像自己做工程师时每个点都亲自处理,要分清哪些点看浅一点,哪些点看深一点。

晚点:在不同节点,你的工作重心分布在什么事上?

谢炎:架构设计我看得比较多,软件和编译,软硬协同也会看,RTL 设计(Register Transfer Level,用硬件描述语言阐释芯片的逻辑功能)、前端设计、后端设计相对看得较少。关键结果可能会看得多一些。我对自己要求是,保证在人工智能技术路线上,不错过大机会,少踩坑,达到领先并能持续领先。

晚点:在 AI 时代少踩坑,可能吗?

谢炎:所以要加强研究,很多东西得先知道发展方向。所谓 “踩坑”,核心是没有一手信息、人云亦云,只看特斯拉、英伟达今天怎么改,但不知道为什么,说它这么改所以我也这么改,这最危险。

不是他怎么改我们就怎么改,而是即使跟他方法一样,也要搞清楚背后的深层原因,第一性原理是什么,进而倒推有没有其他更好方法。干一模一样的事没什么意义。我们现在做的很多事都和业界不一样,但这不是投机行为,而是真的从底层分析清楚后的决策,不是押宝。

晚点:你说保证理想在 AI 时代持续领先,范围指车企还是全行业?

谢炎:首先是车企,这是基本目标。我们不会跟 OpenAI、Claude 去比 Coding,这没有意义。每家公司有它的使命和领域,我们的使命和优势更多是在三维世界构建具身智能的全栈能力。

晚点:十年后,你预计具身智能会达到多大规模?

谢炎:汽车现在是中国第一大行业,超过房地产,具身最终肯定比这个市场大。人类需求是无限的,不会嫌生产力少,而是需要更多机器人干各种活。

晚点:理想在往具身和 AI 方向转型,汽车业务还有多重要?

谢炎:汽车业务对我们挺重要,相当于练兵场,可以提供大量资金、人才、场景,很多技术从里面孵化成熟、成本降低。汽车业务对理想来说肯定是今天最重要的业务,外面说想哥不想做汽车了,不是的。虽然有远大目标,我们还是立足汽车,今天所有东西还是服务于汽车。

晚点:你加入时理想正处于上升期,到今天遇到挑战,你的角色也愈发重要。怎么看待理想这几年的变化?在不同阶段,你怎么判断各类事情的重要性?

谢炎:我基本上没什么变化,公司在业务上肯定是有上有下,但更重要的是看到一些不变的东西。我来之前就相信汽车是重要的人工智能产品,一定要通过软硬件结合打穿到芯片、操作系统,才能形成长期竞争力。至于中间的起伏,只要我们还没困难到一点儿钱都没有,那就保持这个研发强度,把内功练好,让大家有这个耐心。

我刚才说芯片团队 200 人,这跟公司近万人的研发团队相比是非常小的比例,他们安安静静在一个角落把核心的东西打磨好就行,不要被所谓的销量高低影响。重要的是,坚定相信正在做的始终是这个时代很重要的事,这一点我们一直没变过。

而且我相信 AI 时代会有一套新的计算架构,我一直想在汽车上把它试出来。这件事不管怎样都非常有意义,而且一旦做成,一定能帮助理想建立非常强的壁垒。

晚点:今天团队可能没法再安安静静,像你就要被推到台前了。

谢炎:你做出来就好,拿东西说话,而不是靠对外说。

芯片能上车只是起点,我们还有很多想法,芯片还有性能空间可挖,因此有很多事可干。也很幸运处在这个时代,这个时代最重要的是具身智能产品,而汽车是很好的载体。其他东西都不太重要。

当然作为公司高管,销量我也关心,我们必须让公司不出岔子。除此之外,不需要关心更多噪音。

晚点:一家自动驾驶创业公司挖人的方式是看比赛成绩,谁的分数高就把他挖过来,你呢?

谢炎:我不赞同他的方法。这只能说明某些人打比赛特别熟练,但是更重要的,AI 特别擅长大量数据的平均分布,如果这个人是技能熟练型的,所有认知都在平均分布里,也很容易被 AI 替代。而人最重要的是跳出概率分布的那部分,也就是 AI 从没见过或者 AI 不会去想的一些事情。

马斯克当年做火箭,成本要降到以前的 1%。如果 AI 来解这个问题,它一定不会想到回收火箭,甚至包括用 “筷子” 夹的方法。今天的 AI 做不到,因为它从没见过,很难完全跳出分布概率去想还有别的可能。它更多是在看到的东西里,通过 CoT(Chain of Thought, 思维链)一步步找到相对较优的方法。

晚点:你说智能电动车要通过软硬一体把 AI 能力和智驾做好,才能成为头部公司,但市场上很多人都已经认识到这一点。会不会产业决胜点其实不是这个?

谢炎:你说智能电动车的决胜点不是智能?

晚点:因为刚才在说分布概率。

谢炎:这是两件事。一件是你跳出分布概率,让原来不能做的事变得可做,但有些需求就在那,只是你做不做得到。人类需求没有分布概率的问题,比如你需要一个机器人帮你干活,这是毫无疑问的,可能每个人都这么希望,而且是非常便宜的价格。

晚点:你刚才说到,现在国内厂商在智驾这块的能力都在第一梯队,上下之间区分没那么大。

谢炎:头部几家是这样。

晚点:有没有可能一直保持这样的情况,最后光靠智驾区分不出来哪个车能力强?

谢炎:智驾还是能区分出来的。一个是今天离闭上眼睛、完全放心开还有比较长的距离,但大家已经慢慢相信这件事会发生。还有综合成本问题,也就是用多大的成本达到这个程度,这会有差异。

另外当自动驾驶实现后,你会希望汽车帮你干更多事。没有智驾,我们开启不了这个可能性。

晚点:数据流架构也是跳出分布概率的一种?

谢炎:对。你如果让 AI 设计,它大概率不会选择数据流架构。

晚点:也打不过英伟达?

谢炎:对。

晚点:AI 用多以后,会不会影响我们跳出分布概率?

谢炎:会。

晚点:那怎么办?

谢炎:所以有经验的人现在还是重要的,不能都交给 AI。现在硅谷为什么裁掉一线工程师?因为他没有足够的经验,跳不出分布概率,只能瞎想。瞎想当然也有价值,经验有时候也会限制你跳出分布概率。但在有些领域,没有足够经验,你跳出分布概率的想法可能 90% 是错的,还会耗费大量时间。

晚点:经验是通过亲身实践得来的,如果 AI 工具很早介入,没有探索的过程,不够资深的员工如何变成更好的自己?

谢炎:这的确是一个问题。

晚点:你们现在怎么做?

谢炎:我没有特别好的方法,还是要容忍一些,不要全是 AI。底层工作 AI 能做时,就给新人机会。不过新人不是重复全部底层工作,而是在上层构建认知,在新环境下学习技能。如果回到六七十年代,很多人能写汇编语言,但现在能写 C 语言的都不多,但这并不妨碍大家的生产力更强。

晚点:哪些事情你不允许用 AI 做?

谢炎:没有不允许,大家放开做。今天不用 AI 比用的风险更高,所以大家尽量用,控制风险就好。

晚点:有经验的人会看出来质量好坏。

谢炎:对,有经验的人会提高非常快,没经验的人也有机会快速切入一些领域,所以不限制大家。我的想法是推动大家去试,因为不试就不知道 AI 发展到什么程度,试了之后才会有越来越深的体会,而且可以想象它未来能干更多事。

晚点:乔布斯在世时,苹果搞过封闭战略会百人会(Top 100),目的是确保公司最高层能清楚地知道最厉害的人在想什么,保密程度非常高。理想有什么管理机制,能够让好想法自下而上涌现?

谢炎:这很重要,不要太科层化,比如我会直接跟校招生、一线员工不定期聊,就是聊你今天在想什么。我也会跟大家分享我看到什么、我在想什么。

在资源分配上,我们今年在思考一件事:不要把资源束缚在一个个垂直的井里。如果组织结构一旦形成,人力、计算资源都在一个井里,基层即使有好想法,也不一定能获取相应资源。

第二,好想法落地往往需要不同的能力,而即使是领导可能也只拥有一部分能力,因此要跨团队协同。所以,重要的是打破部门墙。

我们正在尝试另一种方法:有人有好想法之后能直接提出来,然后跳出他的组织架构上会评审,通过后大家就匹配资源,甚至跨部门调集一个虚拟团队来干,快速组成一个 “篝火” 模式。我们最近也在思考,如何形成制度化的 “篝火”,让大家可以快速形成一些 idea,快速试错和响应。

晚点:之前有理想产品高管说,前两年当一部分高管被调去做流程后,年轻员工很难直接跟 CEO 产生有效交流,最终李想成了产品天花板。怎么避免这种情况?

谢炎:这种情况肯定有,因为一线听到炮火的人更了解实际情况。他的想法被否掉后,后来发现是对的,这很难避免。但反过来讲,有可能他只看到问题的一方面,提的不是正确建议。

所以,既要保证他的创新能跑出来,也要保证真正落地的是高质量建议。很多人都会提建议,但 1000 个建议中真正靠谱的可能只有 20 个。如果只要有 idea 就能获得资源,公司也会乱套。

晚点:所以你们还在摸索?

谢炎:这应该没有一个绝对的方法,只有一种情况:你的团队规模足够小,足够紧密,这种方式才会非常奏效。这也是为什么我不希望团队太大,人少沟通反而更容易,人多了之后你要花费大量精力辨别哪些是噪音,哪些真正有价值。不过团队小,人员素质要足够高,大家都得靠谱才行。

晚点:今天你是更集权还是更分权?

谢炎:我比较分权,因为我的工作模式是这样:很多事我如果发现有问题,就直接跳进去跟工程师一起看。我的时间并不完全固定,而是看哪个时间段的哪件事更重要。如果是大家已经定义好的事,最好有一个直接负责人。假设全由我负责,有可能我自己成为瓶颈。

晚点:直接向你汇报的有多少人?

谢炎:比较多,我现在兼任两个一级部门负责人,因为一直没有合适人选。但好处是我们的架构以事为驱动,虽然我兼了两个一级部门负责人,其他都是一级部门负责人向我汇报,只有那两个部门是二级部门负责人向我汇报。

那些人围绕一件事工作,并不需要我每天告诉他们做什么,他们更多是自驱在一件核心事情上,知道自己精力应该往哪放。所以我们的架构更像数据流,不是中心式。

晚点:传闻你推动了理想的 AI 战略?

谢炎:不是。战略肯定是 CEO 想哥推动,我就是实施,包括让技术方向落地。

晚点:这和你加入理想之后的建议、判断有关吗?因为你认为汽车是人工智能、具身智能端侧实现的路径之一。

谢炎:大面上他没受我影响,或者说我们俩判断一致。不是我说他就觉得 AI 重要,只要 CEO 看到大趋势,就都知道 AI 肯定重要。

我无非是推动了跳出分布概率的技术路线选择,更多是为了领先,领先也是为业务服务。所以不存在我说服他,当然如果我们做得好,他会信心更足。

晚点:从阿里离开时,你有一个可以做新公司 CEO 的机会但拒绝了,因为你认为头衔没那么重要,做的事很重要。

谢炎:对。

晚点:基于你今天做的事情和想达到的目标,如果 CTO 这个 Title 不重要,当下对你来说什么最重要?

谢炎:像我刚才说的,主要是在整条 AI 链路上,通过垂直整合,从模型、软件、芯片甚至更底层,为公司构建起坚实竞争力基础。这个基础一旦构建起来,就会产生类似 “飞轮效应” 的效果,模型,软件,操作系统,芯片同时加速进步,这种优势可能会是结构性的。

晚点:确保你能实施这条路线是最重要的?

谢炎:对我来说,重要的不是在什么位置,而是能参与重要的变革和历史进程。在能够成功的基础上,是不是我在主驾位又有什么关系。

李安琪对本文亦有贡献

题图来源:理想汽车

注释:

[1] 冯·诺依曼架构:由数学家冯·诺依曼在 1945 年提出的计算机架构,被现代绝大多数计算机采用。其核心特点是指令和数据存在同一存储器中,CPU 按顺序执行指令。

[2] 数据流架构:一种计算架构,1970 年代由 MIT 的 Jack B. Dennis、Arvind、高光荣等人提出。其特点是当操作所需的输入数据准备就绪,操作会自动执行计算。

[3] 内存:计算机用于存储数据和程序的硬件组件,也称为主存储器或随机存取存储器。处理器可以快速读写内存中的数据,是计算机运行程序和处理数据的重要部件。

[4] 缓存:位于处理器和主内存之间的高速存储器,用于临时存储频繁访问的数据和指令,减少处理器等待数据的时间,提高整体性能。

[5] 内存带宽:单位时间内,内存与处理器之间可以传输的数据量,通常以 GB/s 为单位。带宽越高,数据传输速度越快。

[6] 低精度推理:使用较少位数(如 8 位、4 位)表示模型参数和计算,相比传统 32 位浮点数可显著降低计算量和内存占用,同时保持相对较好的模型性能。

[7]DDR:Double Data Rate 的缩写,即双倍数据速率,是一种内存技术标准。DDR 内存在时钟信号的上升沿和下降沿都能传输数据,相比传统内存速度更快。

[8]CNN:Convolutional Neural Network 的缩写,即卷积神经网络,一种深度学习模型,适合处理图像数据,通过卷积层提取特征。

[9]Transformer:一种基于注意力机制的神经网络架构,最初用于自然语言处理,现已广泛应用于计算机视觉等领域,是 ChatGPT 等大模型的基础架构。

[10]PCIe:Peripheral Component Interconnect Express 的缩写,即高速串行计算机扩展总线标准,用于连接主板上的各种硬件组件,如显卡、存储设备等。

[11]NPU:Neural Processing Unit 的缩写,即神经处理单元,专门为人工智能和机器学习计算设计的处理器,相比通用处理器在 AI 任务上更高效。

[12]GPGPU:General-Purpose computing on Graphics Processing Units 的缩写,即通用图形处理器计算,指将原本用于图形渲染的 GPU 用于通用计算任务。

[13]SoC:System on Chip 的缩写,即片上系统,将完整计算机系统的主要组件集成在单个芯片上,包括处理器、内存、输入输出接口等。

[14]ASIC:Application-Specific Integrated Circuit 的缩写,即专用集成电路,为特定应用而设计的定制芯片,相比通用芯片在特定任务上性能更优、功耗更低。

[15]PU:Processing Unit 的缩写,即处理单元的通用称呼,可以指 CPU、GPU、NPU 等各种类型的处理器。

[16]Chiplet:芯粒技术,将原本集成在单个大芯片上的不同功能模块分解为多个小芯片,再通过先进封装技术连接,可以提高良率、降低成本。

[17]Hardware 3.0:特斯拉搭载的第三代自动驾驶硬件,包含两颗自研的 FSD 芯片,专为自动驾驶计算优化设计。

[18]IP:Intellectual Property 的缩写,在芯片设计中指可重用的设计模块,如 CPU 核心、内存控制器等,厂商可以购买 IP 来加速芯片开发。

[19]Debug:调试,指在软件或硬件开发过程中发现、定位和修复错误的过程,是确保系统正常运行的环节。

[20]CUDA:Compute Unified Device Architecture 的缩写,英伟达开发的并行计算平台和编程模型,允许开发者使用 GPU 做通用计算。

暂无回复,快来抢沙发吧!

  • 1 / 1 页
敬请注意:文中内容观点和各种评论不代表本网立场!若有违规侵权,请联系我们