Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

「硅仙人」吉姆 · 凯勒:我在特斯拉是最闲的员工,却要在英特尔管一万人

芯片业界传奇人物的「凡尔赛」方式也是与众不同的。
英特尔离职半年后,半导体业界传奇人物、「硅仙人」吉姆 · 凯勒(Jim Keller)加盟了加拿大多伦多的 AI 芯片初创公司 Tenstorrent 任 CTO。

对于大众来说,他就像一个传奇,以电气工程学士学位的身份在遍地博士的半导体行业走到了常人难以企及的位置,而且所到之处几乎都会掀起一场变革。

Jim Keller 的职业生涯开始于 DEC,他在那里从事 Alpha 处理器的设计工作,之后在 AMD 工作了两年,推出 K7 和 K8。随后,他又在 SiByte 和博通担任首席架构师、在 PA Semi 担任工程副总裁。2008 年,PA Semi 被苹果收购。

在苹果的四年,吉姆 · 凯勒带领团队开发出了苹果 A 系列处理器的开山之作 A4,以及第二代 A5(对应 iPhone 4 和 iPhone 4S),开启苹果的辉煌造芯之路。从 A4 至今这么多年,苹果手机处理器一直是业界顶尖水平。

2012 年开始,他回到 AMD 担任公司副总裁和首席核心架构师,负责打造新一代 CPU 架构 K12 和 Zen,是 AMD「再次翻身」的关键人物。

2016 年到 2018 年,他在特斯拉研发了 FSD 自动驾驶芯片,该芯片性能是替换掉的英伟达方案的 20 多倍。毫无疑问,他是特斯拉自动驾驶芯片 FSD 背后的功臣。

最近一次离职前,他在英特尔工作了两年,提出了 3D 堆叠芯片等创新方法,是英特尔新架构的策划者之一。

纵横半导体行业三十余载,Jim Keller 对于该行业的未来有着自己独到的看法。近期,知名科技媒体 AnandTech 对 Keller 进行了专访。在长达数屏的采访记录中,Keller 谈了很多话题,包括他在 AMD英特尔扮演的角色以及他对摩尔定律、各种指令集的看法等。我们将部分内容整理如下:

我不是 Zen 之父,顶多算它的一个叔叔

近年来,Zen 架构的成功让英特尔占领了大量市场份额,人们也习惯地将 Jim Keller 称为 Zen 之父。但 Keller 本人却谦虚地说,他顶多算 Zen 的一个「叔叔」。

Keller 表示,Zen 背后有一个非常强大的跨地域团队,比如 SoC 的研发一部分在美国奥斯汀,一部分在印度;浮点缓存的研发在科罗拉多,ARM 前端在桑尼维尔…… 每个团队都有一个领袖,比如 Zen 核心的现任首席设计师 Mike Clark。Zen 架构项目刚启动时,团队只有 500 人,在 Keller 离开时已经有 2400 人的规模。

Keller 当时的职位是副总裁,因此他表示自己几乎没有去写 RTL,而是花了很多时间在方法论构建、IP 重构和组织架构调整上。此外,他还参与制定了 5 年的路线规划

去年,AMD 发布了 Zen3 架构,有人认为 Zen3 的设计依然延续了 Keller 当时参与制定的路线。对此,Keller 表示,「这很难说。我们当时从头开始制定了一个很干净的顶层设计。但在构建它的时候,很多 RTL 都来自『推土机』和『美洲豹』,因为确实很好用。Zen3 据说经历了一次大的重写,他们可能取了一些片段在顶部进行重构。但在构建代码的时候,如果说某个地方有 20% 到 80% 的代码都没变或只是轻微变动,我也不会觉得奇怪。结构的正确性才是关键,然后根据需要重用代码。如果他们说 Zen3 是重写的结果,我觉得他们可能是修改了结构。」

我在特斯拉「饮茶」

助力苹果 A 系列芯片起飞、AMD 实现逆袭,能够完成所有这些,是因为 Jim Keller 拥有一些异于常人的能力。他曾经说过,当设计电路时,他可以在脑海中想象设计图并逐步填充蓝图。

「如果说我有一种超能力,我觉得应该是可以想象出计算机的实际运行方式。在做性能建模之类的事情时,我可以在脑海中构建起整个模型,但只是把代码写下来。这是一项非常有用的技能,可能部分是天生的。也可能有部分是后天形成的,部分或许来自于我的晚期成人阅读障碍。」

对于真正的天才来说,想做一件事总是很容易,但 Jim Keller 认为自己不是这样的人。在计算机的设计中,毅力非常有用:当很多东西需要大量调整时,你必须相信自己能够做到。

Jim Keller 的贡献在芯片行业是如此引人注目,那么他是一天只睡四个小时的那种人吗?答案显然是否定的。虽然对于大神来说,时间也是不够用的。

「我每天需要睡大概七小时。但我曾经算了一下,理想状况下的一天应该需要 34 个小时。因为我喜欢在办公室外工作,与我的孩子们共同度过时间,我当然也喜欢吃饭和睡觉,就像工作一样,」Keller 说道。「我还喜欢看书。工作很奇怪,因为它会花费比你想象中更多的时间,把时间压缩下来是一个挑战。」

在过去几家公司的任职过程中,每当 Jim Keller 想要做些什么,他就会寻找那些「比我还要想干活的人」。

「你知道我是特斯拉最懒的人,这家公司有一种每天工作 12 小时的文化,而我在那里时大概是朝九晚七——虽然时间不短,但我会花费时间去吃午饭,也会在家办公。他们还有一个健身房,Deer Creek(特斯拉在加州帕洛阿尔托的总部所在地)就在一个健身房旁边,所以我总会去那里健身然后吃饭。」

不过在 AMD英特尔事情就不一样了,这些公司拥有庞大的组织和优秀的员工,所以 Jim Keller 需要花费大量时间在演讲和协调上。「我会找到一些想要做这些事的人,把事情交给他们,然后去度假。」Keller 说道。

我在英特尔没写多少代码,倒是发了不少短信

从苹果、AMD 到特斯拉,然后又加盟英特尔,Jim Keller 在芯片领域的经历仿佛就是立志「打败几年前的自己」。不过在这些大公司的最后一站,情况又有所不同了。

虽然从英特尔离职已有一年,但 Keller 与英特尔之间仍然有保密协议的限制,有关他在英特尔的两年经历他还不能透露更多。不过能说的这些已经足够有趣了。首先,他当时负责的是芯片工程事业群的高级副总裁,管理的团队有 1 万人之多。

「他们同时在做很多事情,怎么看都很神奇:同时有 60 到 70 种 SoC 正在原形设计、调试和生产的过程中,我的下属都是副总裁和高级研究员,所以如何组织成了大问题。」

我原以为自己去那里是因为有一堆新的技术要开发,Keller 说道。我的大部分时间都在与团队一同进行组织和方法转换,例如新的 CAD 工具、新方法、构建芯片的新方式。早在 Jim Keller 加入英特尔几年之前,这家公司就开始了被称为 SoC IP 的新芯片构建方式。

但 Keller 认为,这样的改革并不顺利。他和团队每天都在进行一个又一个会议,但具体来说其中不包含任何技术上的事情。

「我被告知自己的身份是高级副总裁——需要负责评估、设立方向、做出判断,或者比方说尝试一些组织变革或人员变革,」Keller 说道。「要想确立我们的方向,最重要的是设定正确的目标,然后围绕它建立组织——这需要大量的工作。所以我没有写很多代码,但我确实发送了很多短信。」

在提及技术出身的英特尔新 CEO Pat Gelsinger 时,Jim Keller 表示「祝他一切顺利」,认为这是一个不错的选择。「我们看看未来会发生什么吧。」

最后,在 61 岁时来到创业公司 Tenstorrent,这会是他退休前的最终归宿吗?Jim Keller 给出的答案是:「我打算在这里待一段时间。」

都说摩尔定律将死,但我觉得没必要那么悲观

在半导体行业,摩尔定律行将就木是一种非常普遍的论调,但 Jim Keller 却有着一种反常的乐观,认为问题终将被解决。那么,是什么让 Keller 如此乐观呢?

首先,Keller 认为,很多人都没搞清楚状况,比如看到英特尔 10nm 难产就说摩尔定律不行了,「但台积电的路不还走得好好的?」Keller 表示,台积电之所以走得稳,是因为他们的路线与 EUV 光刻机的可用性是一致的。从 16nm 到 10nm 再到 7nm、5nm,台积电每次只走半步:没有 EUV 的 7nm→有 EUV 的 7nm→没有 EUV 的 5nm→有 EUV 的 5nm…… 他们调整了一些东西。

「在讨论创新的核心时,我们倾向于把台积电、三星和英特尔当作工艺领袖,但其实很多引领工作是由阿斯麦尔这样的设备制造商或材料领域的科学家完成的。几年前,人们甚至都不确定 EUV 是否能用,但现在,台积电已经在大规模采购了。甚至 X 射线光刻也要来了。就像理查德 · 费曼所提到过的:『底层还有很大空间』。」

另外,英特尔台积电、三星这样的「工匠(craftsman)」也会给人一种错觉,让普通人以为技术发展的节奏就是如此缓慢。但其实,除了技术本身,还有很多因素在相互作用,比如这些「工匠」用的工具够不够尖端、他们的人才够不够聪明等。这些因素互相影响,最终会有一些妥协,没有哪家能完美协调,这就使得技术的进步看上去慢了一些。但实际情况是,物理基础的进展并没有那么慢。

作为 EUV 的延伸,阿斯麦尔计划在 2025-2026 年推出一种新的光刻系统——high-NA EUV,这是一种昂贵的设备,比一架飞机还贵。届时,芯片设计者就可以在上面施展更多奇淫巧技。而这些都得益于研究者在物理、材料等领域取得的进展。Jim Keller 感慨道:「目之所及,到处都是有意思的物理问题,我们还有很多事情可以做。目前,已经有成千上万的人投入到这个领域,因此我们的『创新带宽』足够宽」。

X86 和 Arm 都太复杂了,我觉得该用 RISC-V

要说如今人们有什么想问 Jim Keller 的,最直击灵魂的当属指令集了。作为芯片业界传奇人物的 Keller 站哪一队呢?

「争论指令集是一件非常悲伤的事情(very sad story)」,Keller 这样回答道。它甚至不是几十个操作码的问题——80% 的情况下核心指令只有六条:加载、存储、加法、减法、比较和分支。有了这些,你就几乎涵盖了所有。如果你用 Perl 或其他语言编写代码,则调用和返回可能比比较和分支更重要。但是指令集之间只有一点点区别——你可能会因为缺少指令而损失 10% 或 20% 的性能。

在过去的一段时间里,我们曾认为可变长度指令难以解码,但也在一直想办法解决这一点。通过预测指令的位置,我们可以很好滴解决这一问题。当构建小型计算机时,固定长度的指令就很好用,但在大型化时,是不是固定指令集也不是核心问题。

在 RISC 刚刚出现时,X86 是半微码。RISC 可以说我们的芯片上没有 ROM,因此就有更高的性能,但现在 ROM 微不足道,限制计算机性能的是可预测性,其中两大因素是指令 / 分支可预测性和数据局部性。新的预测器非常擅长这一点,它要比加法器大得多,这就是 CPU 与 GPU(或 AI 引擎)之争了。造 GPU 的人会说,「没有分支预测器了,我们所有事情都是并行的」,但它们在运行 C 语言程序的时候性能不行。

GPU 是为了解释像素运行着色器而构建的,所以假如给定 800 万像素,大型 GPU 有 6000 个线程,你就可以很轻易地为所有像素每一帧处理 1000 个程序,就像携带沙粒的蚂蚁一样。而大型人工智能计算机,它们具有非常大的矩阵乘法器,却只需要少得多的线程来做高负载的数学运算,矛盾就出现了。

现在存在三种不同的计算机:CPU、GPU 和 AI 加速器。英伟达在做「折中」的事情,用 GPU 来运行 AI 负载,并试图在此方向上继续增强性能。其中一些工作显然做得很好,但也有一些显然相当复杂。有趣的是,这种事情经常发生,通用 CPU 在看到 GPU 的矢量性能时,添加了矢量单元。有时这样很好,因为你只有一点矢量计算要做,但如果你要算很多,GPU 可能是更好的解决方案。

回到指令集的问题,当 X86 刚刚出现时,它还非常简单和纯净,但在多年授权发展的过程中,它从 16 位变成了 32 位,逐渐增加了虚拟内存、虚拟化、安全性,然后是 64 位和更多功能。当添加新内容时,我们还必须保留旧内容以维护兼容性。

Arm 也面临着一样的情况,它刚刚出道时还是纯净的 32 位计算机,与 x86 相比看起来更简单,更容易构建。但随后人们增加了一个浮点向量扩展集,在寄存器文件中带有覆盖,然后是 64 位的进化…… 总之目前也在变得复杂。

现在 RISC-V 出现了,它是一个开放的指令集架构,来自大学的研究者们没有时间或兴趣添加太多杂乱的功能。所以相对而言,仅因为血统和年龄,它处于复杂化生命周期的早期。

「这是一个非常好的指令集,他们做得很好。因此,如果我今天真的想要快速构建一台计算机,并且希望它运行得够快,那么 RISC-V 是最容易的选择,」Jim Keller 说道。「它是最简单的一个,拥有所有该有的功能,拥有真正需要优化的前八条指令,而且没有太多垃圾。」

参考内容:
https://www.anandtech.com/show/16762/an-anandtech-interview-with-jim-keller-laziest-person-at-tesla

产业芯片半导体Jim Keller
1
相关数据
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为:积体电路上可容纳的电晶体数目,约每隔两年便会增加一倍;经常被引用的“18个月”,是由英特尔首席执行官大卫·豪斯所说:预计18个月会将芯片的性能提高一倍。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

台积电机构

台积电(中国)有限公司成立于台湾新竹科学园区,并开创了专业集成电路制造服务商业模式。台积公司专注生产由客户所设计的芯片,本身并不设计、生产或销售自有品牌产品,确保不与客户直接竞争。公司为客户生产的晶片被广泛地运用在电脑产品、通讯产品、消费性、工业用及标准类半导体等多样电子产品应用领域。

https://www.tsmc.com/schinese/default.ht…
AMD机构

超威半导体(中国)有限公司专门为计算机、通信和消费电子行业设计和制造各种创新的微处理器(CPU、GPU、主板芯片组、电视卡芯片等),以及提供闪存和低功率处理器解决方案,公司成立于1969年。AMD致力为技术用户——从企业、政府机构到个人消费者——提供基于标准的、以客户为中心的解决方案。

https://www.amd.com/zh-hans
暂无评论
暂无评论~