Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部机器之心报道

很突然、很惊艳,马斯克公布特斯拉人形机器人,自研超算Dojo亮相

特斯拉的自动化能力很强,不用来造机器人就太浪费了

「非常抱歉,我们遭遇了一点技术问题,希望以后这可以用 AI 来解决。」今天的活动延迟了半个多小时,伊隆 · 马斯克这样做了开场白。

北京时间 8 月 20 日上午,万众瞩目的「特斯拉 AI 日」开始了。在活动上,伊隆 · 马斯克向全世界展示了特斯拉在自研超级计算机 Dojo、FSD 软件等内容上的最新进展。

按照马斯克本人的说法,吸引最好的 AI 人才加入特斯拉似乎是本次活动的唯一目标。

当然,这次发布向世人宣告的远不止于此,有关通用机器人的计划让我们始料未及。

纯视觉自动驾驶系统和 HydraNets

首先,特斯拉最被人们关注的是自动驾驶技术

特斯拉一直标榜自己的电动车具备高度自动化的辅助驾驶能力,7 月 10 日,FSD(Fully Self Driving,全自动辅助驾驶系统)软件迎来更新。不过当时,更新仅限于特斯拉抢先体验计划用户,这些用户可以进行 FSD Beta V9 版本测试,其最大亮点是基于摄像头和 AI 智能算法的纯视觉自动辅助驾驶技术路线,而不依赖于雷达传感器。

7 月 31 日,特斯拉正式推送 FSD 的最新版本 FSD Beta V9.1,这是首个使用「特斯拉视觉」的先进司机辅助驾驶套件。8 月 16 日,特斯拉又推送了 FSD Beta V9.2 版本。

特斯拉 AI 总监 Andrej Karpathy 博士介绍了这种基于视觉的自动驾驶系统:它通过八个摄像头的数据输入(1280×960 12-Bit HDR 36Hz)进单个神经网络中,整合成 3D 环境的感知,这被称为 Vector Space。

「AI 可以被视为生物,它是从头开始构建的,包括其合成视觉皮层。」

当特斯拉在汽车中设计视觉皮层时,他们从头设计了神经网络,按照生物视觉方法去建模,并利用多头路线,其中包括相机校准、缓存、队列和优化以简化所有任务。

特斯拉从主干网络中获取数据,并将有用的信息输入到不同的任务中(比如目标检测、交通信号灯和车道预测),同时抛弃其他内容,避免浪费算力。

特斯拉的自动驾驶算法是从识别单张图片的普通计算机视觉算法开始的,虽然每个摄像头的单独检测效果很棒,但这显然不够。现在的纯视觉算法「HydraNets」基于不同摄像头的视觉内容进行识别的,而且训练和推断是端到端的。

该算法将多个摄像头的视觉内容转变为向量空间和道路特征。

多摄像头网络的效果值得肯定,尽管只是数量上的增加,但却可能成为解决预测问题的关键之处。该网络生成的周围景观预测很大程度上提高了自动驾驶系统的稳健性。

红绿灯左转是对于自动驾驶的巨大挑战,当车辆在道路上行驶并通过交叉路口时,神经网络会通过 Spacial RNN 进行预测。并在虚拟环境中进行多次模拟,以进一步改善路径规划和理解。

在算法模拟的单元空间中,每一个 unit 都是一个 RNN,并随着车辆的运动更新。

Karpathy 指出,特斯拉现在的 FSD 战略是更具凝聚力的。事实证明,特斯拉的车辆可以有效地绘制实时地图。与 Super Cruise 和 Waymo 等汽车及软件领域的竞争对手的预绘制地图策略相比,这是一个巨大的差异。

自动驾驶软件总监 Ashok Elluswamy 介绍了混合规划系统,以 Autopilot 如何变道为例,当与其他汽车并排行驶时,Autopilot 不仅要考虑它们的驾驶方式,还必须考虑其他汽车的运行方式。

在狭窄的过道周围进行规划时,重要的是要考虑其他驾驶员及其行为,例如在必要时让行:

Karpathy 还提到了数据标注问题。他指出,外包给第三方公司的手动标签并不是最佳选择,本着垂直整合的精神,特斯拉选择建立自己的标注团队。

一开始,特斯拉使用的是 2D 图像标签。最终,特斯拉转向了 4D 标签,可以在向量空间中进行标注。但是这还不够,自动标注技术得到了发展。

有太多的标签需要完成标注,而让人们手动来完成是不可能的。特斯拉自动驾驶软件负责人 Ashok Elluswamy 展示了道路和道路上的其他物品是如何从一辆正在行驶的汽车中「重建」出来的。这有效地让特斯拉能够更快地标记数据,同时允许车辆即使在存在遮挡的情况下也能安全准确地导航。

甚至在对比度过高,摄像头采集的图像不够清晰时,特斯拉还使用神经网络对画面进行了增强。

Ashok 指出,这些策略最终帮助特斯拉将雷达从 FSD 和 Autopilot 套件中淘汰,并采用了纯视觉模型。雷达 + 摄像头系统与纯视觉之间的比较显示了该公司当前的战略有多精细。同时他也谈到了仿真如何帮助特斯拉开发其自动驾驶系统。尽管特斯拉专注于现实世界的数据,但它也使用仿真。

特斯拉利用一个新的仿真程序 (用他们自己的话说,就是 Autopilot 扮演玩家的视频游戏) 来测试边缘情况和其他可能遇到的问题。

神秘超算 Dojo:革命性架构 

DOJO,这次特斯拉 AI 日的最大看点,最终也没有让人失望。

2020 年 8 月,马斯克表示,该公司正在研发一款名为「Dojo」的神经网络训练超级计算机,将主要处理从特斯拉汽车在路上获得的海量视频数据。马斯克发推称:「Dojo V1.0 还未完成,估计还需要一年的时间。不仅仅是芯片本身的研发难度,能效和冷却问题也非常的难。」

几个月后,马斯克又补充道:「Dojo 采用我们自研的芯片和为神经网络训练优化的计算架构,而非 GPU 集群。尽管可能是不准确的,但是我认为 Dojo 将会是世界上最棒的超算。」

今天,特斯拉终于揭开了 Dojo 计算机芯片的神秘面纱。它采用了创新的架构,将算力分布在复杂的网络构造中,实现了极高的算力、高带宽、低延迟的网络吞吐量。

Dojo 的设计是从芯片开始从头做起的。Dojo 的训练 CPU 属于 ASIC 芯片,专注于人工智能训练,采用 7 纳米制程,可以实现 1024GFLOPS 的 BF16 算力,在芯片周围的四向都有 4TB/s 的传输带宽。

特斯拉宣称它的效率超过了现有的 GPU 和 TPU,其主要的优势是在带宽上。

Dojo 用所有力量做一件事:使自动驾驶汽车成为可能。它是一个纯粹的机器学习机器,以现有芯片和服务器的思路看,它的规格堪称「疯狂」:首先把 50 万个训练节点集合在一起,每个区块都有 9 petaflops 的算力,每秒 36 TB 的区块外带宽。

但这只是 Dojo 的冰山一角。在应用时,120 个这样的 D1 芯片区块被整合为一个 ExaPOD,顾名思义,它有每秒超过 1 亿亿次的运算能力(10 的 18 次方),这是目前世界上最快的 AI 训练计算机。与业内其他产品相比,在同样的成本上,ExaPOD 的性能要高 4 倍,能耗比高 1.3 倍,占用空间缩小了 5 倍。

「我们很快就会组装起第一台这样的服务器,这样的设备可以无限链接。」特斯拉 Dojo 项目负责人 Ganesh Venkataramanan 表示,Dojo 有望成为地球上最强大的超级计算机之一。

这些芯片可以帮助 AI 模型利用特斯拉汽车上的摄像头收集到的视频,进而识别各种内容。「我们应该在明年让 Dojo 投入运营,」马斯克说道。

与此同时,特斯拉还围绕这套计算系统构建了完整的软件堆栈,深度学习框架用的是 PyTorch。

此外,特斯拉还计划让下一代 Dojo 性能再提升 10 倍。

特斯拉人形机器人

以上都是此前剧透过的信息,但还有 one more thing,特斯拉要造人形机器人。

在几张幻灯片中,我们可以了解到 Tesla Bot 的一些信息。首先,这款机器人可以用在特斯拉的自动驾驶汽车上,它能学会使用我们在驾驶汽车时所操作的所有装置。然后,你就可以吩咐它去商店买东西…… 马斯克认为,人形机器人「会对未来经济产生深远影响」。

它的身高大概是 1.72 米(5 英尺 8 英寸),重约 125 磅,身材匀称,还带有一张面部屏幕能够以约 5 英里 / 小时的速度移动。

这款机器人的第一个实体版本或将在明年面世,设计初衷就是用来处理那些「不安全、重复的、无聊的工作」。马斯克说:「我认为在未来,体力工作会是一种选择,你愿意的话也可以,不愿意的话也行。」

这仿佛代表了马斯克的某种设想:「制造类人机器人是特斯拉下一个必然要投入的方向。」毕竟他认真地说过,特斯拉已经是「世界上最大的机器人公司」。

当然,特斯拉机器人目前还只是一个设想,我们距离全能机器人管家的距离,要比自动驾驶汽车更远。

在最后,QA 环节的第一个问题有点幽默:「特斯拉会拥抱开源吗?」

马斯克的回答是:「这些东西都是花费了巨资研制的,所以我不太确定要不要开源。」但如果其他汽车公司想要获得 Autopilot 的许可,那是可以做到的。

但正如 SpaceX 和特斯拉此前所做的一样,马斯克的公司经常能让先进技术变得越来越便宜。不知在未来,人形机器人是否也会很快有一个亲民的价格?
理论超算Dojo特斯拉人形机器人
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

类人机器人技术

类人机器人是一种具有与人类相似外形的机器人。类人机器人的主要特性包括:1. 可以在人类日常环境中工作 2. 可以使用人类日常使用的工具 3. 具有与人类相似的外形 目前类人机器人的设计主要来满足功能方面和实验方面的需求。针对功能性设计的类人机器人需要协助人类完成一些高危险,高难度的任务以及辅助病人,幼儿及老年人的日常生活和娱乐等。类人的设计使其可以很好的在人类日常环境中行走以及使用人类日常工具。同时,其类人的交互模式使其可以更好的完成辅助人类以及交互娱乐的功能; 而针对实验需求的类人机器人可以帮助人类更好的探究人类自身的认知,智力,心理等多方面特点。 通常来讲,类人机器人完整的模仿人类的外形,具有躯干,头部和四肢。也存在针对部分特定人体进行仿真的类人机器人,例如只模仿腰部以上的PR2机器人,只模仿腿部的机器人,以及只涉及眼睛和嘴来模仿人类面部表情的机器人(例如Kismet机器人)。此外,仿制人在普通类人机器人的基础上进一步从美学角度上对人类的皮肤,毛发,神态等模仿,从而达到了以假乱真的效果。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

推荐文章
暂无评论
暂无评论~