Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

泽南、张倩作者

3D视频聊天、百万比特量子计算机、十倍性能TPU:谷歌在I/O大会上让我们看到了未来

去年的谷歌 I/O 大会因疫情取消了,今天我们看到的,是谷歌积攒两年的重要技术。它们也是 AI 等领域里最接近未来的那一部分。


5 月 19 日凌晨,一年一度的谷歌 I/O 大会在线上召开,在谷歌园区户外进行的开场 Keynote 上,这家公司发布了一系列引人瞩目的全新产品。

「我们的目标一直是构建一个能够帮助所有人的谷歌,」谷歌首席执行官桑达尔 · 皮查伊说道。用 AI 为更多人提供便利是今天谷歌活动的主题。


在长达几个小时的发布会中,首先你要知道的黑科技是全息视频聊天技术 Project Starline。在疫情期间,很多人无法和亲人、朋友相聚,而谷歌推出的「聊天室」可以让你和远在天边的他们近距离碰面,互相问候、眼神交流,就像真的互相见到一样。


这看起来有点像实时的 3D 电影,又有点像《美国队长:内战》里钢铁侠在展示自己少年时的回忆。

实际上,这是由高分辨率传感器、数十个景深扫描传感器以及 65 英寸「光场显示器」重新生成的实时 3D 模型。谷歌表示这一项目已开发了数年之久,其背后是大量计算机视觉机器学习、空间音频和数据压缩技术。谷歌还为此开发出了一套突破性的光场系统,让人无需佩戴眼镜或耳机即可感受到逼真的体积和深度感。


谷歌计划在今年晚些时候将 Project Starline 进行小范围的推广。除了和亲戚朋友打招呼,这类技术更多的应用场景应该还是远程会议,用惯了 zoom 的我们以后要体验「人在家中坐,领导飞过来」了。

Starline 当然只是 I/O 大会上众多新技术的一小部分。20 年前,谷歌率先将机器学习技术应用于搜索中,10 年前,Google Brain 团队 Quoc V. Le、Jeff Dean、吴恩达等人发表了著名的「识别猫」论文,其中研究人员利用一千台电脑的 1.6 万个处理器核心训练了一个图像识别的神经网络,它被很多人视为深度学习技术爆发的标志。

如今,谷歌的 AI 能力正让更多「不可能」变为现实,他们还要用量子计算等技术取得更多突破。

TPU v4,性能提升十倍

2016 年,谷歌发布了旗下首款定制 AI 芯片 TPU,与传统的 CPU+GPU 组合相比,这类专用芯片在搜索、翻译、语音助手、图像识别等 AI 任务上有数量级的性能优势。这些芯片的应用为谷歌业务带来了优势,进而作为云服务算力的一部分供开发者使用。谷歌在 2018 年和 2019 年继续推出了 TPU v2 和 v3。

谷歌 TPU 虽然并不外卖,但一直被认为是人工智能时代机器学习专用加速芯片的典范。在今天的 I/O 大会上,谷歌发布了这款芯片的最新、最强版本。


如果只看芯片的数据,TPU v4 的算力是 v3 的两倍,而如果看实际性能,v4 实际上相比前一代提升了十倍之多,谷歌表示,这主要得益于系统内部的互联速度,以及架构方面的提升。

皮查伊表示,新的 TPU 实现了计算性能的里程碑式突破,要想实现 1 exaFLOP 级的算力(每秒 10 的 18 次方浮点运算),以前我们需要超级计算机和大量 GPU,现在只需一组 4096 块 TPU 组成的服务器就可以了。如今全球超算 Top 500 榜单第一名——日本的「富岳」最高性能只有它的一半。

与英伟达等芯片公司提出的新一代 AI 加速器类似,谷歌 TPU 效率提高的秘诀在于极快的芯片间互联技术,可以将数百块独立的芯片转变成紧密结合的单个系统来使用。皮查伊表示:「TPU pod 所有芯片间的大规模互联带宽是其他任何组网技术的十倍。」

TPU v4 已经部署在谷歌的数据中心中使用,今年晚些时候将向人们开放芯片实例。

另外,谷歌表示 TPU v4 更高的运算效率带来的好处是更环保。在未来部署的数据中心上,TPU 将使用近 90% 的无碳新能源运行。

MUM,比 BERT 强 1000 倍的多模态、多语言大模型

在 I/O 大会上,谷歌展示了使用 TPU v4 的人工智能应用。我们知道,如今很多 AI 应用是基于 Transformer 的,该模型在 2017 年由谷歌研究人员提出,用全 attention 的结构代替了 LSTM,在翻译任务上取得了更好的成绩。这项技术随后引发了预训练模型的技术突破。

很多人都知道阅读理解模型 BERT,其中的 T 是 Transformer;谷歌正在开发的搜索模型 T5,其中的 T 是 Transformer;如果你知道此前 OpenAI 提出的全球最大预训练 AI 模型 GPT-3,其中的 T 也代表 Transformer。

目前谷歌正在研究的模型是 MUM(Multitask Unified Model,多任务统一模型)。谷歌表示,虽然同样是基于 Transformer 架构,但 MUM 比 BERT 强 1000 倍。

从名字可以看出,MUM 是一种多模态模型,可以同时处理网页、图像等多种数据(未来还有可能扩展到音频、视频等)。这种多模态的设计使其非常适用于搜索。谷歌表示,如今的搜索引擎还不够智能,无法通过一次提问提供更加全面的信息,因此人们需要搜索多次。但有了 MUM 之后,这种问题可以得到缓解。

举例来说,你之前去过亚当斯山徒步,现在想去富士山,你想知道自己该做哪些准备。在这种情景下,你只需要把「我需要做什么准备」这个问题抛给搜索引擎,其背后的 MUM 就可以理解你所谓的「准备」包含哪些内容,比如两山之间的差别、需要进行哪些锻炼、携带哪些装备以及徒步的路线等,然后指向网络上有用的文章、视频和图像。


这种多模态还可以让你用文字之外的信息进行搜索,比如拍下自己的鞋子,问「我能穿着这双鞋子去富士山吗?」


此外,MUM 还是多语言的,使用了 75 种语言进行训练。这使其具备了在不同语言之间传递知识的能力。还是以上述问题为例,关于「富士山」的信息很多都是日语的,但有了 MUM 的加持,你用英语或其他语言也能搜到它们。


LaMDA:聊天不设限的语言模型

除了 MUM 之外,谷歌还在此次的 I/O 大会上公布了另一个基于 Transformer 的语言模型:LaMDA(Language Model for Dialogue Applications)。和 MUM 不同,LaMDA 是专门为对话打造的,而且是开放域对话。


谷歌表示,LaMDA 可以和人在无穷无尽的话题转换中聊下去。在接受对话训练的过程中,它掌握了开放式对话与其他语言的细微差别,尤其是「sensibleness」(合理)和具体。

举例来说,如果你对别人说,「I just started taking guitar lessons」人类的回答可能是:「How exciting! My mom has a vintage Martin that she loves to play」。在这句对话中,「How exciting」就是一种合理的回答,但同时我们也注意到,这句话几乎也是放之四海而皆准的(就像「我不知道」),因此并不能完整地体现对话机器人的智能性。而后面那句「My mom has a vintage Martin that she loves to play」才是人类对话更重要的特点:合乎语境且具体。谷歌表示,这就是他们的 LaMDA 所学到的内容。


谷歌还表示,LaMDA 是基于他们 2020 年的一项研究。研究链接:https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

「拍一拍」诊断皮肤病

手机拍照除了可以翻译、做数学题、检测空气质量,现在还能看病。利用 AI 诊断疾病是很多公司在过去几年发力的方向,在这次 I/O 上,谷歌也分享了他们在结核病等方面取得的进展。但比较有意思的是,他们把部分疾病的诊断直接和手机摄像头整合到了一起,帮助你随时了解和自己的皮肤、头发及指甲相关的问题。


谷歌表示,开发这一应用是因为他们每年都能看到接近 100 亿个关于皮肤、指甲和头发问题的搜索。全球有 20 亿人患有皮肤病,因此皮肤病专家的数量是远远不够的。为了训练这一模型,他们使用了大约 65000 张图像和诊断皮肤状况的病例脱敏数据、数百万张精心制作的皮肤相关的图像和数以千计的健康皮肤样本,这些数据来自不同年龄、性别、种族的人群。在此之前,他们关于皮肤病的研究登上过《自然 · 医学》等期刊。

当然,这些诊断结果只是初步判断,患者的后续治疗仍然需要咨询医生。谷歌表示,他们将在今年晚些时候上线试用版。
 
100 万个物理比特的量子计算

早在 2019 年,谷歌量子计算实验室实现「量子优越性」的消息就登上了《自然》的封面。谷歌已经利用一台 54 量子比特的量子计算机实现了传统架构计算机无法完成的任务。在当时的世界第一超算需要计算 1 万年的实验中,谷歌的量子计算机只用了 3 分 20 秒。

虽然这项研究一经发表就受到了 IBM 等同行的质疑,量子计算距离实用化还存在这样那样的挑战,但毫无疑问,在摩尔定律逐渐失效的今天,寻找未来计算机架构正愈发显得迫在眉睫,而量子计算机是其中极具希望的方向。

在 I/O 大会上,谷歌展示了更大的野心:他们想用 100 万个物理量子比特建造一台有纠错能力的量子计算机。相比于今天还不到 100 个物理比特的量子计算机来说,这个构想真的很大胆。

图源:https://www.cnet.com/news/quantum-computer-makers-like-their-odds-for-big-progress-soon/


根据计划,这些量子比特仍将运行在接近绝对零度的温度下。谷歌乐观估计会在这个十年结束之前实现此构想。


众所周知,虽然量子计算机具有在某些问题上(比如大数因子分解和无序数据库搜索)远超经典计算机的运算能力。然而,存储量子信息的物理系统不可避免会与环境相互作用,受到噪声的影响而失去量子特性,进而失去准确计算的能力。这里的噪声可能仅仅是一点点热量。

要想纠正一个量子比特的错误,我们需要很多个围绕在该量子比特周围的其他物理量子比特。这些物理量子比特可以组成一个「逻辑量子比特」。谷歌表示,他们将通过把 1000 个物理量子比特束缚到一起来构建这个逻辑量子比特,从而达到纠错的目的。

如果真能做到这一点,我们就拥有了一个可以持续工作的「完美量子比特」,就像普通的计算机一样。这将会是一个重要的里程碑。有了一个能够纠错的量子比特之后,我们就可以将两个(或更多)这样的逻辑量子比特组合到一起,就像量子时代的晶体管一样。构建 1000 个逻辑量子比特可能需要上百万的物理比特,整个机器可能会占满一个房间。

在本次 I/O 大会上,谷歌介绍了他们为实现这一愿景打造的「量子 AI 园区」。该园区位于加州圣塔芭芭拉市,里面有谷歌的第一个量子数据中心、量子硬件研究实验室以及他们自己的量子处理器芯片制造设施。


谷歌表示,建造这样的量子计算机是为了拥有前所未有的计算能力,从而解决新药研发等问题。

Android 12 和 WearOS

虽然安卓 12 的特性已经在此前的开发者预览版中被剧透过不少,但在 I/O 大会上谷歌发布的大幅度更新提供了更多正式版的细节。

对于使用者来说,最为明显的更新就是全新的主题了,Android 12 将采用全新的「Material You」设计,提供了大量自定义风格和功能。谷歌在原来的黑白两色之外加入了动态主题颜色,其可以根据用户选择的壁纸选择对应的特殊颜色。此外所有按钮、滑块和所有其他 UI 窗口小部件均已重塑和重新排列。

此外全新的滚动列表设计出现在了安卓 12 上,就像三星手机的 OneUI 上一样。在桌面上谷歌反倒向苹果学习,新的标准化 widget 就像 app 的大「图标」一样包含大量详细内容,这样的设计可以在如今手机普遍较大的屏幕上展示更多。


此外,谷歌还在新安卓系统中还提供了大量有关隐私保护的功能。目前 Android 12 的 Beta 版已经正式推出,支持 11 家手机厂商的设备。

在 IO 大会上,谷歌也放出了最新版 Wear OS 的消息。虽然根据统计,2020 年全球可穿戴设备出货已达 1.93 亿只,智能手表和手环在人们的生活中出现得越来越频繁,但手表届的安卓 Wear OS 存在感一直比较稀薄。Wear OS 的最后一次重大设计变更还是在 2018 年。


新版本的 WearOS 更名为 Wear,获得了更多厂商的支持,三星下一代智能手表 Galaxy Watch 4 将使用基于这一架构的 Tizen 系统,从而使得应用运行更快,更加省电。



除此之外,谷歌还发布了协作式办公套件 Smart canvas 等一系列工具,并在 Google Map 中首次加入了详尽的自行车导航功能,并对 Google Meets 进行了大量技术更新。

有关本次 I/O 大会的更多细节,可以参考谷歌的 I/O 专题界面或观看回放。


专题页面地址:https://www.blog.google/
产业TPU量子计算谷歌
相关数据
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
吴恩达人物

斯坦福大学教授,人工智能著名学者,机器学习教育者。2011年,吴恩达在谷歌创建了谷歌大脑项目,以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日,吴恩达加入百度,负责“百度大脑”计划,并担任百度公司首席科学家。2017年3月20日,吴恩达宣布从百度辞职。2017年12月,吴恩达宣布成立人工智能公司Landing.ai,并担任公司的首席执行官。2018年1月,吴恩达成立了投资机构AI Fund。

所属机构
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据压缩技术

数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。数据压缩包括有损压缩和无损压缩。在计算机科学和信息论中,数据压缩或者源编码是按照特定的编码机制用比未经编码少的数据位元(或者其它信息相关的单位)表示信息的过程。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为:积体电路上可容纳的电晶体数目,约每隔两年便会增加一倍;经常被引用的“18个月”,是由英特尔首席执行官大卫·豪斯所说:预计18个月会将芯片的性能提高一倍。

量子计算技术

量子计算结合了过去半个世纪以来两个最大的技术变革:信息技术和量子力学。如果我们使用量子力学的规则替换二进制逻辑来计算,某些难以攻克的计算任务将得到解决。追求通用量子计算机的一个重要目标是确定当前经典计算机无法承载的最小复杂度的计算任务。该交叉点被称为「量子霸权」边界,是在通向更强大和有用的计算技术的关键一步。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

暂无评论
暂无评论~