李寿鹏作者

阿里巴巴发布全球最强AI芯片,芯云战略终成型!

自去年成立平头哥半导体公司后,阿里巴巴在芯片方面的落子越发频繁。在今日的云栖大会上,平头哥正式发布了阿里的第一款芯片——含光800。

含光为上古三大神剑之一,该剑含而不露,光而不耀。阿里巴巴用它来作为公司首款芯片的命名,体现了他们在这个领域的雄心与谦逊。

阿里巴巴集团CTO、达摩院院长张建锋说:“在全球芯片领域,阿里巴巴是一个新人,玄铁和含光800是平头哥的万里长征第一步,我们还有很长的路要走。

软硬协同,造就全球最强的AI芯片

阿里巴巴方面介绍,含光800虽然是阿里巴巴第一款芯片,但却是全球性能最强的AI芯片。作为一款主要用于云端视觉处理场景的芯片,含光800的性能打破了现有AI芯片记录,在性能及能效比方面统领全球第一。

在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。

能达成这样的表现,得益于软硬件的协同创新。

阿里巴巴方面的专家指出,传统CPU、GPU在深度学习推理任务上并没有完全发挥硬件能力,例如GPU架构主要针对图像处理设计,其硬件结构、软件生态几乎固化,因此对AI任务很难有深度优化。为此,阿里巴巴在首先在芯片架构上面做了创新。

据介绍,含光800采用自研架构,针对深度学习中使用的大量权重参数张量数据,在支持稀疏压缩与量化处理的基础上,通过独特设计的数据访存与流水线处理技术,大大减低了I/O需求和数据的搬移;同时深度优化了卷积,矩阵乘,向量计算和各种激活函数,通过高有效的硬件资源调度和全并行的数据流处理,把AI运算的性能和能效双双推向极致。

“传统通用处理器基于冯诺依曼结构,其存储和运算处理是分离的,如果处理深度神经网络,需要大量读写运行操作,会受到带宽限制,因此效率较低。而以含光800为代表的神经网络芯片,根据神经网络推理运算特征,设计特定的硬件神经元、高速连接的存储结构以及专用指令集,对内存和计算单元实现高效组织管理,实现单条指令完成多个操作,提高计算效率和内存访问效率” 

来到算法这边,一方面,阿里巴巴达摩院机器智能实验室过去两年构建了涵盖语音智能、语言技术、机器视觉、决策智能等方向完整的算法体系,并且取得多个世界领先水平的成果。 

“基于这些能力,平头哥突破了算法和硬件之间的鸿沟,基于阿里巴巴丰富的场景和达摩院算法能力,自研芯片架构,并且设计了完整软件栈”,阿里巴巴专家强调。这样的设计理念也让整个芯片的效果立竿见影。

例如为了解决人工智能芯片行业的通病——功耗,阿里巴巴在自研架构上大幅减少了对内存的访问,这就保证极致性能的情况下,把芯片功耗降到最低水平。

值得一提的是,平头哥用最短的时间完成了芯片的设计、流片整个过程。其中7个月完成了前端设计,之后仅用了3个月就成功流片。

初露锋芒,含光800已落地应用

在过去几年的AI芯片浪潮里,大家一直诟病的是——不少AI芯片公司只是高调搞了个发布会,但对于芯片的落地,其实没有太多的场景和想法。这也是整个人工智能行业的症结所在。但对于阿里巴巴而言,天然解决了这一问题。阿里经济体拥有包括图像视频分析、搜索和推荐在内的丰富人工智能应用场景,这都需要AI专用芯片提供算力。

含光800一方面基于这些场景打造,另一方面又反哺场景,提升这些领域的计算效率。

据了解,含光800目前已经实现了大规模应用,应用于阿里巴巴集团内多个场景:例如视频图像识别/分类/搜索、城市大脑等。依托阿里巴巴集团丰富的应用场景,他们早期就针对场景做了大量优化,并实现了性能上的突破。在未来,这个芯片甚至还可被应用于医疗影像、自动驾驶等领域,阿里巴巴的专家强调。

在实际应用中,这款强大的AI芯在实际应用中表现也相当优越。

根据云栖大会的现场演示,在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms。拍立淘商品库每天新增10亿商品图片,使用传统GPU算力识别需要1小时,使用含光800后可缩减至5分钟。

更为关键的是,其不仅服务阿里内部场景,还将全面通过云服务开放。据了解,,基于含光800的AI云服务已正式上线。

阿里巴巴方面的专家表示,在人工智能场景中,含光800是传统异构计算很好地补充,通过阿里云可以为企业提供更多的选择,未来他们还会推出更多形态的人工智能芯片,在终端、云数据中心都会有更大规模的部署和应用。

“对于受限于算力瓶颈的企业而言,含光800可以更高效地运行更复杂、更先进的算法”,阿里巴巴方面举例说。

端云一体芯片格局成型

在发布了含光800以后,阿里巴巴的端云芯片布局已经成型。

这家国内芯片“新晋”不止一次强调,平头哥的目的并非卖芯片。公司延续了母体阿里巴巴集团“让天下没有难做生意”的愿景,开辟了全新的商业模式(平头哥模式),致力于为企业提供普惠算力,目前已经拥有全栈芯片产品家族,涵盖终端处理器IP、终端芯片设计平台SoC、云端AI芯片

在端侧,平头哥已拥有成熟的生态体系, CK801、CK802、CK803、CK805、CK807、CK810、CK860等7款自研嵌入式CPU IP核均已得到大规模量产的验证,授权客户超100家,累计销售超十亿颗,广泛应用于机器视觉、工业控制、车载终端、移动通信和信息安全等领域;除此之外,基于RISC-V架构的玄铁处理器以及无剑SoC平台也已服务各行业企业,例如人工智能企业云天励飞、老牌芯片商炬芯科技等。

在云端,这次发布的含光800就是一款代表作,全球前三、亚太第一的阿里云为平头哥服务企业提供了绝佳平台,未来企业可以通过阿里云轻松获取含光800的极致算力。未来他们还会在这个领域继续升级。

谈到未来的产品规划的时候,阿里巴巴方面表示,公司产品形态还会进一步完善,例如云上AI训练芯片和端上的AI推理芯片就是下一步的目标。目前平头哥还在研发用于阿里云神龙服务器的SoC专用芯片,以满足更多场景的算力需求。

过去十年,阿里巴巴的AI和云计算齐头并进,在这两大领域,已经跻身全球前列。在芯片领域的布局,则补齐了阿里技术版图的一大短板,更为关键的是,三大领域已经展现出了化学反应:

作为业界最大的人工智能应用者之一,阿里巴巴拥有丰富的应用场景,在此之上达摩院已建成完善的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并取得多个世界领先水平的成果,在国际顶级学术会议上共发表了近400篇顶级论文;阿里云稳居全球云计算厂商前三、亚太第一的位置,超过一半的中国A股上市公司和80%中国科技类企业在使用阿里云的服务。

平头哥则得到了达摩院和阿里云的软实力加持,例如基于达摩院的算法能力,打破了算法和硬件之间的鸿沟;基于阿里云飞天云平台的优势,快速形成了端云一体芯片生态,玄铁系列处理器以及无剑平台大幅降低终端芯片设计的门槛,含光800通过阿里云输出给全社会,让企业随时随地可以享受到极致算力。

“芯片、AI和云计算三位一体、协同发展——人工智能算法逐渐集成到芯片,集成算法的专用芯片为云服务提供了更强的性能,而云计算本身则加速了人工智能应用的大规模落地”,阿里巴巴方面补充说。

阿里巴巴芯片大图已现

根据阿里巴巴在芯片上的定位,那就是端上做芯片基础设施,云端为企业提供普惠算力。例如,处理器是所有高端系统芯片都需要的产品,它是最核心的基础设施产品,AI芯片是人工智能场景最高效的算力单元,阿里将投入重金打造好这些技术,同时构建应用生态。

而探索他们在芯片、AI和云计算三位一体的策略中,SoC开发平台无剑在当中扮演了一个很重要的角色。

在前文我们提到,阿里巴巴拥有众多的芯片IP,同时在云端也能提供足够的算力,在AI方面也有深入的研究。对于那些想在他们平台上打造差异化的开发者来说,缺失的就是终端这块方面的硬件实力。而在这个领域,有一个明显特征,那就是开发者们都在基于其特定化的需求打造ASIC,而平头哥的无剑开发平台,正是为了解决这个问题而生的。

据平头哥方面介绍,无剑是面向AIoT时代的一站式芯片设计平台,提供集芯片架构、基础软件、算法与开发工具于一体的整体解决方案,能帮芯片设计企业将设计成本降低50%,周期压缩50%。

“在这个平台研发芯片的企业,只需专注于20%的专用设计工作量,并让这20%的工作产生80%的价值”,平头哥强调。

除此之外,阿里巴巴旗下的平头哥还将将成立芯片开放社区,进一步为芯片产业提供开放协作的平台;公司还将继续开发操作系统,软硬件融合的算法,核心的IP等。把这些共性的技术能够做好做精做出竞争力,并形成生态,然后开放给其合作伙伴,让他们基于高质量的基础设施打造芯片产品,有助于提升整体的产业竞争力。

凭借这一系列的领先产品,阿里巴巴在AIoT赛道上占有了其他厂商并不具备的先机。站上了未来万亿市场的风口。
半导体行业观察
半导体行业观察

最有深度的半导体新媒体,实时、专业、原创、深度,30万半导体精英关注!专注观察全球半导体最新资讯、技术前沿、发展趋势。

产业AI芯片阿里巴巴
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

阿里云机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r
阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
机器视觉技术

机器视觉(Machine Vision,MV)是一种为自动化检测、过程控制和机器人导航等应用提供基于图像的自动检测和分析的技术和方法,通常用于工业领域。

端AI芯片技术

AI芯片部署的位置有两种:云端、终端。所以根据部署的位置不同,AI芯片可以分为:云AI芯片、端AI芯片。终端,即手机、安防摄像头、汽车、智能家居设备、各种IoT设备等执行边缘计算的智能设备。终端的数量庞大,而且需求差异较大。

推荐文章
暂无评论
暂无评论~