孙茜茜作者

阿里自研NPU将于下半年推出,阿里云十年再出发,达摩院加持

智能升级后,阿里云(智能)于 3 月 21 日召开了第一场发布会,主论坛上,不仅发布了与 AI 相关的产品,还透露了阿里自研的第一款 NPU 将于今年下半年推出的消息。

2018 年,双十一之后不久,阿里巴巴集团 CEO 张勇对阿里架构进行了重大调整:阿里云升级为阿里云智能,集团首席技术官(CTO)张建锋兼任阿里云智能事业群总裁。

3 月 21 日,2019 阿里云峰会·北京在国家会议中心召开,这是「阿里云」升级为「阿里云智能」后的首场开发布会,也是张建锋上任后首次公开亮相。

阿里云「十年再出发」

会上,张建锋首先阐述了阿里云的战略思考。通过十年,阿里云的市场份额达到 2-8 名总和。阿里云组织架构的升级意味着「阿里云」将变成「云上的阿里巴巴」,成为「阿里巴巴经济体的技术底座」和「阿里巴巴所有技术和产品的输出平台」。

阿里云前 logo(左)、阿里云现 logo(右)

升级后的「阿里云」具备以下四个优势:

1. 技术:达摩院加持的云。整个阿里巴巴的技术变成阿里云的一部分,达摩院的先进技术作为云智能的一个基础部分。

2. 产品,数据智能的云。产品一定是基于数据智能的、非常稳定可靠的云。

3. 商业,最佳实践的云。「我们和绝大多数云服务商不一样,我们是自带最佳实践的云。我们运营了最大的电子商务平台,也运营了最大的支付平台。我们有非常多的技术实践、产品实践和商业实践,阿里云是一个最佳实践的云。」

4. 生态,被集成的云。「我们会跟合作伙伴建立更紧密的关系,我们的合作伙伴成功了,我们的客户成功了,才说明阿里云这个云智能模式、这个系统、这个产品、这个技术是成功的。今天是阿里云第一次明确说我们是一个被集成的、生态化的云。

张建锋指出,未来一到两年,阿里巴巴 100% 的业务要跑在公共云上,自己用的技术会跟阿里云上的产品保持一致,将来阿里巴巴经济体内的 To B 服务都会通过阿里云平台对外输出。阿里云将加大科研投入,持续扩大云的技术代差;将加大行业战略性投入,聚焦新零售、新金融、数字政府

他还表示,阿里云将练好内功「被集成」,把阿里云变成合作伙伴行业解决方案的一部分。「阿里云自己不做 SaaS,让大家来做更好的 SaaS。」

自研的第一款阿里巴巴 NPU 将在下半年正式发布

「三年前成立了达摩院,我们在持续加大投入。在量子计算、机器智能、嵌入式芯片、数据库进行了广泛投入。在芯片端我们在 IoT 端嵌入式芯片发展非常快,去年销售约 2 亿片芯片。」张建锋在会上透露。

很快,网上便出现了「阿里达摩院去年芯片卖出 2 亿片」、「阿里云张剑锋:去年阿里云 IOT 芯片卖出 2 亿元」等相关报道。机器之心记者就「阿里 IoT 端嵌入式芯片发现非常快,去年销售约 2 亿片芯片」一事向阿里云、达摩院多位公关求证后获悉,这约 2 亿片 IoT 端嵌入式芯片是「中天微」的。

去年 4 月 20 日,阿里巴巴宣布全资收购中天微。当时,中天微是中国大陆唯一基于自主指令架构研发嵌入式 CPU 并实现大规模量产的 CPU 供应商,专注于 32 位嵌入式 CPU IP 研发与规模化应用,面向多媒体、安防、家庭、交通、智慧城市等 IoT 领域,全球累计出货超过 7 亿颗芯片。

宣布收购中天微的前一天(2018 年 4 月 19 日),阿里宣布,达摩院在研发一款神经网络芯片——Ali-NPU, 该芯片将运用于图像视频分析、机器学习等 AI 推理计算。

张建锋透露,自研的第一款阿里巴巴 NPU 将在今年下半年正式发布,并且,这个芯片的性能「在这个同等芯片里面都是非常非常领先的,它不是领先一倍两倍的问题,是领先十倍以上的。」

与 AI 相关的几款产品

2019 阿里云峰会·北京主论坛上,共发布了数十款产品,第一个被推出的是神龙异构超算集群 SCC-GN6

这款产品采用了英特尔定制的 96 核 CPU,采用英伟达 V100、单机 8 卡、可提供 1000T-TFLOPS 性能,支持 1Tb/s 的高性能 CPFS 并行文件系统,50Gbps 的 RDMA 高速网络、时延小于 2us(微秒)。

据介绍,SCC-GN6 是首个基于弹性裸金属服务器神龙 X-Dragon 架构的超算异构产品,能将深度学习训练时间缩短至分钟级,可满足无人驾驶、智能推荐、机器翻译人工智能场景的高性能计算需求。

在媒体群访环节,针对「SCC-GN6 能将深度学习训练时间缩短至分钟级」这个点,阿里云智能创新产品线负责人张献涛、阿里云异构计算研发负责人龙欣、阿里云高级产品专家王志坤做了如下拓展:

「在 AI 的深度学习的场景中,特别是训练场景下,单机的计算力已经没有办法满足在绝大部分场景下训练诉求,需要天甚至上月的时间才能达到比较好的模型的收敛。在很多场景下,大家希望把多台机器去互联起来做集群性运算,去加速模型的训练。但是这种背景下,传统虚拟化网络,其实是没有办法满足在多机训练场景下的诉求。

在超算场景下,一直有它的一些解决方案,类似于 IB 或者 RDMA 这样的网络协议,这种协议天然地和数据中心是不兼容的,因为它有安全上的一些问题。

神龙的出现解决了一个什么样的问题?不仅解决了计算的物理机交互,还解决了网络上和虚拟网络不兼容的这样一个物理网络的交付,通过 RDMA 把我们多台训练的机器进行互联。一是,高带宽的互联,同时保证了在多机互联的情况下,我们的线性伸缩比会非常好,这是我们要用一个物理的网络去把它接起来,把它称做超级计算集群很重要的点。这项技术最重要,其实就是我们的神龙技术。」

「单机情况下,我们现在交付的是单节点 1000 TFLOPS 的性能,根据客户需求,可以选择 8 个节点或者 16 个节点,这个数字就可以做一个简单的倍加,就得到一个算力。」他们还透露,「最多我们现在单集群可以支持 512 个节点,就是 4000 个 GPU 的计算力,近似于线性的形式做。人工智能的客户,比如在一些大模型训练上面,效率提升是非常高的。」

阿里云表示,以 ImageNet 竞赛的 128 万张图片的数据集为例,用普通计算资源训练 ResNet50 模型,如要达到 75% 的精度需要数天甚至一周的时间,而使用该神龙异构超算集群产品,模型训练可以缩短到几分钟,大大提升 AI 算法研发效率,加速业务创新。

此外,阿里云还发布了国内首个公共云上的轻量级 GPU 异构计算产品——vGN5i,打破传统直通模式局限,提供比单颗物理 GPU 更细粒度的服务,从而让用户以更低成本、更高弹性开展业务。

会上还推出了机器学习深度学习平台 PAI v3.0

据悉,PAI 3.0 推出了全新的算法模型市场,涵盖电商、社交、广告、金融等多个行业,数十种场景的算法模型;新增流式算法组件、图神经网络、增强学习组件等平台工具。

据「AI 前线」报道,作为机器学习平台的内核,PAI 的智能计算引擎也进行了全面升级,通过编译技术优化通用计算引擎,训练性能提升 400%;深度学习优化分布式引擎,单任务支持上千 worker 并发训练,支持 5k+ 超大规模异构计算集群;发布大规模图神经网络,缓存机制效率提升 40%,算子速度提升 12 倍,系统端建图时间从数小时降至 5 分钟。

「大家可能知道,人工智能今天还不能做到去通用解决任何问题,但是它可以很好地解决在某一个专业领域、专业点的问题。我们也是有这样一个算法平台开放出来,让丰富的算法放到这个平台当中,同时提供和过去相比高达 4 倍的计算效率。」阿里云智能产品管理部经理马劲在现场介绍道。

通州区引入城市大脑,防控环境污染

主论坛上,北京市通州区宣布与阿里云在生态环境综合治理方面达成合作。

据了解,通州副中心规划面积 155 平方公里。预计在「十二五」期间,新城将初具规模。

由于当前处于施工建设期,如何保障城市环境不受影响成为当地最为关注的问题之一,通州区决定引入城市大脑技术。全区接入了 1437 路城市环境监测视频、1100 个大气监测及扬尘预警传感设备;打通融合城管委、住建局、环保局等多部门的信息平台;平均每 10 分钟就可以完成一次全区域视频扫描。

通州区副区长苏国斌介绍,「城市大脑·生态环境」平台在通州上岗以来,实现了通州核心区的环境污染事件从人工发现到实时自动感知,从多部门多头处置到一网通办的本质提升。

苏国斌副区长还表示,未来水源监测、建筑施工、垃圾清理、排污降噪等等也将引入城市大脑相关技术。

产业城市大脑达摩院NPU阿里云
1
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

阿里云机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r
阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
量子计算技术

量子计算结合了过去半个世纪以来两个最大的技术变革:信息技术和量子力学。如果我们使用量子力学的规则替换二进制逻辑来计算,某些难以攻克的计算任务将得到解决。追求通用量子计算机的一个重要目标是确定当前经典计算机无法承载的最小复杂度的计算任务。该交叉点被称为「量子霸权」边界,是在通向更强大和有用的计算技术的关键一步。

推荐文章
暂无评论
暂无评论~