高出GPU服务器30倍,前NASA项目的超算大拿要做FPGA性能的颠覆者

他们自诩为“搭积木的人”——“FPGA是乐高积木,用最少的积木搭建出整个高楼大厦——这就是我们的能力。”

在大多数芯片从业者看来,因为批量开发难度大和成本过高,FPGA一直作为“技术验证者”的配角存在。但雪湖团队试图打破这一观念,他们希望凭借多年的开发经验积累和自研开发工具将FPGA芯片推向人工智能舞台的中央。

“我们不是一家卖Know-how、卖算法的公司,甚至可以说我们不是一家AI芯片公司。我们把自己定义成一家异构计算公司”——这是张强为雪湖写下的注脚。

6月底的一个夜晚,北京颐和园被灯光装点得美轮美奂。这座千年园林里正在上演一场充满科技感的发布会,美图手机宣布FPGA加速神经网络计算项目正式落地,同时预示着张强团队和美图影像实验室MTlab的合作项目正式投入运营。这是公司创立10个月以来的首个落地项目,它将为美图的最新款手机带来30倍的运算速度提升。

在此之前,美图一直在积极寻觅云计算中心的加速方案。“对于大部分以图片和视频为主的应用公司而言,云计算的核心诉求包括两个,一是希望项目部署越快落地越好;二是不局限用芯片方案,但要求性价比最高。”雪湖科技创始人兼CEO张强说道。

在这两个核心诉求之外,就美图云平台而言,基本门槛是数据中心能够响应每天高达2.1亿张的照片处理需求,并且保证毫秒级低延时完成处理任务。

在美图考察的项目中,许多团队都无法满足快速部署的第一要求,“最少平均要一年时间”,这在竞争激烈、迭代快速的手机行业显然无法接受。此外,面对如此大规模的计算需求,采用高规格的GPU方案是常规思路,但与之对应的高昂费用又缺少性价比。

这并非一件易事,但对于急需向市场和资本证明实力的雪湖团队而言——却是一次不成功便成仁的机遇。

雪湖科技聚焦于提供以FPGA为主的异构计算解决方案,技术优势体现在的异构计算开发移植、算法重构与优化、架构优化等方面。基于雪湖自研的FPGA开发框架Ptero Tool,能够让AI算法类项目的开发效率提升3倍,芯片资源利用率提升至98%,对比GPU的云端服务器实现30倍的性价比提升。

“投资人很少听说过这类项目,指标又那么夸张,所以都认为不可能做得到”,雪湖团队早期在向投资人介绍项目时碰了一鼻子灰,“我们索性就不跟投资人聊,就埋头埋头干,先把东西做出来。”2017年初,业界普遍认为ASIC架构才是AI芯片的主流,大多数FPAG项目在前期评估阶段就被否认商业价值。

 “这还是传统观念,我们会用20多年积累的异构技术体系打破这个观念。”张强表示,异构计算的特殊之处在于,它是非冯诺依曼架构,但传统软件行业都是建立在冯氏架构之上。所以切换到异构计算之后很多人觉得不适应,FPGA基本上颠覆了大部分人对于芯片的认知。

基于ZYNQ 7020的CNN加速模块

经过4个月的奋战,张强团队按照美图设定的设计需求与芯片规格完成了算法移植。“Demo演示的时候,他们(美图)都感到很意外,”张强回忆起当时的场景,在一颗10美金的ZYNQ 7020芯片上运行复杂的CNN算法即使是现在也没人敢尝试。

这次“小考”不仅证明了雪湖团队的技术可靠性,同时为其争取到了重要的“启动燃料”——次日,美图就向雪湖发送了投资协议。今年1月,雪湖科技正式完成天使轮融资。

除了云计算中心加速和私有云搭建方案,雪湖目前还在大力投入自动驾驶芯片市场。“FPGA芯片在车载领域应用将会是一个主流,我们发现2018年开始从ADAS到L3/L4自动驾驶都开始选择FPGA作为主要的运算加速平台。”张强透露,团队正在与国内一家自动驾驶团队合作开发基于端侧的L3自动驾驶感知层方案,预计明年初将落地。

FPGA信徒

FPGA(FieldProgrammable Gate Array),又称可编程式门阵列,1985年由赛灵思(xilinx)创始人之一Ross Freeman发明。“可重构的计算”是FPGA相比其他架构芯片最为鲜明的特性。但同时对于开发者而言也提出了较高的软硬件开发门槛,经过34年的发展,FPGA的应用仍偏向小众。

赛灵思CEO Vitctor Peng曾表示,截止目前,赛灵思培养的全球开发者约1400人。 “国内大概在千人规模左右,而且集中在中兴、华为等通信公司以及部分科研院所”,雪湖科技联合创始人、COO王韵谈道,“真正用FPGA来做加速方案的寥寥无几”。

作为FPGA在国内的千人开发者之一,张强绝对算得上是一名虔诚的异构计算“信徒”。他前后经历两次创业,上海交大电子系毕业后便投身于异构计算的加速应用中,但由于市场环境等原因无疾而终,三年后张强再次重返异构计算的赛场,依旧无比坚定。

早年,张强曾以核心开发人员的身份参与了多个全球性的FPGA科研项目。“我们当时处在高性能计算/超算领域,和美国 NASA、美国国家癌症中心以及国内的科研院所都进行过合作”,张强谈道。

在这之中,最值得一提的便是“激光打蚊子”项目,该项目曾在2010年TED演讲中进行现场展示,并被《时代》杂志列为“年度十大发明”,和苹果iPad并列。

2009年,张强有幸参与了比尔盖斯基金旗下非洲的疟疾防御计划——以激光的方式击打疟疾的主要传播源蚊子。张强所在团队主要承担激光打蚊子的算力部分,对视觉算法进行加速。

当时的微软CTO Nathan Myhrvold评估以后,所有基于CPU、GPU的项目都没法达到指标。“项目要求500帧的摄像头,每帧同时追踪4096只蚊子,时延非常低。”张强所在团队在西雅图花了三个月时间终于FPGA方案攻克该难题。

张强团队还参与了全球首个基于FPGA的基因比对计算项目。他回忆,当时美国国家癌症研究院(NCI)的计算量多大30亿条碱基对的比对。

受NCI委托,张强所在团队将Smith-Waterman算法移植到Vertex2-6000 FPGA芯片上,以1/300最初的超算方案成本完成计算任务,并将最初需要6个月才能完成的运算时间缩短到了5天。时至今日,Smith-Waterman算法已经成为FPGA 异构计算平台计算性能的主流方案。

此外,张强还与NASA顶级研究员Olaf Storaasli博士一同参与了基于FPGA异构计算的有限元分析,通过该平台,NASA获取了超过常规计算平台60-100的运算速度提升。

90年代末21世纪初,高性能计算还是一个阳春白雪的行业,项目看起来都十分前沿和酷炫,但很难创造商业价值。张强回忆,“要从科研机构、政府机构手上项目并从中赚钱,一直到回款,整个过程非常艰难。”

另一方面,民用市场已经成为英特尔奔腾多核处理器的天下,计算能力是完全溢出的,满世界的声音都是——“没有必要买i7,买个i3、i5就够用了”。“在这种背景下,在民用市场上根本是找不到计算的需求。”张强谈道,“所以尽管案例都很有开创性,但项目仍然没法支撑下去。”

随后,张强便投身热闹的C端市场。在2014年,和朋友等人一起创办乐蜗VR,推出基于虚拟现实技术的头盔及软件应用。该公司在2016年年中被华人文化旗下的微鲸收购。在微鲸,张强遇到了同为半导体行业背景,此前在日本富士通担任亚太区市场总经理的王韵。

回顾过去十余年的同构计算发展路线,工艺与应用规模高速发展,核心架构却没有发生太大变化。与此同时,CPU发展所主要依赖的半导体工艺红利却在消失。“摩尔定律失效后CPU的发展路线将会平缓,算力将会出现缺口,需要GPU、FPGA、ASIC等异构芯片去填补。”基于同一个判断,张强和王韵开始了异构计算的创业征途,并找了曾经在超算领域一同打拼的伙伴。

雪湖科技核心团队,从左往右依次是创始人兼CEO 张强、COO 王韵、系统专家 赵小吾、算法专家 杨付收

张强认为,基于数十年的研发经验,雪湖团队对FPGA的理解更为深刻。“我们是非常早期一批就关注到FPGA应用的人,我们了解将算法本身固化到硬件电路将会对其执行效率带来的巨大潜力。并且我们通过早期的大量案例证明了这个观点。”

对于以ASIC为主的另一条AI芯片路线,张强认为ASIC芯片面临的巨大痛点在于摊销的成本太大。比如,7nm的研发高达投入3亿美金,至少要百万片的销量才能摊销掉高昂的成本。

基于王韵此前在富士通的工作经验和资源,雪湖团队首先从云端计算应用需求强烈的手机客户切入。 2017年年中的一次机会,雪湖团队向美图CTO张伟介绍了其基于FPGA的AI算法加速技术。张伟颇感兴趣,次日便从厦门飞到上海与雪湖团队当面交流。

为应对美图10亿级的在线用户的实时需求,美图近年来重点投入研发力量在神经网络计算加速领域,特别设立美图影像实验室MT Lab,在算法层面取得一定突破。但如何将算法以较低成本移植到芯片上是当时面临的一大难题。

在了解到美图的具体需求后,雪湖团队开始全力投入推进CNN加速接解决方案。与此同时,雪湖科技的公司设立和团队组建等工作也开始有条不紊地展开。今年6月,美图的FPGA加速神经网络计算项目正式落地。

雪湖科技FPGA服务器该方案正在逐步替代美图云计算中心的昂贵且大功耗的GPU服务器。张强介绍,“英伟达的数据中心GPU平均在1万美金左右,算力约为35T;我们即将要升级的服务器1U算力能达到400T,成本只要3000美金。”

目前,雪湖团队规模约为20人左右,定位于为上下游赋能,上游对接FPGA芯片厂商,同时连接下游的应用厂商。年初,雪湖获得美图天使轮数百万投资,正在推进Pre-A轮融资阶段。

“颠覆”传统芯片参数

“算力只是一个间接指标,”张强说道。

在算力堪比“石油”燃料的AI时代,一款芯片的算力指标显然已经成为最核心的参考因素。算力,即单位时间内芯片所能提供浮点计算能力的峰值。理论上看,当芯片设计完,算力就已经固定,不会根据应用场景发生变化。

但在张强团队看来,一颗芯片在不同应用场景下提供的算力有所不同,比如计算密集型,I/O密集型的不同需求下数值差异很大。 “现在大部分AI芯片公司都在偷换概念,对外宣传的都是算力峰值”,王韵谈道,就像是眼睛一闭油门踩到底能跑出的最快速度,但是缺少实际参考价值。通常来说,由于实际部署下的各种原因,芯片远不能达到其计算能力的最高理论值。

对于雪湖团队而言,他们更看重芯片的资源利用率。对于一颗FPGA而言,在核心计算单元运行算法时,如果从启动一直到运算结束的每个使用周期都在不停的工作即芯片的理论值,相当于100%的工作状态,也就是说把该芯片所有的功力都发挥出来了。

“我们能将这个理论率提升到98%,换句话说,100个计算周期里只有两个周期在休息。”张强说道 “这颠覆了芯片行业里的一个标志性参数。除了雪湖,没有任何一家公司可以做到。”王韵形象地将描述为“完美地榨干芯片性能。”

“98%资源利用率”所能带来的实际价值是——“通常需要赛灵思最高端、售价超过1万美金的芯片才能实现复杂的算法。雪湖可以采用10到20元美金的中低端芯片实现同样算法。”张强表示,1万美金与20美金的核心指标差异就在其内部可利用的资源数目。

长久以来,开发难度大、开发周期长,开发者稀缺、培养周期长是横亘在FPGA发展和应用推广道路上的难题。“FPGA工程师的培养成本很高,要培养一名真正具备独立做FPGA开发的工程师通常需要五年的时间。”张强谈道。

为此,雪湖团队研发了一套私有的开发环境和框架PteroTool,以实现更简洁的芯片工具链条,抽象度更高的应用层。

“这是基于我们十几年的积累,里边包括了大量高效稳定、占用资源很少的库。”张强介绍,基于Ptero系统抽象层,能够将系统抽象出来,类似于芯片操作系统,以实现算法快速移植,可以从一颗芯片快速移植到另一颗FPGA芯片。“这套工具体系很容易上手。按照我们的经验,经过三个月培训,一个刚毕业的大学生就上手成为FPGA算法开发工程师。”

为了对开发工作进行更加细致地分工,雪湖对开发过程进行了系统化地分解。在雪湖的技术架构下,工程师不再需要同时掌握FPGA开发、写算法和代码等全链条工作,“每人掌握一个环节,通过多人合作,以实现更高效地开发。”

预   判

“我们目前集中私有云、公有云、车载三大块市场。模块市场优先级被调低了,因为目前AI在C端市场仍然缺少应用推动。”张强谈道。

云计算中心市场,雪湖主要通过私有云GPU替代、FPGA公有云加速两条路径推动。对于图像与语音数据调用频繁的AI公司而言,相较于公有云数据可能面临的安全性问题,搭建一套高性价比的私有云方案正在成为核心诉求。

随着5G落地步伐的加速,张强认为,云上的计算需求和市场会会变得更加庞大。受到4G的传输速率和网络承受力限制,目前很多计算主要在手机端/在端测完成。但是5G来临之后,传输速率提升十倍以上,手机本地的计算能力会弱化,存储会变大;通信能力会变强。

在雪湖团队与OPPO、美图等主流手机厂商交流过程中,比较一致的观点认为,5G时代云端的数据中心计算需求,特别是人工智能运算需求将呈现井喷趋势。相应地,将AI芯片塞到手机的潮流可能弱化。

此外,正处于窗口期的汽车智能化也是雪湖现阶段押下重注的市场。“我们的优势在于技术方案能够更快地落地,以帮助车厂或者自动驾驶团队抢夺时间窗口”,张强认为,相比ASIC的AI芯片公司开发和流片通常需要一到两年时间,快速落地是雪湖当下最显著的优势。

此外,一个更为隐形的优势还在于,FPGA具备现成的车规级芯片可供选择,而无需等待遥遥无期的AI芯片通过车规级芯片认证。

目前,雪湖团队正在帮助一家自动驾驶公司实现前端的视觉数据识别与分析,以取代昂贵和高功耗的GPU服务器方案。张强表示,该自动驾驶公司近期再次提速研发节奏,“年初方案一旦能够落地,将成为开创性的自动驾驶解决方案。”

产业FPGA雪湖芯片
1
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

感知层技术

IoT (物联网) 三层结构中的一层,用于识别物体,采集信息等感知类的任务;另外两层是应用层(Application layer)和网络层(Network layer)。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为:积体电路上可容纳的电晶体数目,约每隔两年便会增加一倍;经常被引用的“18个月”,是由英特尔首席执行官大卫·豪斯所说:预计18个月会将芯片的性能提高一倍。

暂无评论
暂无评论~