Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

NASA前局长的机器学习芯片获1亿美元融资

芯片类创业公司 Knupath 的创始人是前 NASA 局长 Dan Goldin,这家公司最近获得了 1 亿美元融资,投资者认为该公司在「低耗能、可重编程设备上进行基于稀疏矩阵的计算具有前景」。

芯片行业的创业公司兴衰往复。我们所报道的芯片创业公司,通常具有新型架构,或具有某方面的应用前景。今天的这家公司有那么一点与众不同,致力于将这种新型架构引入一个竞争激烈的市场。这家公司另外一个与众不同的特点是它背后的那个人。

Knupath 公司位于奥斯汀(美国德克萨斯州首府),创业十年来一直致力于研究隐身模式(stealth mode)设计和传统数字信号处理器(DSP)的制造,目的是实现深度学习训练,基于机器学习的分析工作负载,当然还有信号处理方面的功能。一些个人投资者认为,在低耗能、可重编程设备上进行基于稀疏矩阵的计算具有前景,所以他们给 Knupath 投资了 1 亿美元。

该公司的 CEO 是 NASA 前局长 Dan Goldin ,其第一代基于 DSP 的系统的已经收获了总额达 2000 万美元的合同,这家公司的愿景也非常有趣,比如将会进行 FPGA(现场可编程门阵列)等设备的集成等。

Goldin 是 NASA 任职时间最长的局长(1992年到2001年),监督执行过很多太空任务,并且为火星任务中未来要使用的核动力离子发动机的研发做出过贡献,不一而足。之前任职 TRW (美国研究太空、汽车等多项业务的老牌企业,后被诺斯洛普·格鲁门公司收购)期间,Goldin  研发了卫星直播通信技术,该技术可以实现卫星电视等多项科学应用,从此一炮而红。21世纪初,Goldin 的职业生涯发生了明确的转变,他的研究兴趣转向神经科学,并成为了诺贝尔奖获得者、神经科学家 Gerald Edelman 手下的研究员。研究期间,他逐渐形成了计算和神经科学之间存在联系的看法,并对此进行了进一步打磨。然而这些联系的意义,或许不仅仅只是关于神经形态计算设备。

Goldin 告诉 The Next Platform ,他所关注的未来应用的范围,已经超越了冯诺依曼体系结构,以及稠密矩阵问题解决方案。他转向关注超级计算应用中一个相当完善的领域,即基于稀疏矩阵的问题,另他还关注通过更高效的内存模型和轻质内核与那些低延迟的算法进行抗衡所需要做的哪些方面的努力。10 多年后的 2015 年年末,这个想法终于尘埃落定,Knupath 公司将研发的芯片售给了首位客户。

2017年下半年,Knupath 将发布第二代产品 「Hermosa 」。这是一款由内部设计和制作的定制 DSP 芯片,新型的「Lambda」结构会将多个 Hermosa 芯片连到一起,或许也会将其与若干个使用该芯片的系统连接起来。Goldin  预测道,在未来的机器学习应用中,基于稀疏矩阵的计算将会越来越多,而以上所有的设计思路,正是为了对付这让人难以捉摸的未来。

image.jpg

该系统所含芯片可扩展到 512,000 个,每个芯片有 256 个 tDSP 内核(「t」代表 tiny ,表示只有一个 ARM 管理内核)。系统的延迟性能非常出色,机架到机架之间的延迟只有400纳秒(匹敌当今最快的以太网),能够非常高效且有针对性地处理系数矩阵计算。截至目前,虽然有人曾对稀疏矩阵推动机器学习未来的可能性,进行过若干次的研究尝试,但是还没有专门的研究平台。其实,该系统若真可行,这将意味着工作流将从此发生彻底的转变,Goldin 为自己的未来孤注一掷,希望此次转变不辜负其努力。

Knupath  的第一代产品基于可跨越大量 Hermosa 处理器的多个处理器,属于  PCIe 接口标准 ,其结构成分混杂,可容纳多种类型的处理器(X86, GPUs,FPGAs)。该公司希望,2017年的第二代产品将支持所有类型的处理器。第二代产品也是多道程序、多数据系统,也就是说理论上有256个不同的算法可以在 Hermosa 的各个内核上运行,Goldin 说,这款产品将会对信号处理、机器学习技术未来的应用,以及关注金融服务的客户都有越来越重要的意义。

第二代 Hermosa 的 Lamda 结构最为特别。不论是单板上的少量芯片,或者边缘装置上的单个处理器,一直到 512,000 个芯片,该结构都可适用。Lamda 结构基于一个分布式的内存模型,内核间有共享内存,同时系统中也有共享内存的分布,因此还会有 DMA 控制器(Direct Memory Access,在系统内部转移数据)。处理器的 outbound (代表从设备的某接口出去的数据方向)速度达到320 GB 每秒,双向出站传输的链路速度分别为上行16 GB 每秒,下行10 GB 每秒。这些性能使得机器总内存带宽达到3.7 T 每秒。可扩展性方面,每个小的「集群」都有 DSP 之间共享的内存,因此内存带宽数会根据芯片数按比例扩展(芯片增多,系统内存和内存带宽也会增多)。

image-1.jpg

每个 Knupath 处理器内核中,针对通信,同步,还有其他协助系数矩阵问题的功能,以及可支持 256 个  tDSP 内核的内存模式的可编程 DMA 引擎等,都有相关的内置指令。就可扩展性而言,该系统除了可构建 512,000 个可寻址阵列,也能够提供最多 3.702 GB 每秒的内存带宽。每个芯片的峰值功耗达到 3 4瓦特,因此,可以就 FFT 算法或该公司其他的基准测试(但2017年发布后才会进一步共享细节),进行清晰的瓦特到瓦特的性能比较。

我们讨论了很多内容,比如在深度学习及相关的工作负荷方面 GPU 的应用, FPGAs 的前景等内容。当然,还有谷歌等企业时断时续的努力尝试等等(TPU  是最佳示范)。问题是,为什么要用 DSP ?当然,确实有些项目即将利用新型方式对这类处理器进行大规模应用,比如即将到来的天河 2 号超级计算机等,但为什么这些应用仍然局限于信号处理呢?

Goldin 说,他们的首要关注问题仍然还是处理(processing),但是如何在一个能效较高的包络线中,将这些处理能力转变为稀疏矩阵的功能已经成为了他们关注的第二大问题。虽然 Goldin 不能透露他们的基准,但是他说, AlexNet 和  GoogleNet 的性能介于 2X 到 6X 之间,当然,此处我们缺乏细节信息,无法进一步评论。Goldin 另一个说法更具有实用性,他说还有两个方面,或许会解释他们为何选择 DSP。第一是成本,第二是可编程能力。DSP 价格不高(相对来说),Knupath 设计了自己的 DSP ,而没有从 Texas Instruments 等公司申请技术授权。至于编程方面,Goldin 说他们希望 DSP 有灵活性,特别是对于需要信号处理的用户来说这点更重要,因为发掘和维持 FPGA  程序员会耗费较多成本和时间。

「我们希望,将信号处理放到内存附近进行,这属于 push 模型。你不需要缓存,也不需要取指令。这样设计不只是为了处理信号,而且是为了维持内存中通信和处理的平衡。这里是一个通信器,它的正中间是一个路由器。」Goldin 解释道。然而很不幸,该芯片于 2015 年首次出厂,而当年的第一个合同的签订则是源于该芯片具有 eDRAM 特征,即可让每个 tDSP 与内存紧邻而直接接触。虽然该芯片的下一个变种将不能使用 eDRAM 特征,但是该公司又发现了一个合适的解决方法,目前他们还未能提供相关细节。

该加速器基于 PCIe ,编程模型比较像 CUDA 或 OpenCL,因为它可以用一个类 MPI (一种基于信息传递的并行编程技术)的模型在主机系统和芯片之间进行通信,以实现系统中芯片之间的通信。与 GPU 架构不同,该架构下板卡之间能够通信,任一板卡之间进行会话,且无须通过 PCIe 接口或 CPU。Goldin 说,他的团队与 CalIT2 (California Institute for Telecommunicaitons and Information Technology)的 Larry Smarr 合作,正在筹备一个专注于稀疏矩阵操作的竞赛,以进一步提高该平台的软件能力。

image-2.jpgGoldin 说,该企业正在为下一次产品寻找合作伙伴,包括 FPGA 和 GPU 制造商等。他也表示,未来 产品中  ARM 数量也会增多。

「需要注意的一件事就是,就数据在结构中转移来说,我们的产品非常不同,」Goldin 解释说,「除了获取内存中的数据和应用,我们也通过架构对数据进行发送,净荷分组中就不仅仅只含有要计算的数据,还有需要计算数据的编程块,以及数据的下一个目的地。」最终,就像其他的数据流架构所希望的一样,冯诺依曼结构完全被改变。

「让我们来看看有着 2000 亿神经元的人类大脑,你会发现每个神经元可能会与 10,000 到 100,000 个其他的神经元连接,而这是我们所已知的最高效的计算方法。这是我们的出发点,这也是 Lambda 不同与其他架构的原因——它是数字的,非仿神经的,但是它与哺乳动物的大脑基于的原则相同。」

需要澄清的是,Hermosa 处理器仍然可以处理稠密矩阵,尽管这不是处理器的目标。「就机器学习而言,我们就好像还处于荒凉的西部(the Wild West )。」Goldin 说,「我们研发不同算法的时候,必须要有平台,而这些算法所依赖的新趋势就是稀疏矩阵。」

The Next Platform  向我们经常采访的一些规模研发机器学习的超大型公司通了几次电话。尽管每次的对话内容都未公开,从这些对话中我们可以了解到的是,尽管仍处于早期阶段,已经有一些公司在探索,稀疏矩阵算法在深度学习训练方面将会有怎样的性能,效率,和编程优势。企业认为现在披露还为时过早,而是否为转变成这样的模型付诸努力,还取决于其是否有高额回报的前景。

因此,我们已经展现了我们目前所知的一切,但是在深度学习的分散-聚集和稀疏矩阵方面,除了大量研究之外,人们似乎还没有新的动作。但是,因为这1亿美元的基于 DSP 方案的投资,我们不得不认为已经有人在此发现了机会,特别是鉴于去年发布的深度学习芯片。另外,初期的客户之所以会购买这些产品,是因为他们对信号处理有某些特别的偏好,但是若对其机器学习应用的这一面加以宣传,则会吸引更多的关注,即使整个行业还处于懵懂阶段。

入门机器学习NASA芯片融资产业
暂无评论
暂无评论~