Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

清华电子系明星公司亮相:发布国产AI算力平台,公测免费送百亿Token

3月31日,由清华大学电子系主任汪玉作为发起人的AI infra公司无问芯穹在上海召开第一次产品发布会。机器之心此前独家介绍过,无问芯穹团队的目标是利用自己加速计算的核心产品优势,降低算力成本,与算力中心合作,整合算力资源,为算力市场提供增量,最终向B 端和 C 端开发者提供可以直接调度的低成本算力。

在这次发布上,无问芯穹团队正式发布“无穹Infini-AI”大模型开发与服务平台,并宣布自3月31日起正式开放全量注册,给所有实名注册的个人和企业用户提供百亿tokens免费配额。开发者可以在这个平台上体验、对比各种模型能力和芯片效果,通过简单拖拽各种参数按钮的动作,就能精调出更贴合业务的大模型并部署在无穹Infini-AI上,再以非常优惠的千token单价向用户提供服务。


目前,无穹Infini-AI已支持了Baichuan2、ChatGLM2、ChatGLM3、ChatGLM3闭源模型、Llama2、Qwen、Qwen1.5系列等共20多个模型,以及AMD、壁仞、寒武纪、燧原、天数智芯、沐曦、摩尔线程、NVIDIA等10余种计算卡,支持多模型与多芯片之间的软硬件联合优化和统一部署。第三方平台或自定义训练、微调而来的模型也可以无缝迁移托管到无穹Infini-AI,并获得细粒度定制化的按token计费方案。

由清华电子系主任汪玉发起

无问芯穹公司注册于今年 5 月,核心团队从 3 月份开始组建,发起人为清华大学电子系主任汪玉教授,创始人夏立雪是汪玉教授所带的第一任博士毕业生。其余两位联合创始人分别是原商汤科技数据与计算平台部执行研究总监颜深根,以及现任上海交通大学长聘教轨副教授,清源研究院人工智能设计自动化创新实验室负责人戴国浩。

无问芯穹是汪玉教授参与发起的第二家公司,成立之初便备受关注。汪玉是清华大学电子工程系长聘教授、系主任,IEEE Fellow,ACM FPGA技术委员会亚太地区唯一成员,长期从事智能芯片、高能效电路与系统研究。

2016年,汪玉曾以知识产权转化入股,和他的学生姚颂、单羿等人共同创立AI芯片公司深鉴科技。深鉴科技推出了人脸检测识别模组、人脸分析解决方案、视频结构化解决方案、ARISTOTLE架构平台等六大AI产品,2018年被被赛灵思(Xilinx)收购。

清华官网资料显示,深鉴科技是中国人工智能行业风投退出第一单,也是清华有规定以来第一家科技成果作价入股、产品化、实现现金回报的公司,以及极少数国外科技公司收购中国科技公司的案例。

无问芯穹的创始团队35%以上来自清华大学。创始人夏立雪在清华大学毕业后,曾加入阿里云,在阿里云负责过大语言模型的压缩加速、生成式 AI 模型芯片等核心战略项目。

夏立雪长期致力于深度学习系统的设计方法学研究,入选 AI2000 人工智能全球最具影响力学者榜单,以及斯坦福学科 Top2% 科学家榜单。联合创始人及 CTO 颜深根毕业于中科院软件所,是国内最早从事 AI 高性能计算的科研人员之一,商汤任职期间,帮助商汤搭建了两万片 GPU 的大规模高性能 AI 计算平台,并主持开发了多个深度学习系统软件。另一位联合创始人及首席科学家戴国浩在电路设计自动化、异构计算、体系架构等领域发表高水平论文 50 余篇,谷歌学术引用超千次。承担包括国家自然科学基金青年项目在内的多个纵横向项目,个人负责经费超千万元。

2023年12月份的专访中,夏立雪曾告诉机器之心,无问芯穹团队成员已经超过100余人,团队仍在快速扩张。公司成立半年内,已经完成数亿元融资,投资人包括百度、腾讯和智谱等战略合作方,以及徐汇资本、红杉中国、Monolith、启明创投、北极光创投、经纬创投、真格基金、金沙江创投、SEE Fund和绿洲资本等投资机构。

激活更多有效算力,已在10+种芯片上实现SOTA

无问芯穹的技术框架被概括为“M*N”,指的是对 “M 种模型” 和 “N 种芯片” 间的高效、统一部署。


此次发布的无穹Infini-AI大模型开发与服务平台的底层包括的多芯片算力底座,支持AMD、壁仞、寒武纪、燧原、天数智芯、沐曦、摩尔线程、NVIDIA等10余种计算卡,模型层则支持了Baichuan2、ChatGLM2、ChatGLM3、ChatGLM3闭源模型、Llama2、Qwen、Qwen1.5系列等共20多个模型,整体上支持多模型与多芯片之间的软硬件联合优化和统一部署。


发布会上,无问芯穹展示了其在10种芯片上的性能优化数据,在每张卡上都显示已取得了目前行业内最优的性能优化效果。
在之前的文章里,机器之心披露过,无问芯穹基于FlashDecoding++这项工作所研发出的Infini-ACC 大模型计算优化引擎通过对模型、系统以及硬件层面的系统优化,能够推动实现大模型推理速度提升 10 倍,模型存储空间降低 10 倍,部署时间降至小时级。

2023年,无问芯穹曾宣布了在英伟达GPU和AMD等芯片上取得的优化效果,取得了当时最好的计算加速效果,实现了大模型任务2-4倍的推理速度提升。随后,AMD中国宣布与无问芯穹达成战略合作关系,双方将携手联合提高商用AI应用性能。

去年十二月的专访中,夏立雪曾强调,经过无问芯穹产品优化后的算力成本,相比 OpenAI 可压缩 2~3 个数量级,未来则将会达到 4 个数量级。这意味着,假如一个应用方原本需要向OpenAI支付100元的token费用,经过优化,这个价格最终将会被压缩到约1分钱级别。

这次发布会上,无问芯穹还首次对外披露了产品客户案例。一个月前,同道猎聘在部分城市所发布的AI驱动的数字人等由AI驱动的创新应用,是由无问芯穹提供的弹性算力使用方案,并在无问芯穹的平台上基于开源大模型做了微调。无问芯穹方面称,相比市面上的其他方案,实现了更高的推理加速,也大幅降低了新功能上线和运行的成本。

夏立雪表示,这一效果让无穹团队很有信心,所以除了开放全量注册,也正式启动了大算力需求方的测试邀请,提供更具性价比的算力、且在算法和硬件上更有纵深的算力优化服务。

“我们对模型品牌和芯片品牌的覆盖率还会持续提升,随着时间的推移,无穹Infini-AI的性价比优势会越来越突出。”夏立雪称,未来无穹Infini-AI还将支持更多模型与算力生态伙伴的产品上架,让更多大模型开发者能够‘花小钱、用大池’,持续降低AI应用的落地成本。

在发布会上,夏立雪着重提到了芯片生态的问题。一直以来,部分国产芯片的算力难以被广泛利用的重要原因就是生态门槛过高。他强调,在使用无问芯穹的算力服务时,用户不需要也不会感觉到底层算力的品牌差异。

另外,无问芯穹的首席科学家戴国浩还预告了2025年无问芯穹的产品计划,“未来,凡是有算力的地方,都会有AGI级别的智能涌现。而每一个端上的智能来源,就是大模型专用处理器LPU,大模型处理器LPU可以提升大模型在各种端侧硬件上的能效与速度。无穹LPU将于2025年面世。”

戴国浩在发布会上向观众展示了“一张卡跑大模型”,作为LPU的基础,其团队于今年1月初推出的全球首个部署于FPGA的大模型推理IP,通过大模型高效压缩的软硬件协同优化技术,使得LLaMA2-7B模型的FPGA部署成本从4块卡减少至1块卡,并且性价比与能效比均高于同等工艺GPU。未来,无问芯穹的端侧大模型专用处理器LPU,可以被模块化地集成到各类端侧芯片中。
入门
暂无评论
暂无评论~