Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI PC热再现CES2024,行业求解落地路线

机器之能报道

作者:Sia

过去一年,我们见证了 ChatGPT 引爆生成式 AI。既然可以在云端花近百亿人民币创建一个万亿参数的模型,那么,如何让无数消费者使用它呢?作为全球最大的科技硬件博览会,塞进大模型的终端设备成为本届 CES 一大亮点。 

一、AI PC 之热 

生成式人工智能(AI)在个人电脑(PC)领域的应用成为新一轮角力之处,芯片领域竞争也在白热化。英伟达、AMD英特尔和高通均在本次博览会上展示了其在集成 AI 技术方面的最新进展,这些技术旨在提升个人电脑的性能和用户体验,特别是在生成式 AI 上。 

英伟达按惯例发布了面向游戏玩家的 40 系显卡的 Super 版本和 AI Workbench 工具包。英伟达称,在 AI 工作负载方面,新发布的 GeForce RTX 4080 SUPER 生成视频的速度比 RTX 3080 Ti 快 1.5 倍以上,生成图像的速度比 RTX 3080 Ti 快 1.7 倍以上。 

AI 特性也成为高通新款 PC 处理器骁龙 X Elite 的最大卖点。这款芯片专为处理 AI 任务而设计,如摘要邮件、撰写文本和生成图像。这标志着高通在 AI 集成计算技术方面的一大步,也预示着 AI 技术在未来个人电脑和笔记本电脑中的广泛应用。 

AMD 推出了 Radeon RX 7600 XT 显卡和 Ryzen 8000G 系列桌面处理器,这是首次在 x86 桌面处理器中集成 AI 神经处理单元(NPU)。这一技术使 AMD 处理器能够更有效地处理 AI 任务,提升了多种应用的性能。 

在此之前,英特尔已经在 2023 年 12 月发布了集成 NPU 的新品“酷睿 Ultra ”,直指 AI PC 市场。由于搭载了可处理 AI 大模型的 M3 系列芯片,苹果已经推出的 Mac 系列 PC 已经具备 AI PC 特征。 

除了芯片方案,本届展会上一款名为 Rabbit R1 的硬件设备因其独特的实现方式受到广泛关注。Rabbit R1 可以根据用户语音指令自动操作 Spotify、Uber、DoorDash 等应用,从而无缝完成音乐播放、聊天、叫车、叫外卖、购物等日常任务。 

图片

这也是迄今为止对未来“手机”最清晰的愿景展示。它没有显示应用程序,也不连接到应用程序 api,仅需“按住说话”即可与之交互——基于“大型操作模型”( Large Action Model )的操作系统 Rabbit OS 听懂命令后会自动触发常见网页、应用程序,完成任务。 

Rabbit R1 综合使用了语音识别模型、Large Language Model Agent(大型语言模型智能体)和语音合成模型。这种多模型集成的方式让 Rabbit R1 更加智能,为用户提供的功能体验也更为丰富。 

二、一个超级 AI 应用的优化策略 

虽然 Rabbit R1 更像是一个带有传统 Text-to-Speech(TTS)的 Automatic Speech Recognition( ASR ) + LLM 智能体(Agent)的硬件实现 demo,有可能在未来几个月里被更为强大的苹果手机迅速覆盖,但多模型集成的实现方式反映出一种趋势:要想给终端用户带来变革性体验,依靠单一模型并不够。未来用户更倾向于使用集成了多个 AI 模型的设备来完成一个完整的功能,而不是依赖单一的模型。 

比如,在个人电脑上运行单一的  LLaMA 语言模型,并不能很好地体现出本地运行 LLaMA 模型相对于需要联网的 ChatGPT 等服务的优势。单一  LLaMA 模型虽然在语言处理方面表现出色,但缺乏与其他 AI 模型结合使用的复杂功能,很难提供全面的 AI 体验。 

HippoML 最新推出的一个超级 AI 应用 PrivateCanvas 也反映出类似的思考。通过将多个大热的前沿 AI 模型组合成一个功能更为强大的超级应用 PrivateCanvas,用户在本地英伟达、苹果 GPU 上就能使用 PromptLLM、SDXL、SDXL inpaint、SDXL LCM、SD LCM、SAM、MI-GAN 和 RealERS-GAN 等尖端模型进行创作。 

这些功能不仅覆盖了从生成详细的提示到创作全高清图片的多个方面,还包括精准编辑和擦除混乱物体等高级功能,并且能以最低的硬件需求体验到顶级性能。 

图片privateCanvas功能与Midjourney、LeonardoAI、Playground AI 和 DALL-E 3的比较。图片实时创建案例图片手动删除生成图像中的文本图片自动检测删除对象图片自动对象检测和编辑图片在任何图像上放大 4 倍


不过,实现多个 AI 模型协同工作,对 AI 系统设计也提出了更高的要求。在 AI PC 硬件环境中,资源相对于数据中心来说更加有限。例如,即使是顶级的 RTX 显卡,其显存也仅有 24GB,远低于数据中心服务器的 GPU。因此,针对这种硬件资源限制,对模型进行优化变得尤为重要。PrivateCanvas 支持所有 SOTA 模型最低硬件需求,只需要千元低端的 RTX 3060 显卡。

同时,不同 AI 模型间的切换速度对用户体验有着关键性的影响。快速而无缝的模型切换是保证良好用户体验的关键,尤其是在处理复杂任务或进行多任务操作时。在设计 AI PC 系统时,开发者必须考虑如何在有限的硬件资源下实现高效的模型优化和快速的模型切换,以提供流畅和高效的用户体验。  

在 HippoML GPU 推理引擎架构支持下, PrivateCanvas 将 SDXL 处理加速到惊人的速度,超过了 CoreML 和其他专用加速包。每个 PrivateCanvas 模型都能直接在苹果或者英伟达 GPU 上运行。而对于用户来说,集多功能于一体的超级应用比单一模型应用更具价值,尤其是在其本地 GPU 运行速度超过大多数数据中心 GPU 的情况下。 

图片闪电般的速度

当今的生成式 AI 应用不仅需要速度,还需要智能模型优化和高效计算,以提供突破性的体验。英伟达副总裁 Ian Buck 曾表示,HippoML 的未来方法将增强 NVIDIA Tensor Core GPU 的功能,同时保持最小的占用空间,帮助将下一代生成式 AI 应用程序推向市场,无论用户的处理能力在哪里。 

图片PrivateCanvas 软件架构使用了他们为数据中心 GPU 推理设计的相同多层模型缓存系统,使得 PrivateCanvas 即使在内存较少的设备上也能正常工作。

不过,目前像 PrivateCanvas 这样对硬件进行极致优化,并将多个 AI 模型组合成功能更为强大的应用的案例还相对较少。本届 CES 上出现了不少硬件加速方案,但软件的发展明显落后。新 GPU 和 AI 专用芯片在性能上有所提升,但它们的基本工作原理和应用场景仍然没有根本性变化。游戏显卡已经被广泛用于 AI 模型的训练和执行,这一点在本次展会上并没有太大改变。例如,英伟达展示的 Windows 版本的 TensorRT-LLM 和 Stable Diffusion 案例,除了执行速度更快,在本质上和使用 PyTorch 运行 WebUI 没有区别。  

让用户在 RTX 3090 上运行 PrivateCanvas 后端,在 iPad 上运行 PrivateCanvas UI,使用 Apple Pencil 进行创作,只是迈向未来的第一步。HippoML 希望未来用户可以更自由地处理语音、视频、语言、图像和每个 AI 服务,无需依赖任何单一的集中式在线服务。 

HippoML 成立 2023 年 1 月,旨在用一种更务实的方式来解决 GPU AI 计算问题,使生成式 AI 无处不在。公司创始团队来自 Meta,包括两位华人 Bing Xu、Hao Lu。Bing Xu,公司的联合创始人兼 CEO,创业之前曾在 Meta 内部领导开发了开源框架 AITemplate,使 GPU 效率提升了 8 倍。加入 Meta 之前,他曾在 OctoML(MLops deploying)和苹果从事训练效率解决方案研发。 

三、求解落地

由于算力消耗巨大,直到今天还没有哪个云端大模型能够盈利。行业人士认为,未来应是端侧、云端分工干活儿的模式,而 AI PC 的逻辑正是通过让用户在终端上进行更多的处理,大幅消减云计算成本。同时,网络大模型知道用户的一切隐私(比如电话、护照身份证、电话、住址等)非常可怕,未来也应该让经过云端训练的 AI 模型运行于 PC,在分析个人环境下输入的数据、提供定制化服务的同时,保障个人隐私与安全。 

尽管本届 CES 上相关进展不断,AIPC 领域目前仍处于初级阶段,也没有太多惊喜。多名终端行业人士坦言,行业还在探索未来应用。求解未来落地路线,除了芯片硬件还需要优化算力,软件上也要不断探索模型的压缩和量化以及推理算法的改进,使得同样效果条件下的算力需求降低。 

如果未来超级应用集成的大模型越来越多,应用也变得越来越复杂,这些都将对专注于生成 AI 的硬件设备(比如 Rabbit RI )提出更大挑战。HippoML 认为,软硬件模型一体设计将成为提升用户体验的关键因素。 

参考链接:

https://blog.hippoml.com/super-ai-creativity-app-run-with-local-gpu-on-mac-windows-linux-early-access-388a4bf20a26

产业云计算AIPCRabbit R1AI
相关数据
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

推理引擎技术

推理机是实施问题求解的核心执行机构,常见于专家系统。它是对知识进行解释的程序,根据知识的语义,对按一定策略找到的知识进行解释执行,并把结果记录到动态库的适当空间中去。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

模型优化技术

像卷积神经网络(CNN)这样的深度学习模型具有大量的参数;实际上,我们可以调用这些超参数,因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值,但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构,他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

AMD机构

超威半导体(中国)有限公司专门为计算机、通信和消费电子行业设计和制造各种创新的微处理器(CPU、GPU、主板芯片组、电视卡芯片等),以及提供闪存和低功率处理器解决方案,公司成立于1969年。AMD致力为技术用户——从企业、政府机构到个人消费者——提供基于标准的、以客户为中心的解决方案。

https://www.amd.com/zh-hans
量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~