Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

微软颠覆生产力:Copilot推自定义版,AI PC原生支持PyTorch,奥特曼预告新模型

180 万人在用 Github Copilot,已在改变世界。

AI 生产力的未来会是什么样子?全世界都在等待微软的答案。

5 月 22 日凌晨,微软 Build 2024 开发者大会在美国西雅图召开,今天的发布有关 AI 技术,更有关 AI 带来的新工具。

「三十多年来,微软对于计算机一直有两个梦想 —— 首先是让计算机理解我们,而不是我们去理解计算机;其次,在信息不断增加的世界中,让计算机帮助我们根据信息有效地进行推理、计划和行动。人工智能浪潮已经为我们的梦想找到了答案,」微软 CEO 萨蒂亚・纳德拉说道。

今天 Build 大会的内容主要最新的 Copilot,适用于生成式 AI 的新形态硬件,以及使用新 AI 能力的工具堆栈。

图片

当然,除了大量应用整合、与 AI 创业公司、硬件厂商的合作,还有微软自研的全新 AI 大模型。

Copilot+PC,有专用端侧模型
原生支持 PyTorch

首先是有关 PC 新形态 Copilot+PC 的内容。微软表示,将于 618 上市的首批机型会搭载高通 Snapdragon X 系列处理器,在今年晚些时候将推出更多基于英特尔AMD 处理器的此类设备。

目前已推出的版本因为 NPU 拥有 40+ TOPS 的 AI 算力,运行 AI 工作负载的能力增强了 20 倍,效率提高了 100 倍。这样的硬件基础,让 AI PC 绝不是接入云端的 GPT-4o 那么简单,Windows 现在从三个层面提供 AI 体验。

图片

Windows Copilot 堆栈现在通过 Windows Copilot Runtime 扩展到了 Windows 上,人工智能对系统进行了自内而外的改造,使开发人员能够加速 Windows 上的人工智能开发。

图片

纳德拉表示,Windows Copilot Runtime 包含一组 API,由 Windows 附带的 40 多个端侧 AI 模型提供支持,包括一种名为 Phi-Silica 的小语言模型(SLM),专为 Copilot+ PC 中的 NPU 设计。他们会被用于智能搜索、实时翻译、图像生成和处理等任务。

微软表示,Phi-Silica 完全使用 NPU 进行推理,首个 token 输出速度为 650 token/s,仅消耗约 1.5 瓦的电量,可以让 CPU 和 GPU 同时用于其他计算任务。持续运行时,文本生成重用 NPU 中的 KV 缓存并在 CPU 上运行,每秒生成约 27 个 token。

图片

微软提出了 Windows 语义索引,这是一种新的操作系统功能,重新定义了 Windows 上的搜索并支持 Recall 等新体验。稍后,微软将向使用 Vector Embeddings API 的开发人员提供此功能,以便人们在应用程序中基于数据构建自己的矢量存储和 RAG。

新的 Copilot+PC 还自带原生的人工智能框架和工具链,方便开发人员将自己的端侧模型引入 Windows。微软正式宣布通过 DirectML,PyTorch 和 Web 神经网络现在将在 Windows 上本地运行。这将为开发人员提供更多可用的工具,允许数千个 Hugging Face 模型在 Windows 上运行。NPU 也可以帮助这些工具比以往更快的速度完成任务。

就像 DirectX 之于图形处理一样,DirectML 是 Windows 中用于机器学习的高性能低级 API。DirectML 对微软的独立硬件供应商 (IHV)合作伙伴为 Windows 生态系统提供的不同硬件进行抽象,并支持 GPU 和 NPU,CPU 集成也即将推出。它集成了 AI 领域的相关框架,例如 ONNX Runtime、PyTorch 和 WebNN。

此外,Windows Subsystem for Linux(WSL)可以同时运行 Windows 和 Linux 工作负载,为 Windows 上的 AI 开发提供平台。开发人员可以在不同环境之间轻松共享文件、GUI 应用程序、GPU 等,无需额外的设置。

昨天,微软向世界介绍了全新的 Windows 11 AI PC,再加上今天在 Build 开发者大会上宣布的强大功能,Windows 正在成为极具开放性的 AI 平台和开发者平台。

这些进化,似乎会把开发者们瞬间从 Mac 上吸引过来。

Copilot 持续升级
开始卷团队协作

接下来是一系列面向个人和团队的 AI 生产力提升。

围绕 AI 软件开发能力,GitHub 推出首套由微软和第三方合作伙伴开发的 GitHub Copilot 扩展,现已开启受邀预览。新增功能允许开发者、企业通过其偏好的服务(如 Azure、Docker、Sentry 等)直接在 GitHub Copilot 智能副驾驶 Chat 中定制其 GitHub Copilot 智能副驾驶体验。

作为微软推出的扩展功能之一,GitHub Copilot 智能副驾驶 for Azure 展示了如何利用自然语言和更广泛的功能来提高开发速度。通过 Copilot 智能副驾驶 Chat 使用该扩展,开发者可以探索和管理 Azure 资源,同时排除故障、查找相关日志和代码。

在本次大会上,微软展示了 Copilot 如何提升组织的团队协作和业务效率。纳德拉主要介绍了以下三个升级:

  • Team Copilot 将 Copilot 扩展到个人助理之外,为团队工作,改善协作和项目管理。
  • Agents:自定义 Copilot 使客户能够协调和自动化业务流程。
  • Copilot 扩展(extensions)和 Copilot 连接器(connectors)使定制和扩展 Copilot 变得更加容易,以满足特殊的业务需求。

Team Copilot

Team Copilot 使 Copilot 不再只是个人助理,而成为有价值的团队成员,与其他成员一起参与并做出贡献。当然,你全程掌控,将任务或职责分配给 Copilot,使得整个团队共同提高效率、协作和创造力。

Team Copilot 可以在 Microsoft Teams、Microsoft Loop、Microsoft Planner 等协作应用中使用。

图片

具体而言,Team Copilot 可以扮演以下三种角色。

一是会议主持人。Copilot 通过管理议程和记录会议中共同撰写的笔记,使会议中的讨论更加富有成效。

图片

小组协作者:Copilot 帮助每个人从聊天中获得更多收获,展示最重要的信息,跟踪行动项目,并解决未解决的问题。

图片

项目经理:Copilot 通过创建和分配任务、跟踪截止日期以及在需要团队成员输入时通知他们,确保每个项目顺利进行。

图片

这些功能将于 2024 年晚些时候,在预览版中提供给拥有 Microsoft Copilot for Microsoft 365 许可证的客户。

Agents

图片

Agents 是可以实现业务流程自动化的全新自定义 Copilot。每个业务流程都有待提高效率和释放新价值,并且每个流程都各不相同。

因此,微软宣布 Microsoft Copilot Studio 推出新功能,可以构建自定义 Copilot,作为 Agents 在客户的指导下独立工作。Agents 的功能包括如下:

  • 实现长期运行的业务流程自动化
  • 推理操作和用户输入
  • 利用内存引入上下文
  • 根据用户反馈进行学习
  • 记录异常请求并寻求帮助

如下为创建自定义 Copilot(即 Agents)的演示。

图片

图片

图片

这些 Agents 功能可供抢先体验计划(Early Access Program)中的客户使用。

此外,微软通过 Copilot 扩展和 Copilot 连接器进一步丰富了 Copilot 的功能。

借助新的 Copilot 扩展,任何人都可以轻松地自定义 Copilot 操作并将 Copilot 扩展到他们的数据和业务线系统。开发人员可以使用 Copilot Studio 或 Teams Toolkit for Visual Studio 构建这些扩展。

图片

微软还在 Copilot Studio 中引入了 Copilot 连接器,让开发人员可以更轻松、更快速地创建 Copilot 扩展。

图片

这一系列能力,可以让开发者们更方便地把人工智能纳入到自己的产品和服务体系中。

小模型 Phi-3 家族上新
多模态 Phi-3-Vision 亮相

作为 OpenAI 最新发布的旗舰模型,GPT-4o 现可在 Azure AI Studio 中使用,也可作为 API 使用。这一开创性的多模态模型集成了文本、图像和音频处理,为生成式和对话式 AI 体验设定了新标准。

微软开发的 AI 小语言模型(SLMs)Phi-3 系列也发布了一款新的多模态模型 ——Phi-3-vision,并已可在 Azure 中使用。

图片

开发者可在 Azure AI Playground 中体验这些最先进的前沿模型,并能在 Azure AI Studio 中开始构建和定制模型。

作为以创新智能手机和智能设备享誉全球的全球科技品牌,OPPO 正在将 Azure AI 语音转文本(speech-to-text)、快速转录(Fast Transcription)和 Azure AI 文本转语音(text-to-speech)技术在其新款智能手机上试点,以期为客户带来全新体验。

Phi-3 模型家族现有四个模型,每个模型都根据微软负责任的 AI、安全标准进行指令调整和开发,以确保可以直接使用。

  • Phi-3-vision 是一个具有语言和视觉功能的 4.2B 参数多模态模型,支持 128K 上下文长度。
  • Phi-3-mini 是一个具有 3.8B 参数语言模型,支持 128K 和 4K 两种上下文长度。
  • Phi-3-small 是一个具有 7B 参数语言模型,支持 128K 和 8K 两种上下文长度。
  • Phi-3-medium 是一个具有 14B 参数语言模型,支持 128K 和 4K 两种上下文长度。

图片

其中,Phi-3-vision 是 Phi-3 家族中的第一个多模态模型,它将文本和图像结合在一起,并能够推理现实世界的图像以及从图像中提取和推理文本。该模型还针对图表理解进行了优化,可用于生成见解和回答问题。

Phi-3-vision 以 Phi-3-mini 的语言功能为基础,继续在小模型中整合强大的语言和图像推理质量。如下图所示,Phi-3-vision 可以从图表和图解中生成见解。

图片

Phi-3-small 和 Phi-3-medium 的表现优于同等规模以及规模更大的语言模型

图片

7B 参数的 Phi-3-small 在各种语言、推理、编码和数学基准测试中击败了 GPT-3.5 Turbo。

图片

14B 参数的 Phi-3-medium 延续了这一趋势,并且表现优于 Gemini 1.0 Pro。

图片

4.2B 参数的 Phi-3-vision 在一般视觉推理任务、OCR、表格和图表理解任务中,表现优于 Claude-3 Haiku 和 Gemini 1.0 Pro V 等更大的模型。

图片

当然,Phi-3-vision 模型是开源的。

图片

Hugging Face 地址:https://huggingface.co/microsoft/Phi-3-vision-128k-instruct

这一模型的发布令研究者们兴奋不已,有人已经开始畅想其在机器人领域的应用了。

图片

从 Phi-3 到 Phi-Silica,我们可以看到微软对大模型的探索聚焦于应用,与自己支持的 OpenAI 区分了生态位。

最强气氛组 ——OpenAI CEO 奥特曼

在微软官宣了一系列更新后,OpenAI CEO 奥特曼也来到了活动现场以示支持。他鼓励开发者和初创公司利用当前的人工智能热潮,认为这是自移动设备繁荣甚至互联网出现以来最令人兴奋的时刻。
图片
在模型方面,奥特曼透露,未来,GPT-4o 将变得更快,但更便宜。他还很高兴地预告,下一个大模型即将问世。微软为这项工作建造了一台更大的超级计算机(如同虎鲸一样规模的超算)。

图片

奥特曼暗示,新的模态和整体智能将是 OpenAI 下一个模型的关键。「最重要的一点,听起来也是我能说的最无聊的一点...... 模型会变得越来越智能,总的来说是全面智能。」

图片

不过,他也指出,新技术并不能让开发人员摆脱艰苦的工作。这项工作还有待完成。开发者必须弄清楚如何让这些技术对人们有用。他说,最好不要忘记,将这些新技术带入生活并不容易。

参考链接:
https://azure.microsoft.com/en-us/blog/new-models-added-to-the-phi-3-family-available-on-microsoft-azure/
https://www.microsoft.com/en-us/microsoft-365/blog/2024/05/21/new-agent-capabilities-in-microsoft-copilot-unlock-business-value/?ocid=FY24_soc_omc_br_x_TeamCopilot
https://blog.fabric.microsoft.com/en-US/blog/introducing-real-time-intelligence-in-microsoft-fabric/
https://blogs.windows.com/windowsdeveloper/2024/05/21/unlock-a-new-era-of-innovation-with-windows-copilot-runtime-and-copilot-pcs/
产业Phi-3-visionCopilot+PCBuild 2024 开发者大会微软
相关数据
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

AMD机构

超威半导体(中国)有限公司专门为计算机、通信和消费电子行业设计和制造各种创新的微处理器(CPU、GPU、主板芯片组、电视卡芯片等),以及提供闪存和低功率处理器解决方案,公司成立于1969年。AMD致力为技术用户——从企业、政府机构到个人消费者——提供基于标准的、以客户为中心的解决方案。

https://www.amd.com/zh-hans
语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

OPPO机构

OPPO,成立于2004年,是一家全球性的智能终端和移动互联网公司,致力于为客户提供最先进和最精致的智能手机、高端影音设备和移动互联网产品与服务,业务覆盖中国、美国、欧洲、东南亚等市场。

www.oppo.cn
视觉推理技术

视觉推理是指为了得出某个结论而操纵一个人对一个物体的心理印象的过程。

推荐文章
暂无评论
暂无评论~