Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

苹果智能炸裂登场:直接GPT-4o加持,全家桶都上生成式AI,Siri脱胎换骨

还有史诗级更新:iPhone 加通话录音,iPad 加计算器。


不止 Siri 或 iPhone,整个苹果,向前迈进了一大步。

北京时间 6 月 11 日凌晨,苹果全球开发者大会 WWDC 在库比蒂诺的 Apple Park 正式召开。这场大会,苹果如我们所愿终于带来了覆盖全线产品的生成式 AI 技术,与此同时还有些预料之外的消息。

「苹果的目标一直是构建以人为本,最为易用方便的个人设备,提升人们的生活效率。多年来我们一直在应用人工智能机器学习技术来实现目标,」苹果 CEO 蒂姆・库克说道。「最近大语言模型等 AI 突破,让我们有机会把体验推向新的高度。」

现在终于能知道苹果是如何看待生成式 AI 的了。首先是理念:必须要强大、直观、完全整合、个性化且保护隐私。

图片

然后是方式:基于苹果设备强大的 M 系列芯片,走自研本地大模型加云端的策略,本地的模型不走寻常路,超出本地处理能力的问题可以借助云端大模型解决(Private Cloud Compute),也可以找 OpenAI 的 GPT-4o。

十三年前,苹果的语音助手 Siri 横空出世,为智能手机探索了下一次交互变革。在生成式 AI 时代,Siri 终于有机会兑现当初人们寄予的厚望,它变得更加聪明,拥有丰富的知识,会像目前最先进的大模型工具一样一步步给你提示,帮你解决问题。

图片

另外,现在和 ChatGPT 一样,你也可以向 Siri 打字交互了。

苹果表示,Siri 的全新形态将会改变游戏规则。大量 AI 新能力会很快上线,另外屏幕读取、App 内 / App 之间的操作等能力预计明年到位。

图片

新 Siri 只是苹果 AI 能力的一小部分,今年 WWDC 长达一个半小时的 keynote 上,苹果首次把 AI 能力单列出一个章节,专门介绍从图像到文本,覆盖手机、iPad 和 Mac 的生成式 AI。它们都基于 Apple Intelligence。

Apple intelligence:完整 AI 体系

Apple intelligence 是苹果的全新个性化智能系统,全面接入了生成式 AI 的能力。

图片

Apple Intelligence 结合生成式 AI 模型和使用者的个人资料,提供实用的智能服务。它覆盖 iPhone、iPad 和 Mac,深度集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中。它利用苹果芯片的能力来理解并创造语言和图像,可以跨应用地执行操作,并利用个人信息简化和加速日常任务。

这些应用可以在设备端运行,超出设备端能力的部分也可以在云上运行。通过 Private Cloud Compute,苹果在 AI 领域设立了新的隐私标准,能够在设备端处理和基于服务器的大型模型之间灵活调整计算能力,这些服务器运行在专用的苹果芯片上。

库克表示,Apple Intelligence 是苹果创新的新篇章,将改变用户使用产品的方式。他强调,苹果独特的方法结合了生成式人工智能和用户的个人信息,能提供真正有用的智能服务。此外,Apple Intelligence 能够以完全私密和安全的方式访问信息,帮助用户完成对他们最重要的事情。这是苹果独有的 AI 体验。

脱胎换骨的 Siri

Apple Intelligence 为 Siri 带来了更深层次的系统整合。Siri 现在拥有更丰富的语言理解能力,变得更加自然、更懂上下文、更个性化,能够简化和加速日常任务。Siri 能够理解用户在说话时的犹豫,并在不同请求之间保持上下文连贯。用户还可以通过打字与 Siri 交流,并根据需要在文本和语音之间切换。此外,Siri 还拥有全新的设计,当 Siri 处于激活状态时,屏幕边缘会环绕着优雅的发光效果。

图片

                                                      现在,用户可以向 Siri 输入文字,也可以在文字和语音之间切换,以任何合适的方式与 Siri 交流。

Siri 现在可以为用户提供全面的设备支持,无论他们身在何处,都能解答关于 iPhone、iPad 和 Mac 操作的数千个问题。比如,用户可以学习如何在 Mail 中安排邮件、如何从浅色模式切换到深色模式等各种操作。

图片

而且,有了屏幕感知功能,Siri 可以让你轻松执行与屏幕上的信息相关的操作,例如将聊天信息中收到的地址添加到朋友的通讯录中。

图片

借助 Apple Intelligence,Siri 能够在苹果和第三方应用中执行数百种新操作。例如,用户可以说:「从我的阅读列表中找出那篇关于蝉的文章」,或者「把周六烧烤的照片发给 Malia」,Siri 将自动处理这些请求。

图片

                   Siri 现在可以在应用程序中或跨应用程序执行数百项新操作,包括在「Messages」和「Mail」中查找朋友发送的书籍推荐。

Siri 能够根据用户的设备信息提供个性化的智能服务。例如,用户可以说:「播放 Jamie 推荐的那个播客」,Siri 将定位并播放该播客,用户无需记住它是在短信还是邮件中被提及的。用户也可以问:「妈妈的航班什么时候到达?」Siri 将找到航班详情,并与实时航班追踪数据交叉引用,以提供到达时间。

图片

                         Siri 能够根据用户及其设备上的信息提供量身定制的智能服务,例如查找即将起飞航班的详细信息或跟踪晚餐预订情况。

其实,关于 Siri 的这次更新,苹果在四月份的一篇论文中早有剧透,只不过当时没有引起足够的注意。具体细节可以参见机器之心报道《让大模型理解手机屏幕,苹果多模态 Ferret-UI 用自然语言操控手机》。

图片

此外,苹果还开源了一些相关研究,参见:https://github.com/apple/ml-ferret?tab=readme-ov-file

图片

跨苹果平台集成 ChatGPT

不出所料,今天苹果发布会的一大亮点在于与 OpenAI 的合作。

苹果宣布,Apple 正在将 ChatGPT 集成到 iOS 18、iPadOS 18 和 macOS Sequoia 内的体验中,使用户无需在工具之间跳转即可访问 ChatGPT,包括图像和文档理解功能。

此外,Siri 也可以随时利用 ChatGPT 的专业回答。但 Siri 在将任何问题、任何文档或照片发送到 ChatGPT 之前,都会先询问用户,然后 Siri 直接给出答案。

图片

                                                                 当用户授予权限时,Siri 可以利用 ChatGPT 的回答。

此外,Apple 系统范围内的写作工具也可以用到 ChatGPT,从而帮助用户生成内容。通过 Compose,用户也可以访问 ChatGPT 图像工具来生成各种风格的图像。

图片

                             写作工具访问 ChatGPT 协助写作

至于上线时间,苹果表示 ChatGPT 将于今年晚些时候登陆 iOS 18、iPadOS 18 和 macOS Sequoia,由 GPT-4o 提供支持。用户无需创建帐户即可免费访问它,ChatGPT 订阅者可以连接他们的帐户并直接从这些体验中访问付费功能。

最后,Apple Intelligence 对用户完全免费,并将于今年秋季作为 iOS 18、iPadOS 18 和 macOS Sequoia 的一部分提供英语测试版。更广泛地功能、软件平台和其他语言将在明年推出。Apple Intelligence 将在 iPhone 15 Pro、iPhone 15 Pro Max 以及搭载 M1 及更高版本的 iPad 和 Mac 上提供。

也就是说想要用到这些大模型能力,你就要花钱买最新的苹果设备了。

新的语言理解和创造能力

Apple Intelligence 为用户解锁了提升写作能力和更有效沟通的新途径。

全新的系统级写作工具被内置于 iOS 18、iPadOS 18 和 macOS Sequoia 中,用户几乎可以在任何写作场合重写、校对和总结文本,包括邮件、备忘录、页面以及第三方应用程序。

利用重写功能,用户可以从多个版本中挑选,调整文风以适应不同的读者和场合。无论是为求职信增加说服力,还是为派对邀请函注入幽默与创意,重写功能都能帮助用户找到恰如其分的表达。

校对功能则深入检查语法、词汇和句式结构,并提供建议性的编辑意见及其解释,让用户轻松审查或快速采纳。例如,当用户在撰写邮件时,写作工具菜单会弹出,提供校对和重写的选项,用户可以根据自己的需要选择相应的功能。

而总结功能则允许用户选取文本,一键生成简洁明了的段落、要点列表、表格或清单,使信息一目了然。例如,当用户启动备忘录应用,在记录有关全面健康的内容时,就可以使用「总结」功能来提炼要点。

图片

管理邮件是一件让人头疼的事情,而新增的「优先邮件」功能将最紧急的邮件 —— 如当日的晚餐邀请或登机牌 —— 置于收件箱顶部,用户无需打开邮件,就能一目了然地看到每封邮件的摘要。

图片

面对长篇的邮件线程,用户仅需轻触屏幕,即可获取关键信息。

图片

智能回复功能更是提供了快速回复的选项,并能精准识别邮件中的问题,确保每一项都得到妥善回应,让邮件管理更加得心应手。图片
对语言的深刻理解同样扩展到了通知功能。最重要的通知会被提升至通知列表的顶部,而摘要功能则帮助用户在锁屏上快速浏览长篇或堆叠的通知,展示关键细节。

图片

「减少打扰」功能是一个新推出的专注模式。当一个群聊特别活跃时,为了帮助用户更好地专注于当前任务,「减少打扰」功能仅展示那些可能需要立即处理的通知,比如从日托中心提前接孩子的紧急短信。

图片

此外,备忘录和电话应用也新增了一项功能,用户可以录制通话、实时转录对话内容,并自动生成摘要。

图片

在通话过程中,如果用户选择录音,所有通话参与者都会收到提示。通话一结束,Apple Intelligence 就会立即生成一份摘要,帮助用户快速回顾和把握对话中的关键信息。

图片

Image Playground

Apple Intelligence 提供令人兴奋的图像生成功能,可以帮助用户以新的方式沟通和表达自己,这主要体现在新应用功能 Image Playground 上。借助 Image Playground,用户可以在几秒钟内创建有趣的图像,还能选择三种风格:动画、插图或素描。

Image Playground 易于使用,并且直接内置于包括「Messages」在内的应用程序中,也可以在专用应用程序中使用,非常适合尝试不同的概念和风格。所有图像都在设备端创建,用户可以尝试任意数量的图像。

图片

借助 Image Playground,用户可以:

  • 从主题、服装、配饰和地点等类别的一系列概念中进行选择;
  • 输入描述来定义图像;
  • 从个人照片库中选择某人加入图像中;
  • 并选择最喜欢的风格。

图片

借助「Messages」中的「Image Playground」功能,用户可以快速为朋友创建有趣的图像,甚至可以看到与他们的对话相关的个性化建议。例如,当用户向群组发送有关徒步旅行的消息时,他们会看到与朋友、目的地和活动相关的建议概念,从而使图像创建更快、更相关。

图片

图片

在 Notes 中,用户可以通过 Apple Pencil 工具调板中的新 Image Wand 访问 Image Playground,使笔记更具视觉吸引力。粗略的草图可以变成令人愉悦的图像,用户甚至可以选择空白空间,利用周围区域的背景来创建图像。

图片

此外,Image Playground 还可以在 Keynote、Freeform 和 Pages 等应用程序以及采用新 Image Playground API 的第三方应用程序中使用。

Genmoji:将表情符号提升到一个全新水平

用户可以创建原创的 Genmoji 来表达自己的想法,只需输入描述,符合要求的 Genmoji 就会出现,并附带其他选项。

图片

用户甚至可以根据照片为朋友和家人创建 Genmoji。就像表情符号一样,Genmoji 可以内嵌添加到消息中,也可以作为贴纸进行分享。

图片

                                                                   用户只需输入描述,生成Genmoji 以及其他选项

图片

                                                                   就像表情符号一样,Genmoji 可以内嵌添加到消息中

照片中新增功能,为用户提供了更多控制 

借助 Apple Intelligence,搜索照片和视频将变得更加方便。用户可以使用自然语言搜索特定照片,例如搜索「Maya 穿着扎染衬衫滑板」或「Katie 脸上有贴纸」。

图片

此外,视频搜索也变得更加强大,用户能够在剪辑中找到特定时刻,并直接跳到相关片段。此外,全新的「Clean Up」工具可以识别并移除照片背景中的干扰物体,而不会改变主体。 

图片

通过「Memories」功能,用户只需输入描述即可创建自己想要观看的故事。借助语言和图像理解,Apple Intelligence 会根据描述挑选出最佳照片和视频,根据照片中识别的主题制作故事情节,并将它们排列成具有独特叙事弧线的电影。用户甚至会收到来自 Apple Music 的歌曲推荐进行匹配。与所有 Apple Intelligence 功能一样,用户的照片和视频会在设备上保持私密,不会与其他人共享。 

图片

AI 隐私新标准

Apple Intelligence 要想真正为用户提供帮助,就必须了解深层次的个人上下文,同时保护用户隐私。Apple Intelligence 的基石是在设备上(on-device)进行处理,许多模型完全在设备上运行。对于需要更多处理能力的更复杂请求,Private Cloud Compute 将苹果设备的隐私和安全性扩展到云端,以解锁更多的智能功能。

通过 Private Cloud Compute,Apple Intelligence 能够灵活扩展其计算能力,并利用基于服务器的更大模型来处理更复杂的请求。这些模型在由苹果芯片驱动的服务器上运行,为苹果提供了一个基础,确保数据永远不会被保留或暴露。

独立专家可以检查在苹果芯片服务器上运行的代码,以验证隐私保护措施。Private Cloud Compute 通过加密确保 iPhone、iPad 和 Mac 不会与服务器通信,除非其软件已被公开记录以供检查。带有 Private Cloud Compute 的 Apple Intelligence 为 AI 领域的隐私保护设立了新的标准,为用户提供了可信赖的智能服务。

Andrej Karpathy:苹果智能非常激动人心

苹果的 Apple Intelligence 吸引了全世界科技从业者的关注。OpenAI 创始成员 Andrej Karpathy 发帖总结说,他非常喜欢苹果发布的「苹果智能」。他个人观察到了以下几个主题:

  1. 多模态输入 / 输出。苹果启用了文本 / 音频 / 图像 / 视频读写功能。可以说,这些都是原生的人类 API。
  2. Agentic。苹果允许操作系统和应用程序的所有部分通过「函数调用」进行互操作;内核进程 LLM 可根据用户查询安排和协调它们之间的工作。
  3. 无摩擦。苹果以一种高度流畅、快速、always on 和上下文的方式全面集成这些功能。无需四处复制粘贴信息、提示工程等。还对用户界面进行了相应调整。
  4. 主动性。苹果没有根据提示执行任务,而是预测提示、提出建议并主动执行任务。
  5. 分级授权。尽可能多地将智能移动到设备上(苹果芯片非常有帮助且适合),但允许将工作可选地派发到云端。
  6. 模块化。允许操作系统访问并支持整个不断增长的 LLM 生态系统(例如 ChatGPT 公告)。
  7. 隐私。

Karpathy 表示,我们正在迅速进入这样一个世界:你可以打开手机,随便说些什么,它会回应你,它了解你,而且它还能正常工作,这非常激动人心。

图片

全新 macOS 系统让 Mac、iPhone 实现连续互通

此次,苹果 macOS 系统也迎来了重大的版本更新,包括系统名称、新增一系列功能等。

macOS 15 系统更名为了 macOS Sequoia,将于下月推出公测版,今年秋季面向普通用户发布完整版。其中引入的最显著功能包括 iPhone 镜像(mirroring)、通知(Notifications)和 Safari 升级。

图片

我们重点来看新增的 iPhone 镜像功能,它允许用户直接在 Mac 上完全访问和使用 iPhone。用户可以在 Mac 设备上启动和浏览任何他们想要执行操作的 iPhone 应用程序,并通过键盘、触控板和鼠标与手机无缝互动。

图片

                              滑动 iPhone 屏幕。

图片

                              打开 iPhone 应用程序。

借助 Mac 上的 iPhone 通知功能,用户可以在 Mac 上接收 iPhone 手机的通知,点击通知就能进入对应的应用程序。

图片

当用户在 Mac 上工作时,iPhone 屏幕将锁定待机模式,其他人无法访问或查看你正在做的事情。

图片

                         在 Mac 上通过拖曳轻松实现 Mac 与 iPhone 之间文件传输。

虽然 Mac 上已能运行 iOS 应用,但直接操作手机界面显然更直观。这方面 Mac 可谓是跟上了安卓、鸿蒙的步伐。

macOS Sequoia 还添加了一个类似于 Windows 的新窗口排列工具,可以自动调整应用窗口大小以平铺并填满屏幕。当用户将窗口拖到屏幕边缘时,系统会自动建议将其放在桌面的哪个位置,从而让桌面井然有序。

用户可以选择将窗口并排平铺或者放在角落以查看更多应用程序,同时新的键盘和菜单快捷键可以帮助更快地进行排列平铺。

图片

此外,Mac 内置浏览器 Safari 通过「突出显示」(Highlights)功能让用户更轻松地发现信息,比如路线、摘要或快速链接。这里利用机器学习技术自动检测用户正在浏览的信息并突出显示。

图片

                              规划路线时突出显示。

可以看到,全新 macOS 系统加持下的 Mac 体验更加地轻松、便捷、高效。

违背祖训,给 iPad 装计算器

对于 iPad 用户来说,最大的进步莫过于终于有原生的计算器应用了。乔布斯曾经说过,把计算器装进 iPad 是「反直觉」的,所以十几年来这种全球最为流行的平板设备一直没有计算器 App。

现在生成式 AI 来了,苹果立马「违背了祖训」。

苹果推出了全新的数学笔记(Math Notes)计算器,使用户能够输入或手写数学表达式,并立即看到以他们自己的笔迹解决的结果。在学习新概念、计算预算等时,用户还可以为变量分配值。新增的绘图功能允许用户写出或键入方程式,并只需轻触一下即可插入图表,甚至可以在同一个图表上添加多个方程式,以查看它们之间的关系。

图片

                                  计算器 APP 专为 iPad 的独特功能而设计,提供了一种使用 Apple Pencil 解决表达式问题的全新方式。

当然,这一切的前提是,你得有个 Apple Pencil。

iPad 上的这个基本科学计算器让用户在完成之前就能轻松查看完整的表达式。历史记录功能帮助用户跟踪之前的计算结果,而单位转换功能让用户能够快速转换长度、重量、货币等单位。

图片

                       有了 Math Notes,计算器允许用户键入或写出数学表达式,并立即看到它们的解,还能为变量赋值,以便在表达式中使用。

One More Thing

除了大换代的 macOS、iPadOS 系统,苹果在其他设备端的系统也都有相应的更新。其中混合现实头戴设备 Vision Pro 有了全新的系统 ——visionOS 2,新增了很多全新的功能,比如利用高级机器学习从 2D 图像中导出左右眼视图,并创建具有自然深度的空间照片。

图片

6 月 28 日,vision Pro 将率先在中国、日本和新加坡发售。国行价格方面,256GB 版本 29999 起、512GB 版本 31499 起、1TB 版本价格 32999 元。这样的价格,你打算入手吗?

图片

苹果的一系列发布,既跟上了节奏,也发挥出了苹果自身从硬件到软件一体化的优势。毕竟在安卓阵营,短时间内还难以见到手机与服务器用同一芯片架构的情况。另一方面,与技术最先进的 OpenAI 深度合作也被人们认为是「放得开」。

那么苹果 AI 落地的前景算是一片大好?不一定,今天的股价还是下跌了。

图片

                             WWDC 的 Keynote 结束后,苹果市值再次被英伟达超过。

另外马斯克也说了,既然苹果是系统级整合 OpenAI,那就是无法接受的不安全,在我的公司里要禁用。

图片

不论投资者还是友商,都有些顾虑。

「Apple intelligence」能不能让苹果在生成式 AI 的赛道上反超,或许还有待时间的检验。

参考链接:
https://www.apple.com/newsroom/2024/06/introducing-apple-intelligence-for-iphone-ipad-and-mac/
https://www.apple.com/newsroom/2024/06/macos-sequoia-takes-productivity-and-intelligence-on-mac-to-new-heights/
产业苹果全球开发者大会
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

暂无评论
暂无评论~