Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

OpenAI下周要有大动作,奥特曼在线剧透:不是GPT-5,不是搜索引擎

OpenAI 真是把大家的胃口吊足了,大家再忍忍就等到了。

OpenAI 有了新动向!

今日凌晨 OpenAI 官宣,将于美国时间 13 日上午 10 点进行一场直播。Sam Altman 随即转发这一消息,并表示「不是 gpt-5,不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西!我感觉这就像魔法一样。」

关于即将发布的内容,OpenAI 官方帖子提供的唯一细节是,此次发布将更新 ChatGPT 及其最新模型 GPT-4。
图片
OpenAI 员工程博文(Bowen Cheng)跟了个帖,「比 gpt-5 更酷」,不过又迅速删帖。
图片
OpenAI 的葫芦里到底卖的什么药?据 The information 报道,OpenAI 开发了一款 AI 语音助手,具有音频输入、音频输出功能和更好的推理能力,甚至在某些方面击败了 GPT-4 Turbo。该 AI 语音助手很可能就在周一的这场直播中公开亮相。
图片
不管怎样,OpenAI 此番举动着实吊足大众胃口。

OpenAI 计划推出 AI 语音助手

据 The information 报道,OpenAI 正在构建一款 AI 语音助手,它能通过声音和文本与人类对话,并能识别物体和图像。据两位接触过这项新 AI 的人士透露,ChatGPT 的开发者已经向一些客户展示了部分功能,这些功能在逻辑推理方面超越了其现有产品。

OpenAI 首席执行官 Sam Altman 的目标是最终开发出可高度响应的人工智能,类似于电影《她》(Her)中的虚拟助手,提升苹果 Siri 等现有语音助手的可用程度。一名知情人士表示,这个 AI 语音助手可能会在 OpenAI 周一的直播中公开亮相,赶在谷歌发布一系列 AI 产品之前抢得先机。

OpenAI 认为,具备视觉和音频能力的智能助手拥有与智能手机相媲美的变革性潜力。理论上它能够做到当前无法做到的事情,比如充当学生的家庭教师,辅助撰写论文或解决数学难题,或者翻译交通标识、指导解决汽车故障等。

不过,这类技术目前无法在个人设备上运行,用户可以在短期内使用基于云的版本来获取这些功能,如自动化服务 Agent。知情人士表示,新语音助手的音频功能可以帮助客服人员更好地理解来电者的语气。

OpenAI 已经推出具备音频转录、文本转语音等功能的软件,不过这些功能是基于独立的对话 AI 模型实现,而新的语音助手则将这些功能整合在一起,使其在图像和音频理解方面更胜一筹,并且速度更快。

目前尚不清楚 OpenAI 何时会将这些新功能提供给付费客户,但知情人士透露,这些功能将被纳入 ChatGPT 的免费版本中,旨在使其运行成本低于 GPT-4 Turbo。该人士还表示,AI 语音助手在回答某些类型的问题上表现优于 GPT-4 Turbo,但仍存在「幻觉」

对此 OpenAI 发言人未作回应。

OpenAI 可能会在今年年底发布 GPT-5

其实,利用 AI 开发强大的助手,谷歌早有此想法。去年 12 月,谷歌发布了一则 Gemini 的视频,它能够实时响应人的语音命令,并识别出人正在看的图像。然而,谷歌后来解释说,这些功能需要研究人员用图像和文本指令提示模型,而不是视频中演示的简单对话。而 OpenAI 推出语音助手主要为了「狙击」谷歌、苹果。

不得不说,OpenAI 上新的速度太快了。

除了即将发布的具有音频和视觉功能的模型外,OpenAI 一直计划推出 AI 搜索引擎,旨在与谷歌竞争。此外,OpenAI 还在开发一种被称为「计算机使用 Agent」的自动化软件,可以加速软件开发和其他基于计算机的任务。

更重要的是,GPT-5 也在马不停蹄地研发中。据一位与 OpenAI 领导层讨论过此事的人士表示,OpenAI 可能会在今年年底完成 GPT-5 并公开发布

OpenAI 还计划发布一个新的定价模型。据知情人士透露,如果客户预付费用来预订 tokens,他们可能会获得高达 50% 的折扣。目前,OpenAI 主要提供按需定价,每百万 tokens 的价格为几美分到 120 美元不等,一些较大的客户会获得批量折扣。今年 4 月 OpenAI 推出了 Batch API,该应用程序编程接口会提供更便宜的价格。

不过,OpenAI 在产品和 AI 模型开发上的迅猛势头也导致之前发布的一些项目备受「冷落」。例如,OpenAI 曾承诺,到今年第一季度,开发者就能通过为其商店构建定制聊天机器人来赚钱,但截至目前 OpenAI 也未兑现承诺。

苹果计划改造 Siri 来应战

OpenAI 的来势汹汹,让苹果有了危机感。

据报道,苹果公司计划将其虚拟助手 Siri 引入生成式 AI。知情人士透露,新的 Siri 将变得更加「对话化和多功能化」,并将采用生成式 AI 驱动的系统,使其能够总结短信内容并进行对话,而不仅仅是逐个回应问题。Siri 和苹果公司的其他 AI 产品预计将在 6 月 10 日的苹果年度开发者大会上亮相。

去年年初,苹果公司的高管们在把玩 OpenAI 的 ChatGPT 后,发现 Siri 相形见绌,于是决定对 Siri 进行升级。这也促使苹果进行了十多年来最重要的重组,以便在这场激烈的人工智能「军备竞赛」中迎头赶上。

但是,苹果并未选择发布一款与 ChatGPT 直接竞争的产品,而是决定提高 Siri 作为虚拟助手处理其已经能够完成的任务的能力。新 Siri 的宣传点在于它比其他 AI 工具更私密,因为用户请求将在 iPhone 上处理,而不是在数据中心。但是,这种做法也有其缺点,与大型 AI 系统相比,小型 AI 系统更容易产生幻觉。

苹果还计划在其新款 iPhone 中增加内存,以支持 Siri 的 AI 功能,并一直在与谷歌和 OpenAI 等竞争对手洽谈,旨在将最新的 AI 模型整合进下一代 iPhone 操作系统

据彭博社最新报道,苹果已接近与 OpenAI 达成协议,将在下一代 iPhone 操作系统 iOS 18 中使用 ChatGPT;与谷歌尚未达成协议,但谈判仍在进行中。

参考链接
https://x.com/amir/status/1789059948422590830
https://www.theinformation.com/articles/openai-develops-ai-voice-assistant-as-it-chases-google-apple
https://techcrunch.com/2024/05/10/openais-chatgpt-announcement-what-we-know-so-far/
https://www.businessinsider.com/apple-siri-generative-ai-improvements-iphone-report-2024-5
产业Sam AltmanOpenAI
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

推荐文章
暂无评论
暂无评论~