Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

OpenAI上线新功能太强了,服务器瞬间被挤爆

让 ChatGPT 服务器宕机,你参与了吗?

OpenAI 开发者日上新功能太火爆,服务器都挤爆了。

太平洋时间 11 月 8 日上午 6 点左右开始,ChatGPT 服务器宕机超过 90 分钟,用户访问会收到「ChatGPT 目前已满载(ChatGPT is at capacity right now)」的消息。

随后,OpenAI 接连发布两次「服务器中断」警告 —— 一次部分中断、一次全线中断,并称正在调查宕机原因,进行修复和监控。

图片

图片

最新状态显示:「ChatGPT 和 API 仍然会出现周期性中断。」

图片

OpenAI 表示这是一次严重的服务器中断,也影响了该公司的 API 服务。

OpenAI CEO Sam Altman 对此次中断表示抱歉,并在推特上说道:「我们在开发者日发布的新功能的使用情况远远超出了预期。我们原计划周一为所有订阅者启用 GPT,但仍未能实现。我们希望尽快。由于负载的原因,短期内可能会出现服务器不稳定的情况。」

图片

看来,开发者日上新功能的火爆程度是 Sam Altman 也没想到的。

在开发者大会上,OpenAI 宣布推出 GPT-4 Turbo、GPTs,让用户无需代码,结合自己的指令、外部知识和能力就可以创建自定义版本的 ChatGPT。

图片

ChatGPT 发布近一年,其每周用户数量已经达到 1 亿,并有超过 200 万开发人员在 OpenAI 的 API 服务上进行开发,用户增长速度惊人。如今,功能大上新更是直接把服务器挤爆了。

网友反应也很快:「ChatGPT 宕机了,我的工作怎么办?」

图片

图片

还有网友开玩笑称:「ChatGPT 崩溃了,Stack Overflow 开心了。」

图片

                                   图源:https://twitter.com/2sush/status/1722457364283232760

既然服务器宕机了,我们再仔细看看 OpenAI 开发者日的内容吧,或许有两项发布,大家没有给予太多的关注。

Whisper-V3、Consistency Decoder 的开源也很给力

OpenAI 的首届开发者大会,实属把大家都震撼到了。在这过去短短的 48 小时的时间里,大家更多的把目光集中在了新模型 GPT-4 Turbo 的发布、GPTs 商店等内容上,现在愣是把服务器整崩了。

然而,在这场发布会之后,很多人都忽视了 2 个开源模型,如果你深入了解一下,它们和那些新产品一样令人兴奋,现在,这两个项目都在 GitHub 热榜上。

第一个是 Whisper-V3,被公认为目前最好的 OSS 语音识别模型,新版相比 Whisper-V2 有了重大改进。OpenAI 于 2022 年 12 月发布第一代 Whisper,支持语音识别、语音翻译等能力。短短不到一年的时间,现在已经进化到 Whisper-V3,值得一提的是,OpenAI 表示不久将推出 API。

图片

项目地址:https://github.com/openai/whisper/

论文地址:https://arxiv.org/abs/2212.04356

 Whisper-V3(也称为 Large-v3)使用了 Large-v2 (Whisper-V2)收集的长达 100 万小时的弱标记音频和 400 万小时的伪标记音频进行训练而成。此外,相比前几代模型,Whisper-V3 在多种语言上显示出了较高的性能改进,下图为 Whisper-V3 在 Common Voice 15 和 Fleurs 上的性能表现:

图片

被大家忽略的另一个重点是 OpenAI 开源了一个专门改进 AI 图像生成的研究 Consistency Decoder ,这项研究来自论文《 Consistency Models 》,作者阵容非常强大,有本科毕业于清华大学数理基础科学班、目前在 OpenAI 担任研究员的宋飏,还有 OpenAI 联合创始人、首席科学家 Ilya Sutskever 等都出现在论文作者列表里。

与热门的图像生成模型 Midjourney 、Stable Diffusion 等不同,OpenAI 认为扩散模型依赖于迭代生成过程,导致采样速度缓慢,进而限制了它们在实时应用中的潜力。因而他们创造性的提出了 Consistency Models,这是一类新的生成模型,无需对抗训练即可快速获得高质量样本。

图片

  • 项目地址:https://github.com/openai/consistencydecoder

  • 论文地址:https://arxiv.org/pdf/2303.01469.pdf

下图我们可以很直观的看到,Consistency Decoder 效果更好,能增加图像生成的稳定性和一致性,让生成的图像更加清晰和连贯,例如下图中人物眼部细节提升更加明显:

图片

网友猜测,Consistency Decoder 就是 DALL・E 3 用到的解码器,以后生成惨不忍睹的人脸情况可能就不会发生了。

图片

宋飏也证明了网友的猜测,「非常高兴发布 DALL・E 3 的 consistency decoder,这是一种 consistency 模型,可以以惊人的速度将 VQGAN 潜在图像转换为质量更高的图像!」

图片

现在看来,OpenAI 的每一项发布都值得细细研究,这些技术都在各自的领域有着重要价值。

参考链接:

https://twitter.com/DrJimFan/status/1722281972641448426

产业Consistency DecoderWhisper-V3
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
图像转换技术

图像到图像的转换是从一个域获取图像并对其进行转换以使它们具有来自另一个域的图像的样式(或特征)的任务。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

QGAN技术

清华和中科大的研究者在 Science Advances 上发表论文《Quantum generative adversarial learning in a superconducting quantum circuit》,介绍了他们在超导量子电路上实现了第一个生成对抗学习的原理验证,即量子版本的 GAN。据介绍,实验中生成的单个 qubit 的平均保真度为 98.8%。

推荐文章
暂无评论
暂无评论~