Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

发完最后一篇论文,Stable Diffusion核心团队全要离职了

内部核心员工出走频繁,外部投资者不断丧失信心,成立于 2019 年的 AI 初创公司 Stability AI 还能推出伟大的产品吗?

离 Stable Diffusion 3 发布不到一个月,总部位于伦敦的 AI 初创公司 Stability AI 又被曝出了重大人事变动。

昨日,据 Sifted、福布斯等多家外媒报道,Stability AI 即将失去又一名主要技术负责人。

这次是研究科学家 Robin Rombach,他于 2022 年加入 Stability AI,是开发出文生图模型 Stable Diffusion 的两位主要作者之一。

从与 Stability AI 保持密切关系的两处消息源得知,Robin Rombach 即将辞去自己的科研负责人职位。

图片

在 NEXT 网站,Robin Rombach 的 title 依然是 Stability AI 研究科学家。

我们先来看下 Robin Rombach 的个人履历。

2013 至 2020 年,Robin Rombach 在海德堡大学学习物理学。2020 后,他开始攻读海德堡大学计算机视觉小组的计算机科学博士学位,导师为 Björn Ommer,并在 2021 年随研究小组转到慕尼黑大学。他的研究中心在于生成式深度学习模型尤其是文本到图像系统。

在攻读博士期间,Robin Rombach 在多个现在广泛应用的项目研发中发挥了重要作用,比如 VQGAN 和 Taming Transformers、潜在扩散模型(Latent Diffusion Models)。在 Stability AI 工作期间,他参与扩展潜在扩散方法,并发布了 Stable Diffusion 系列模型。他还是开源机器学习模型的支持者。

在 Google Scholar 网站上,Robin Rombach 参与论文《High-Resolution Image Synthesis With Latent Diffusion Models》已经收获了 6000 多引用。

图片

在给到 Sifted 的回应中,Stability AI 发言人表示,「我们感谢 Robin 对公司做出的贡献,祝愿他未来工作一切顺利。同时公司仍将专注于自身世界领先技术的商业化推广。」

「这听起来很像互联网泡沫破裂前的两年 —— 疯狂的估值和没有盈利模式。与此同时,那些价值极高的公司购买了 Sun Microsystems 服务器,就像没有明天一样。当比赛结束时,许多估值疯狂的公司的价值都归零,留下了大量的 Sun 硬件。此后不久,Sun 就开始了长时间的暴跌。」

还有人猜测:「如此多的人离开以及主要投资者从董事会辞职绝对是值得玩味的。我想知道是否有一些未公开的丑闻会爆发,因为这非常疯狂。」

图片

持续动荡,连损几员大将:CEO 的锅

据福布斯的爆料,此次即将离职的不只是科研负责人 Robin Rombach,还有其他两位研究员 Andreas Blattmann 和 Dominik Lorenz。在上周的一次全体员工会议上,Stability AI CEO Emad Mostaque 宣布了他们离职的消息。

Stability AI 的成功在很大程度上可以直接追溯到 Stable Diffusion 研究,该研究最初是慕尼黑大学和海德堡大学的一个学术项目。

即将离开 Stability AI 的 Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 是五位作者中的三位,前两位还是共同一作。他们做出了 Stable Diffusion 的核心研究,后来被 Stability AI 聘用。

图片

论文地址:https://arxiv.org/pdf/2112.10752.pdf

最初的研究论文发表 7 个月后,CEO Emad Mostaque 向学术界提供了公司的部分计算资源,用于进一步开发文本到图像模型,Stability AI 这家公司因此参与其中。

随着 Stable Diffusion 的病毒式传播,生成式 AI 热潮到来了,帮助 Mostaque 在推出后的几天内就从科技投资公司 Coatue 和 Lightspeed 获得了超过 1 亿美元的投资。他用其中一部分资金聘请了 Björn Ommer(指导了最初 Stable Diffusion 研究)的博士生 Rombach、Blattmann 和 Lorenz。

从那时起,他们的研究使 Stability AI 一直走在图像生成技术发展的前沿。

上个月,他们还帮助这家公司发布了 Stable Diffusion 3 模型,首次将早期版本中使用的扩散结构与 OpenAI ChatGPT 中使用的 Transformer 相结合,与 Sora 架构类似。

图片

不过,这种合作模式似乎为后来的争端埋下了雷,Björn Ommer 认为 Stability AI 在 2022 年 8 月推出 Stable Diffusion 时,在讲述自身对该模型的贡献上误导了公众(Stability AI 宣称他们与其他一些生成式 AI 组织「共同创建」了产品,但实际上,Stability AI 只是提供了计算支持)。

无论如何,对这家曾经炙手可热的 AI 初创公司来说,Robin Rombach 等人的离职是沉重的打击。一边是现金储备的减少,一边是筹集更多资金的徒劳,该公司的高管已经大批出走。

其实,在 Rombach 被曝出离职之前,Stability AI 的技术团队已经经历了 12 个月的动荡,更换了 CTO,并先后失去一名产品副总裁、一名工程副总裁、一名研发副总裁、一名研究主管和两名大语言模型主管。

与此同时,曾经对这家公司青睐有加的投资机构们,也正四散离去。

据彭博社报道,投资公司 Coatue 辞去了董事会职务,Lightspeed 也在 2023 年 10 月辞去了 Stability AI 的董事会观察员席位。

此前就有报道称,Stability AI 创始人兼 CEO Emad Mostaque 惯于夸大事实,令投资者对该公司业绩真实性存疑。

图片

                              图源:Scale AI

比如,投资机构 Coatue 曾要求过 Mostaque 辞去 CEO 一职,并推动公司出售。不过,一位 Stability AI 发言人告诉彭博社:「我们 CEO 的领导和管理对 Stability AI 的成功起到了至关重要的作用,公司并不打算出售。」

此外,福布斯此前报道称,Stability AI 一直在努力支付工资和工资税,Mostaque 及其妻子与公司财务之间的界限模糊不清。云计算提供商 AWS 曾一度威胁要因未支付账单而取消访问权,但 StabilityAI 否认了因逾期付款而限制访问这件事。

在财务上,Stability AI 还面临着一项重大支出,那就是为自己辩护,应对 Getty Images 以及美国和英国艺术家们提起的版权侵权诉讼。

在数据来源上,Stability AI 似乎也在碰壁。本月早些时候,竞争对手公司 Midjourney 封禁了 Stability AI 的所有员工账户,指责其恶意爬取数据,导致服务器瘫痪 24 小时。Midjourney 表示将禁止 Stability AI 的所有员工以及任何使用「激进自动化」来抓取提示信息的人使用该服务。Mostaque 在推特上的回复是,该起事件并非蓄意而为,而且是一名员工的个人项目。

「最后的论文」

就在前几天,Robin Rombach 还在宣传自己团队的新研究,将 Stable Diffusion 3 中的扩散 transformer 转变成一个判别器,并将蒸馏移动到潜在空间,从而得到了 SD3-Turbo,只需要无指导的四步就能实现 Stable Diffusion 3 的图像质量。

图片

论文标题为《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》。

图片

论文地址:https://arxiv.org/pdf/2403.12015.pdf

我们都知道,扩散模型是图像和视频合成技术进步的主要推动力,但其推理速度较慢。一些蒸馏方法,如最近推出的对抗扩散蒸馏法(ADD),旨在将模型从多步推理转变为单步推理。

一般来说,与大型语言模型和扩散模型相比,目前的对抗模型并不严格遵守缩放法则,稳定的训练方法通常需要大量的超参数调整。事实上,之前对 GAN 的缩放尝试导致生成器缩放时收益递减。更令人惊讶的是,较小的判别特征网络往往比较大的网络具有更好的性能。这些非直观的特性是 GAN 的一个重大缺陷:遵循缩放法则的模型可提供可预测的性能改进,从而实现更具战略性和成本效益的缩放,最终实现更好的模型开发。

Stability AI 这项工作提出了潜在对抗扩散蒸馏法(LADD),可以对预训练的扩散 Transformer 模型进行稳定、可扩展的对抗蒸馏,最高可达百万像素级别。团队没有利用 DINOv2 等自监督特征网络的判别特征,而是利用预训练扩散模型的生成特征。这种方法在直接实现多视角训练的同时,还提供了一种控制判别特征的自然方法:通过在训练过程中对噪声水平进行有针对性的采样,可以将判别特征偏向于更全局(高噪声水平)或局部(低噪声水平)的行为。此外,在潜在空间中进行提炼可以充分利用大型的学生和教师网络,避免昂贵的像素空间解码步骤,从而实现高分辨率图像合成。因此,与 ADD 相比,LADD 的训练设置要简单得多,同时性能也优于之前所有的单步方法。

团队将 LADD 应用于当前最先进的文本到图像模型 Stable Diffusion 3,得到了 SD3-Turbo,这是一种多视角百万像素生成器,只需四个采样步骤就能达到其教师的图像质量。

这项工作的核心贡献包括:

  • SD3-Turbo,一种快速基础模型,支持根据文本提示生成高分辨率多方面图像,如图 1 和图 2;

图片

图片

  • 大大简化了蒸馏公式,效果优于 LADD 的前身 ADD,并对 LADD 的缩放行为进行了系统研究;

  • 通过两个示例应用:图像编辑和图像修复,展示了新方法的多功能性。

以下为图像编辑能力对比:

图片

以下为图像修复能力对比:

图片

更多技术细节和实验结果请参阅原论文。

参考链接:

https://sifted.eu/articles/stability-ai-rombach-news

https://www.forbes.com/sites/iainmartin/2024/03/20/key-stable-diffusion-researchers-leave-stability-ai-as-company-flounders/?ss=ai&sh=798428b12ed6

产业Robin RombachStability AI
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

QGAN技术

清华和中科大的研究者在 Science Advances 上发表论文《Quantum generative adversarial learning in a superconducting quantum circuit》,介绍了他们在超导量子电路上实现了第一个生成对抗学习的原理验证,即量子版本的 GAN。据介绍,实验中生成的单个 qubit 的平均保真度为 98.8%。

图像修复技术

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

Sun Microsystems机构
相关技术
推荐文章
暂无评论
暂无评论~