Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

泽南、张倩报道

出卖灵魂:OpenAI十亿美元卖身微软之后,通用人工智能还有希望吗

在GPT-3开源已经成为一个梗之后,OpenAI联合微软推出了Codex,又引来更大的争议。

当金钱砸来时,你是否还能坚持初心?

OpenAI 成立于 2015 年,是一家非营利性研究机构,它的愿景是构建出安全、对人类有益的通用人工智能(AGI),由伊隆 · 马斯克、Sam Altman 等人宣布出资 10 亿美元成立。

然而到了 2019 年,OpenAI 转变成了一家名为 OpenAI LP 的营利性公司,由名为 OpenAI Inc 的母公司控制。此时的 OpenAI 是一种「利润上限」结构,将投资回报限制在原始金额的 100 倍。如果你投资 1000 万美元,最多你会得到 10 亿美元。看起来回报率不错。

改变几个月后,微软宣布注资 10 亿美元。正如我们在 GPT-3 和 Codex 上看到的那样,OpenAI 与微软的合作伙伴关系意味着允许后者将部分技术商业化。

在科技领域中,OpenAI 是引领人类走向美好未来的最大希望之一,如今却被成本和算力的需求打回了现实。我们还能相信它将会带领我们找到真正的人工智能吗?

AI Lab,盈利优先

首先,OpenAI 是一个人工智能研究实验室,它的雄心和自身所拥有的资源相比天差地别。在 GPT-3 论文横空出世之后,外界的一个流行围观方式就是帮他们算成本,据估计 OpenAI 训练 GPT-3 耗费了 1200 万美元——仅仅是训练。如果没有要求后期更大回报的金主,这家公司如何可以写一篇论文就花这么多钱?所以当 OpenAI 需要投资的时候,他们和拥有云服务的微软形成了合作。至于代价,就是一种未公开的,将其系统商业化的晦涩许可。

MIT Technology Review 记者 Karen Hao 的一篇调查文章披露了 OpenAI 口是心非的地方,为什么一家以确保所有人拥有更美好未来为愿景的公司突然决定为「stay relevant」吸收大量私有资金?从非盈利到盈利的转变引发了公众甚至公司内部的强烈批评。

艾伦人工智能研究所负责人 Oren Etzioni 表达了怀疑的态度:「我不同意非盈利组织无法具备竞争力的观点…… 如果规模更大、资金更充裕就能做得更好,那么今天 IBM 仍将是世界第一。」

曾为 Vice News 撰稿的 Caroline Haskins 则不相信 OpenAI 仍会忠于它的使命:「人类从未因为依靠风投机构而变得更好。」

从技术角度来看,OpenAI 当前的研究方向是更大的神经网络,这就需要更大的算力和巨量数据。只有比肩科技巨头的投入才能在这条道路上走下去。但正如 Etzioni 所说的,这并不是在 AI 领域里实现最先进成果的唯一途径,有时你需要创造性地思考新的想法,而不能只想着大力出奇迹。

OpenAI 是如何把路走窄的

GPT-2、GPT-3「危险」语言生成器

在 2019 年初,已是一家盈利公司的 OpenAI 推出了 GPT-2,这是一种强大的语言生成模型,能够生成接近人类的自然语言文本。研究人员认为 GPT-2 在当时是一个巨大的飞跃,但太危险所以不能开源出来。工程师们担心 GPT-2 会被用来生成假新闻、垃圾信息和误导信息。但在不久之后,OpenAI 又认为不存在明显被滥用的证据,因而将其开源出来。

罗格斯大学教授 Britt Paris 表示:「这看起来就像是 OpenAI 在利用围绕人工智能的恐慌。」有不少人把 GPT-2 的报道视为一种宣传策略,他们认为该系统其实并不像 OpenAI 声称的那样强大。从营销的角度来看这确实可以吸引注意力,但 OpenAI 否认了这些指控。

如果 GPT-2 没有 OpenAI 宣称的那么强大,那为什么要让它看起来比实际更危险呢?如果它真的性能强大,为什么仅仅因为「没有发现被滥用的有力证据」而完全开源?无论如何,OpenAI 似乎都没有遵循自己的道德标准。

2020 年 6 月,GPT-3 的论文被传上了 arXiv,随后以 API 的形式向外界提供。OpenAI 似乎认为这个比 GPT-2 大 100 倍,更强大的新系统足够安全,可以与世界分享。他们设置条款逐个审查每个访问请求,但他们仍然无法控制系统最终用于什么目的。

他们甚至承认 GPT-3 若落入坏人之手可能发生一些问题,从误导性信息、垃圾邮件、网络钓鱼、滥用法律、政府内容,到学术欺诈、社会工程,再到性别、种族和宗教偏见。

他们认识到了这些问题,但仍然决定让用户付费测试。为什么要通过 API 发布它而不是开源模型?OpenAI 回答说,这是为他们正在进行的人工智能研究、安全和政策努力提供资金。

所以总结一下就是:负责保护我们免受有害 AI 伤害的公司决定让人们使用一个能够制造虚假信息和危险偏见的系统,这样他们就可以负担昂贵的维护费用。看起来这并不是什么「对所有人有益的价值」。

因此,社交网络上出现 GPT-3 有害的讨论就是顺理成章的了。Facebook 人工智能负责人 Jerome Pesenti 写了一条推文,他举了一个例子

在一项利用 GPT-3 独特性的尝试中,加州大学伯克利分校的学生 Liam Porr 让系统写了一篇关于生产力的文章,并将其分享了出来(但没说是 AI 生成的)。这篇文章骗过了很多人,甚至登上了 Hacker News 的榜首。试想,如果像他这样没有恶意的学生都能够用 AI 写的文章骗过所有人,一群怀有恶意的人会用它做什么?比如传播假新闻?

Liam Porr 的文章。链接 https://adolos.substack.com/p/feeling-unproductive-maybe-you-should

「在检测 GPT-3 175B 生成的长文章时,人类的平均准确率仅略高于 52%。这表明,对于 500 字左右的新闻,GPT-3 能够持续生成以假乱真的作品。」

Codex、Copilot 侵权风波

前段时间,GitHub、微软和 OpenAI 发布了 Copilot,这是一个由 Codex 提供支持的 AI 系统,可以自动生成代码。然而,Copilot 的出现遭到了强烈的批评,因为它是盲目使用来自公共 GitHub 库的开源代码进行训练的。

有位网友指出了一些问题
AI 生成的代码究竟属于我还是属于 GitHub?
生成的代码适用于哪种许可证?
如果生成的代码成为侵权的理由,谁该为此受罚?
在推特上,一位开发者分享了一个 Copilot 剽窃一整块有版权的代码的例子:

Copilot 原样复制了《雷神之锤》里的经典代码,连吐槽注释也没落下。

有网友在底下回帖说,「我们有 Copilot 直接复制 GPL 整块代码的证据,这说明在商业环境中,Copilot 是一个非常危险的工具。」

再深入一点,即使 Copilot 没有逐词复制代码,这里也有一个道德问题:GitHub 或 OpenAI 这些公司借助数千名开发者写出的开源代码训练这些系统,然后再向同一批开发者售卖这些系统,这合适吗? 

对此,程序员兼游戏设计师 Evelyn Woods 表示,「感觉这像在嘲笑开源。」

我们应该把希望寄托于 OpenAI 吗?

OpenAI 现在的真实愿景到底是什么?他们是不是与微软紧密相连,以至于忘记了自己「为人类进步」而奋斗的初衷?还是说他们真的以为自己拥有最好的工具和头脑来践行这条路线,即使将灵魂出卖给一个大型科技公司也在所不惜?我们是否真的愿意让 OpenAI 按照它的愿景来构建未来?还是说我们希望我们的愿景更加多样化,并将其与经济利益分离?

OpenAI 正带领大家走向更加复杂的人工智能,但还有很多和大公司没有金钱关系的机构在做相同的事情。他们可能不喜欢舒服地躺在钱堆里,因此我们有理由更加关注他们所做的工作。

最终,大型科技公司的首要任务不是满足所谓的科学好奇心,探索通用人工智能,也不是构建最安全、最负责、最道德的 AI,而是赚钱。他们会不惜一切做到这一点,即使这意味要走上一条模糊的道路,而我们大多数人都会避开这一道路。

OpenAI 的联合创始人马斯克甚至也认同这些批评:

马斯克:我觉得 OpenAI 应该再开放一点。

OpenAI 的人不应该忘记,他们不能为了达到目的不择手段。这些手段可能会损害更高的目的。

我们想要 AGI 吗?从科学的角度来看,答案不可能是否定的。人们对于科学的好奇心是没有极限的,然而,我们应该时刻评估潜在的危险。核聚变是非凡的,但核弹不是。

我们想不惜一切代价实现 AGI 吗?从道德的角度来看,答案不可能是肯定的。这些快速发展的技术将对我们所有人产生影响,所以我们应该注意到这个问题。

或早或晚,那些只关注眼前利益的人终将为后果承担重要责任。

参考内容:
https://www.reddit.com/r/MachineLearning/comments/pizllt/d_how_openai_sold_its_soul_for_1_billion_the/
https://onezero.medium.com/openai-sold-its-soul-for-1-billion-cf35ff9e8cd4
产业初心微软OpenAI
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

暂无评论
暂无评论~