Frederik Bussler作者陈丹、林亦霖校对于腾凯 编辑方星轩翻译

最新的AI会“杀死”编码吗?

本文围绕GPT 等AI技术是否将取代编码工作进行探讨,作者给出了自己的意见和看法。

(照片来自Scott Rodgerson)

现在,AI可以使用任何语言进行编码,而无需额外的培训。
 
2017年,有研究人员问:人工智能能否在2040年之前编写出大多数代码?测试人员现在正在使用OpenAI的GPT-3已经可以使用任何语言进行编码。机器主导的编码几乎就差临门一脚了。
 
GPT-3接受了数千亿个单词的训练,或者说基本上整个互联网都参与了训练,这就是为什么它可以使用CSS,JSX,Python等任何你能说出名字的语言进行编码的原因。

此外,GPT-3无需对各种语言任务进行“训练”,因为其训练数据包罗万象。相反,当你给出琐碎的指令时,网络会被手头上的任务限制住。
 
GPT-n的演变
 
GPT通过将有监督学习与无监督的预训练相结合(或将无监督步骤的参数用作有监督步骤的起点),实现了语言任务的最先进水平。与下一代相比,GPT很小。它仅利用了一台8CPU机器在几千本书上进行训练。
 
GPT-2极大地扩展了内容,包含10倍的参数,并加入了10倍以上的训练数据。尽管如此,该数据集还是相对有限的,它专门使用“至少运用了3个karma的Reddit出站链接”进行训练。GPT-2被描述为一个“类似变色龙”的合成文本生成器,但在诸如回答问题,总结或翻译之类的下游任务中并不是最先进的。

(照片来自Hans-Jurgen Mager)GPT-3是AI世界中最新,最强大的工具,它在一系列任务中达到了最先进的水平。它的主要突破是消除了针对特定任务微调的需求。在大小方面,该模型再次大幅扩展,达到了1,750亿个参数,是其前身规模的116倍。

然而,GPT-3完全不需要训练(零次学习的例子),单次学习或多次学习会使它丧失原本优秀的性能。
 
进化还是死亡
 
情况是这样:测试人员正在使用GPT-3来生成能掌握必要繁琐知识的有效代码从按钮到数据表,甚至重新创建Google主页。这些示例都是通过零样本学习完成的。
 
除了AI的飞速发展外,另外两个主要的技术趋势也使编程工作在未来不稳定的现实变得更为严峻:无代码和AutoML。
 
无代码是指可视化工具,使任何人都可以轻松构建新产品,无论是网站,设计,数据分析还是模型。WordPress,Wix和Shopify是无代码工具的典范,它使数以百万计的人能够自己做事,而不必雇用开发人员或设计师。
 
第二个趋势是AutoML,即自动机器学习,它大大缩短了将AI投入生产的时间。
 
诸如Apteo之类的工具结合了这些趋势,使任何人都可以部署AI模型而无需任何编码技能。
 
GPT-3将引发另一波无代码和AutoML工具的浪潮。许多潜在的雇主会选择这些工具,而不是雇用昂贵的程序员。
 
自然地,技能最差的程序员将是最先离开的人群,而专家将享有更长的工作安全性-与任何领域一样。
 
不仅仅是代码— GPT-3适用于任何语言任务
 
要将GPT-3定向到特定的语言任务,只需简单地把你希望实现的示例提供给它。因此,您可以指导GPT-3编写代码,也可以指导它编写诗歌,音乐,社交媒体评论或任何其他文本。
 
例如,如果您要生成新闻文章,则可以输入诸如“美国卫理公会同意历史性分裂”之类的标题,以及诸如“反对同性婚姻的人将构成自己的宗派”之类的副标题。
 
输入这些,GPT-3产生以下结果:
 
“经过两天的激烈辩论,卫理公会联合会达成了历史性的分裂-预期将以新教派的创建而告终,根据《华盛顿邮报》的说法,该教派将是“神学上和社会上的保守派”。参加5月教堂年度大会的大多数代表投票表决,加强了对LGBTQ神职人员排序的禁令,并制定了新规则,将“纪律”主持同性婚礼的神职人员。但是那些反对这些措施的人有一个新计划:他们说到2020年他们将组成一个单独的教派,称他们的教会为基督教卫理公会派教徒……”
 
只有12%的人类正确地指出这是由AI编写的。88%被骗了。
 
就像人类一样,GPT-3可以仅通过一个例子就学会新单词。例如,给定上下文:
 
“ Burringo”是具有非常快的加速度的汽车。一个使用Burringo单词的句子的示例是:

GPT-3输出:
 
在我们的车库中,有一个父亲每天开车去工作的Burringo。
 
这些结果令人激动。请记住,人工智能的发展必然的,因此对当前性能的任何批评都将化为乌有。
 
不仅仅是语言— GPT应用于图像
 
GPT可以编写代码,或者可以编写任何东西,但是它也可以生成图像。
 
这怎么可能?
 
可以在像素序列而不是文本编码上训练相同的模型体系结构,从而生成新的图像而不是新的文本。实际上,它在这方面如此出色以至于可以与顶级CNN竞争。
 
我之所以提及这一点,是因为它表明GPT(及下一代)不仅具有某一天取代编码器的潜力,而且鉴于其通用性,还可以取代整个行业。
 
结论
 
GPT-3令人难以置信的性能已经使许多人相信超级智能比我们想象的要近,或者至少,人工智能生成代码比我们想象的要近。它会产生创造性的、有见地的、深刻甚至美丽的内容。有关GPT-3的更多创造性示例(并且如果您需要更相信它的强大,请查看Gwern的这篇文章):

https://www.gwern.net/GPT-3#effective-prompt-programming

原本标题:

Will The Latest AI Kill Coding?

原文链接:

https://towardsdatascience.com/will-gpt-3-kill-coding-630e4518c04d

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

产业自动化编程
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

零样本学习技术

从仅仅一个或一小撮样本中学习一个新的概念,而普通的机器学习标准算法通常需要几十或几百个表现类似的样本。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

推荐文章
暂无评论
暂无评论~