Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

BCG联手哈佛,史无前例验证GPT-4是把双刃剑,OpenAI总裁转发

机器之能报道

编辑:吴昕

图片

比尔·盖茨说 GenAI 将彻底变革人类知识工作,但终归是一个预测。

经验层面,没有人真正了解最先进的大型语言模型(如 GPT-4)的全部功能。没有人真正知道使用它们的最佳方法,或者它们在什么条件下会失败。我们手里没有使用手册。

在某些任务上,GenAI 非常强大,但在其他任务上又会或完全或微妙地失败。除非经常使用 GenAI,否则你都搞不清楚自己遇到的到底是哪种情况。

最近,OpenAI 总裁 Greg Brockman 转发了一项被顶尖咨询公司波士顿咨询集团( BCG )称为「史无前例」的实证研究,从经验层面证实了 GPT-4 对人类知识工作的真正影响。

「很多人一直在问 AI 是否真的对未来工作很重要。有篇新论文强烈表明答案是肯定的。」他写道。

图片

Greg Brockman 转发的是一篇发表在 SSRN 上的工作论文 Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality ,由一支多学科的科研团队撰写,包括来自顶尖商学院的教授,比如宾夕法尼亚大学沃顿商学院、哈佛大学商学院、华威大学商学院以及 MIT 斯隆管理学院等。

研究团队调研采访了顶尖咨询公司波士顿咨询集团( BCG )的 758 名咨询顾问(约占集团咨询人员总数的 7%),试图找到 GPT-4 这类大型语言模型如何影响复杂、知识密集型任务表现的真凭实据。

结果发现,使用 GPT-4 的咨询师的业绩在各个维度(数量、速度和质量)上,都比没有使用工具的咨询师的表现好得多。

图片
仍然是一篇新的工作论文,因此可能存在错误或错误并且该论文尚未经过同行评审,发表在了SSRN。

论文作者之一沃顿商学院教授 Ethan Molick 也在自己的博客上介绍了这篇研究。

参与者被分为两组:一小组被要求想象他们在一家鞋业公司工作,他们的经理要求他们开发一种新产品并在会议上展示。该小组的参与者还被要求完成其他几项行动,包括列出从推介到发布的步骤列表、创建营销口号以及撰写一篇 2,500 字的文章,描述开发鞋子的端到端流程和经验教训。

不难看出,无论是产品构思(「针对服务不足的市场或运动提出至少 10 个新鞋创意。」)、分析(「根据用户细分鞋类行业市场。」)还是写作和营销任务(「起草一份新闻稿发布你的产品的营销文案。」)等,都属于 GPT-4 能力范围内的任务。

而另一组则被要求解决业务问题,任务被设计得足够复杂,以至于 GPT-4 在解决它时会出错,因此它显然超出了 GPT-4 的能力边界。

在这两组中,研究参与者被分为三种情况:无法使用 AI、可以使用 GPT-4 AI 以及可以使用 GPT-4 AI 并了解如何使用 GPT。

一、能力边界之内


研究发现,针对「 GPT-4 能力范围内」的咨询业务,使用了 GPT-4 的组别工作表现显著提高(平均完成的任务多了 12.2%,完成任务的速度提高了 25.1%),完成质量也更高(与对照组相比,质量提高了 40% 以上)。作者指出,GPT-4 工具的影响非常显著。

图片蓝色组表示没有使用GPT-4 ,绿色组和红色组均使用GenAI,其中红色组接受了一些关于如何使用GenAI的额外培训。三组成员在具体咨询任务中的表现结果就像三颗牙齿,对比强烈。

从上述效果图来看,使用 GPT-4 与否(蓝色牙齿代表没有使用、绿色和红色的牙齿部分代表使用)在最终效果呈现上,如同三颗牙齿,参差不齐,Ethan Molick 称之为 GenAI 的「锯齿状前沿」。

图片
虚线代表同等难度的咨询任务,蓝色线条代表AI的能力边界,在这条边界内的任务,AI可以完成的很好;落在蓝色之外的任务,AI 就力所不逮了。不过,蓝色曲线本身也是变化不居的,例如,当 GPT-4 在 3 月份首次发布时,它非常擅长正确识别素数,准确率高达 98%。但到了 7 月,仅仅几个月后, 同样的测试得出的准确率只有 2%。

这也是研究人员第一次清楚勾勒出 GenAI 能力边界(上图蓝色曲线)——落在这条曲线(边界)内的任务,都是 GPT-4 擅长并能辅助人类做得更好的;面对边界之外的任务,GPT-4 爱莫能助。

这一发现也是这篇研究的重要贡献之一。在此之前,人们对这道边界的感知还是混沌的或者说是主观想象的。

比如,同样是创作诗歌,GPT-4 可以写出不错的十四行诗(类似莎士比亚十四行诗)但却无法创作一首好的 50 个字的诗歌,为什么?现在清楚了——两个任务看似差不多,却正好落在边界的不同两侧——前者在能力边界之内,后者在边界之外。

这也解释了一些意想不到的任务 (如创意生成)对 GenAI 来说很容易,而诸如数学这类任务却构成挑战。

Ethan Molick 总结说,发现拥有 GPT-4 顾问的表现明显更好,无论我们是否首先向他们简要介绍 GenAI(图中的红色部分)。而且,每个纬度的表现——时间、数量和质量——都是如此。

有趣的是,研究人员还使用人类和 AI 两个评分系统对任务质量进行评分,结果「英雄所见略同」(如下面两个图所示)。

图片总共有54条线,因为有 18个咨询任务,每个任务又分别对应3个回归模型:使用AI(绿色)、未使用(蓝色)、使用而且获得了培训(红色)。Y轴记录了相应得分(人类根据具体效果打分),可以清楚看到红色的优势。

图片和上图的区别在于,这里任务表现评分是机器人打的。

除了上述内容,研究人员还发现了一些其他有趣的东西,比如 GPT-4 还起到了技能水平调节器的作用。

当评估得分最差的顾问开始使用 GPT-4 时,他们的表现提升幅度最大,达到 43%。得分高于平均水平的优秀顾问在使用工具后,表现仍然有所提升,只不过增幅不是很大。总体而言,GPT-4 可以增强不同水平的顾问的业务表现。

图片绿色的条形图报告他们在评估任务中的表现,而蓝色的条形图表示他们在实验任务中的表现。y轴表示平均值分数(1-10分)。当评估得分最差的顾问开始使用GenAI时,他们的表现涨幅最大,达到 43%。评估得分高于平均水平的顾问,在使用AI工具后,表现仍然有所提升,当然幅度并没有那么大。

Ethan Molick 认为,还没有足够多的人考虑过,当一项技术能将所有员工业务表现提升到顶尖水平时将意味着什么。

「这可能就像过去矿工采掘矿石,能力和水平有高有低,直到蒸汽铲诞生,一举抹平个人能力上的差异。AI 虽然还没有到那种程度,但提升知识生产者整体业务水平将产生重大影响。」

二、能力边界之外


接下来移步 GenAI 能力边界之外,又会发生什么呢?

为此,BCG 精心设计了一项任务,以确保 GenAI 无法得出正确答案。这个设计并不容易,正如论文中所说,「很难在前沿边界之外的实验中设计一项任务,让人类始终胜过 AI。」

不过,他们还是确定了一项利用 AI 盲点的任务。三组被试被要求想象在一家拥有三个品牌的公司工作,手上也有虚构公司的财务数据和采访记录,他们的任务是向公司CEO 写一份 500 到 750 字的备忘录,向老板解释应该投资哪些品牌来增加收入,并建议 CEO 采取创新行动来改进所选品牌。

结果,没有工具帮助的人类顾问在 84% 的情况下解决了问题,使用 AI 的顾问的表现却更糟——只有60-70% 的情况下解决问题。使用 GPT-4 的参与者的表现明显比对照组差——约 23%。

GPT-4 不仅不能帮助人类完成这项任务,而且实际上会严重损害人类的表现,这又是一个重大发现。

图片此图显示边界外任务的平均表现。红组反而倒数第一,之前倒数的蓝组反而成了第一。这与甩手掌柜情况有关。


那么,到底发生了什么?

Ethan Molick 提到了一篇研究过分依赖 AI 结果适得其反的研究 Falling Asleep at the Wheel: Human/AI Collaboration in a Field Experiment on HR Recruiters 。该研究发现,使用高质量 AI 的招聘人员变得懒惰、粗心,而且判断能力也较差。与使用低质量 AI 或者不用 AI 的招聘人员相比,他们错过了一些优秀的申请人,并做出了更糟糕的决定。

论文称,当 AI 非常优秀的时候,人类会关闭大脑并遵循 AI 的建议,而这更有可能是错误的。

Ethan Molick 指出,针对落在 GenAI 边界之外的任务,咨询顾问也乐得「甩手掌柜」,也会导致类似的后果——事实上,那些使用 GPT-4 的顾问比那些不允许使用 GPT-4 顾问得到的答案更不准确(但他们仍然比不使用 GenAI 的顾问做得更好)。

这表明,高技能脑力劳动者仍然需要继续验证 AI,发挥「在使用 AI 时的认知努力和专家判断」,而不是盲目地采用 AI 输出。

三、半人马和赛博格


综上,如果要像试验中的许多顾问在前沿内、外任务上都做得很好——避免 AI 陷阱,又充分发挥了其所长——就要注意 GenAI 能力边界,「知人善用」。

在能力边界内,人类给 GenAI 带来的价值非常小,但在能力边界外,人类在没有 GenAI 的情况下工作可以提高性能。

这份研究表明,在人类与 GenAI 融合的一系列过程中,人类成功使用 GenAI 的方式出现了两种独特的模式。

一组顾问充当「半人马」,就像神话中的半马/半人生物一样,将他们的解决方案创建活动划分并委托给 GenAI 或他们自己。比如,你将决定采用什么统计技术,然后让 GenAI 处理生成图表。

在这份 BCG 的研究中,针对 GenAI 非常擅长的任务中,需要最少的人类参与。半人马会做他们最擅长的工作,然后将锯齿状边界内的任务交给 GenAI 。

图片

另一组顾问的行为更像是「赛博格(半机器人)」,将他们的任务流程与 GenAI 完全集成,并不断与技术交互。你不只是委派任务,而是将自己的努力与 GenAI 交织在一起,在锯齿状的边界上来回移动。

使用 AI 起草文档就是一个典型例子,先启动一个句子让 GenAI 完成,这样你就会发现自己在与 GenAI 协同工作。

四、在前沿边界上起舞


无论关于 GenAI 的本质和未来的哲学之争进展如何,技术本身已经对我们的实际工作方式产生了强大的颠覆性。这不是一项需要打着「五年内改变世界、需要大量投资」的旗号大肆宣传的新技术——它就在这里,现在。

精英顾问用来增强工作的工具,和每位正在阅读这篇博文的读者的工具,完全相同。他们使用的工具很快就会比你可以使用的工具差得多,因为技术前沿不仅是锯齿状,而且在不断扩大。明年至少有两家公司会发布比 GPT-4 更强大的模型,我对此很有信心。锯齿状的前沿正在往前推进,我们必须为此做好准备。

即使撇开这种说法可能引起的任何焦虑,也要注意 GenAI 的缺点。人们在使用 AI 时,可能真的会「甩手掌柜」,没有注意到它的错误。而且,与其他研究一样,我们还发现,GenAI 的输出虽然质量高于人类,但在总体上也有同质化倾向。这就是为什么半机械人和半人马的合作方式很重要——它们允许人类与 GenAI 合作,产生比单独依靠任何一方更多样、更好、更正确的结果。成为其中一员并不难,只要在工作任务中使用足够多的 GenAI,你就会开始看到这条锯齿状边界,并开始了解它们在哪些方面好到可怕......以及它的不足之处。

在我看来,问题不再是 GenAI 是否会重塑工作,而是我们想要它意味着什么。我们可以选择如何使用 GenAI 来帮助使工作更有效率、更有趣、更有意义。但我们必须尽快做出这些选择,这样我们才能开始以合乎道德和有价值的方式积极使用它,就像机器人和半人马一样,而不仅仅被动地对技术变革做出反应。与此同时,这条锯齿状的前沿也总是变动不居,不断开疆扩土。

论文传送门:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321

参考链接

https://www.bcg.com/publications/2023/how-people-create-and-destroy-value-with-gen-aihttps://www.oneusefulthing.org/p/centaurs-and-cyborgs-on-the-jaggedhttps://fortune.com/2023/10/06/generative-ai-chatgpt-collaboration-bcg/https://mitsloan.mit.edu/ideas-made-to-matter/how-generative-ai-can-boost-highly-skilled-workers-productivity

产业GenAI比尔·盖茨
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

知人善用机构

北京知人善用信息技术有限公司是全球视野的知识产权科技新媒体。公司报道国内外最新知识产权产业动态,关注明星公司、上市公司及成长型,创业公司的知识产权情报分析。

http://www.iprdaily.cn
暂无评论
暂无评论~