Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张倩报道

ChatGPT的狂欢背后:短板犹在,启发甚多,2023有这些事可以做……

2022 年的最后一个月,OpenAI 用一个爆款对话机器人 ——ChatGPT 回应了人们一整年的期待,尽管它并不是大家期盼已久的 GPT-4。

用过 ChatGPT 的人都能体会到,它是一个真正的「六边形战士」:不仅能拿来聊天、搜索、做翻译,还能写故事写代码、debug,甚至开发小游戏、参加美国高考…… 有人戏称,从此以后人工智能模型只有两类 —— ChatGPT 和其他。

图片

图源:https://twitter.com/Tisoga/status/1599347662888882177

由于能力过于惊艳,ChatGPT 仅上线 5 天就吸引了 100 万用户。很多人大胆预测,照这个趋势发展下去,ChatGPT 很快就能取代 Google 等搜索引擎和 Stack Overflow 等编程问答社区了。

图源:https://twitter.com/whoiskatrin/status/1600421531212865536

不过, ChatGPT 生成的答案有很多是错的,而且不仔细看都看不出来,这会造成问题回答鱼目混珠的情况。这种「很强大但也很容易出错」的属性给了外界很大的讨论空间,大家都想知道:

  • ChatGPT 的这种强大能力是哪里来的?
  • ChatGPT 还有哪些短板?
  • 未来它会取代搜索引擎吗?
  • 它的出现给我们的 AI 研究带来了哪些启发?

在小红书技术团队举办的第六期「REDtech 来了」技术直播中,NLP 领域专家、加州大学圣巴巴拉分校助理教授李磊与小红书技术副总裁张雷以及小红书社区部多媒体智能算法负责人张德兵展开了对谈,就 ChatGPT 的热门问题进行了交流和解答。

李磊,本科毕业于上海交通大学计算机系(ACM 班),博士毕业于卡耐基梅隆大学计算机系。曾先后任加州大学伯克利分校博士后研究员、百度美国深度学习实验室少帅科学家、字节跳动人工智能实验室高级总监。

2017 年,李磊在 AI 写作机器人 Xiaomingbot 上所做的工作获得了吴文俊人工智能技术发明二等奖。Xiaomingbot 也具有强大的内容理解和文本创作能力,能流畅地进行体育赛事的播报和财经新闻的写作。

李磊的主要研究方向是机器学习数据挖掘自然语言处理。在机器学习数据挖掘自然语言处理领域于国际顶级学术会议发表论文 100 余篇,拥有二十余项技术发明专利。曾获得过 2012 年美国计算机学会 SIGKDD 最佳博士论文第二名、2017 年 CCF 杰出演讲者、2019 年 CCF 青竹奖、以及 2021 ACL 最佳论文奖。

张雷,小红书技术副总裁,毕业于上海交通大学,曾担任欢聚时代技术副总裁和百度凤巢首席架构师,负责百度搜索广告 CTR 机器学习算法工作。曾任 IBM 深度问答(DeepQA)项目中国技术负责人。

张德兵,小红书社区部多媒体智能算法负责人,曾任格灵深瞳首席科学家,快手多模态智能创作负责人,在技术研究和业务落地方向都具有丰富的经验,带领团队获得包括国际权威人脸识别竞赛 FRVT 世界冠军在内的多项学术竞赛冠军,并推动 CV、多模态等技术在安防、零售、体育等 TO B 场景和短视频、广告等 C 端场景的多项业务落地。

三位嘉宾的讨论既关注到了 ChatGPT 当下的能力与问题,同时也就未来的趋势和前景进行了展望。在下文中,我们对交流的内容进行了梳理和总结。

OpenAI 的联合创始人 Greg Brockman 最近发推特表示,2023 年将使 2022 年看起来是 AI 进步和采用的沉闷之年。图源:https://twitter.com/gdb/status/1609244547460255744

ChatGPT 的强大能力来自于哪儿?

和试用 ChatGPT 的很多人一样,三位嘉宾也都对 ChatGPT 的强大能力印象深刻。

其中,张德兵举了一个让 ChatGPT 扮演 Linux Terminal 的例子:告诉 ChatGPT 大概的机器配置,然后在此基础上让它执行一些指令,结果发现,ChatGPT 能够记住很长的操作历史,前后逻辑关系非常一致(比如你往一个文件里面写入几行字符,之后让它显示这个文件里面到底被写入了哪些字符,它都能显示出来)。

图片

DeepMind 研究者 Jonas Degrave 让 ChatGPT 扮演 Linux Terminal 的例子。图源:https://www.engraved.blog/building-a-virtual-machine-inside/

这一结果让张德兵等人不禁怀疑,ChatGPT 是不是自己在后台开了一个 terminal 欺骗用户?于是他们进行了一些测试:让 ChatGPT 执行一些复杂度非常高的指令(比如两重 for 循环,每一个 for 循环都有 10 亿次),如果 ChatGPT 真的开了一个 terminal,它就会卡一段时间。结果出乎意料:ChatGPT 很快就跳过了这个过程,显示出了这个命令之后的下一个结果。这让张德兵等人意识到,ChatGPT 确实大概理解了整个 demo 的逻辑,它是有一定的「思考」能力的。

那么,这种强大的能力是从哪里来的呢?张雷提出了两种假设。一种假设认为,这种能力本身就是内置在大模型当中的,只是我们之前没有恰当地释放它;另一种假设认为,大模型的内置能力其实没有那么强,需要我们借助人类力量对它做出一些调整

张德兵和李磊都赞同第一种假设。因为,我们可以直观地看到,训练和微调大模型所需的数据量存在着几个数量级的差异,在 GPT-3 及其之后的模型所用到的「预训练 + 提示(Prompting)」范式中,这种数据量的差异就更明显了。而且,它们所用到的 in-context learning 甚至不需要更新模型参数,仅需要把少量标注样本放在输入文本的上下文中即可诱导模型输出答案。这似乎可以说明,ChatGPT 的强大能力确实是内生的。

图片

传统 fine-tune 方法与 GPT-3 的 in-context learning 方法对比。


此外,ChatGPT 的强大还依赖于一项秘密武器 —— 一种名为 RLHF(人类反馈强化学习)的训练方法

图片

根据 OpenAI 官方公布的资料,这种训练方法可以分为三个阶段 [1]:

  1. 冷启动阶段的监督策略模型:从测试用户提交的 prompt 中随机抽取一批,靠专业的标注人员,给出指定 prompt 的高质量答案,然后用这些人工标注好的 < prompt,answer > 数据来 Fine-tune GPT 3.5 模型,从而让 GPT 3.5 初步具备理解指令中蕴含的意图的能力;
  2. 训练回报模型(Reward Model,RM):随机抽样一批用户提交的 prompt,然后使用第一阶段 Fine-tune 好的冷启动模型为每个 prompt 生成 K 个不同的回答,再让标注人员对 K 个结果进行排序,以此作为训练数据,通过 pair-wise learning to rank 模式来训练回报模型;
  3. 采用强化学习来增强预训练模型的能力:利用上一阶段学好的 RM 模型,靠 RM 打分结果来更新预训练模型参数

这三个阶段的其中两个都用到了人工标注,也就是 RLHF 中所谓的「人类反馈」。

李磊表示,这一方法所产生的结果是出人意料的。在之前做机器翻译研究的时候,他们通常会用 BLEU 分数(一种快速、便宜且语言独立的自动机器翻译评价方法,与人类判断有很强的相关性)来指导模型,在模型较小的时候,这种方法效果显著,但随着模型越来越大,它的效果却在不断减弱。

因此,他们从中得到的经验是:借助反馈来训练 GPT-3 这种超大模型理论上不会得到太大提升。但是,ChatGPT 的惊艳效果却推翻了这一经验。李磊认为,这是 ChatGPT 所带给大家的震撼之处,提醒大家要改变研究观念。

ChatGPT 有哪些短板?

不过,震撼之余,三位嘉宾也指出了 ChatGPT 当前的一些短板。

首先,正如前面所说,它生成的答案有些还不够准确,「一本正经胡说八道」的情况还会时不时地出现,而且不太擅长逻辑推理。

图源:https://m.huxiu.com/article/735909.html


其次,像 ChatGPT 这样的大模型要想实际应用,所需的部署成本是相当高的。而且目前没有明显的证据表明,把它们的规模缩小一两个数量级,模型还能保持如此强大的能力。「如果只能在一个很大规模体量下才能维持这样惊艳的能力,它离应用还比较远,」张德兵说到。

最后,ChatGPT 在一些特定任务(比如翻译)上可能并没有达到 SOTA。虽然 ChatGPT 的 API 还没有放出来,我们无法得知它在一些 benchmark 上的能力,但李磊的学生在测试 GPT-3 的过程中发现,虽然 GPT-3 能够出色地完成翻译任务,但它比现在单独训练的双语模型还是要差一些(BLEU 分数差 5 到 10 个点)。据此,李磊推测,ChatGPT 在某些 benchmark 上并不见得会达到 SOTA,甚至可能和 SOTA 还有一些距离。

ChatGPT 能否取代 Google 等搜索引擎?对 AI 研究有何启发?

在关于 ChatGPT 的各种讨论中,「能否取代搜索引擎」这个话题可能是最火的一个。近日,《纽约时报》报道称,ChatGPT 的火爆让谷歌如临大敌,他们担心,如果大家都去用 ChatGPT 这样的聊天机器人,就没有人会点击带有广告的谷歌链接了(2021 年,谷歌广告收入占总收入的 81.4%)。在《纽约时报》获得的一份备忘录和录音中,谷歌首席执行官 Sundar Pichai 一直在开会,以「确定谷歌的人工智能战略」,并「颠覆了公司内部众多团队的工作,以应对 ChatGPT 带来的威胁」[2]。

图片

对此,李磊认为,现在就说取代可能还有点早。首先,新技术的火爆和商业成功之间往往有很深的 gap,早些年,Google Glass 也说自己将成为新一代的交互方式,但至今未能兑现承诺。其次,ChatGPT 在一些问答任务上的表现确实比搜索引擎好,但搜索引擎所承载的需求并不局限于这些任务。因此,他认为,我们应该根据 ChatGPT 本身的优势去做产品,而不一定要瞄准现有的成熟产品去取代它,后者是一件很困难的事情。

图片

很多 AI 研究者认为,ChatGPT 与搜索引擎是可以放在一起工作的,二者并非取代与被取代的关系,就像最近热门的「youChat」所展示的那样。图源:https://twitter.com/rasbt/status/1606661571459137539


张德兵也持有类似的看法,认为 ChatGPT 短期内替代搜索引擎不太现实,毕竟它还有很多问题,比如不能访问互联网资源,会产生误导信息。此外,它的能力能否泛化到多模态的搜索场景至今还不明晰。

但不可否认,ChatGPT 的出现确实给了 AI 研究人员很多启发。

李磊指出,第一个值得注意的点是 in-context learning 的能力。在之前的很多研究中,大家都忽略了如何通过某种方式将既有模型的潜力挖掘出来(比如机器翻译模型就只是用来做翻译,而没有尝试给它一些提示看看能不能生成更好的翻译),但 GPT-3、ChatGPT 做到了。因此李磊就在想,我们能不能把以往所有的模型都改成这种 in-context learning 的形式,给它们一些文本、图像或者其他形式的提示,让它们把能力都发挥出来,这将是一个非常有潜力的研究方向。

第二个值得注意的点是在 ChatGPT 中发挥重要作用的人类反馈。李磊提到,谷歌搜索的成功实际上也很大程度上是因为它很容易获得人类反馈(对于搜出的结果是否点击)。ChatGPT 通过请人写答案、给模型生成的答案排序的方式获得了很多人类反馈,但这种获取方式比较昂贵(近来有一些研究已经指出了这一问题)。因此,李磊认为,未来我们要考虑的是如低成本、高效地获取大量人类反馈。

图片

图源:https://twitter.com/yizhongwyz/status/1605382356054859777

小红书「种草」新技术

对于在小红书从事多模态智能创作研究的张德兵来说,ChatGPT 也提供了很多启发。

首先,该模型直观地展示了 NLP 大模型相比小模型在复杂多轮对话、不同 query 的泛化性、思维链 (Chain of Thought) 等各个场景的大幅提升,且相关能力目前在小模型上是不具备的。

张德兵认为,NLP 大模型的这些相关能力或许也可以在跨模态生成中进行尝试和验证。目前,跨模态模型在模型规模上相比 GPT-3、ChatGPT 还有显著的差距,且在跨模态场景中也有很多工作展示了 NLP 分支表达能力的提升,会对视觉生成结果的精细程度有很大帮助。如果跨模态模型的规模能够进一步扩大,模型能力的「涌现」或许是一件值得期待的事情。

其次,像初代 GPT-3 一样,现在多模态的生成结果在挑选的情况下往往能看到很不错的惊艳结果,但生成可控性还有很大的提升空间。ChatGPT 似乎在一定程度上改善了这一问题,生成的东西更加符合人类心意。因此,张德兵指出,跨模态的生成或许可以参考 ChatGPT 的很多思路来进行尝试,比如基于优质数据的微调、强化学习等等

这些研究成果将在小红书的多项业务中得到应用,包括电商等场景的智能客服,搜索场景下对用户 query、对用户笔记更精确的理解,智能创作场景下对用户素材进行智能配乐、文案生成、跨模态的转换和生成创作等。在各个场景中,应用的深度和广度也会随着模型大小的压缩、模型精度的持续提升而持续增强和扩展。

小红书作为一家有 2 亿月活用户的 UGC 社区,随着社区内容的丰富和多元,创造出了非常巨大的多模态数据集体量。在信息检索、信息推荐、信息理解,特别在智能创作相关技术,以及底层多模态学习、统一表征学习等方向上都积累了海量的真实数据,同时也为这些领域的实践创新提供了独特且广阔的落地场景。

小红书还是当下为数不多的依然保持强劲增长势头的互联网产品之一,得益于图文与视频内容并重的产品形态,小红书在多模态、音视频、搜广推领域将面临和创造许多前沿的应用问题。这也吸引了大量技术人才的加入,小红书技术团队中,很多成员都拥有谷歌、Facebook、BAT 等海内外一线大厂的工作经历。

这些技术挑战也将给予技术人们在新的领域完整参与乃至扮演重要角色的机会。未来小红书技术团队所能提供的人才成长空间,比以往任何时候都更加广阔,也正在等待更多优秀 AI 技术人才的加入。

同时,小红书也非常重视与业界的交流。「REDtech 来了」就是由小红书技术团队打造的一档面向行业前沿的技术直播栏目。今年以来,小红书技术团队已经与多模态、NLP、机器学习、推荐算法等领域的领军人物、专家学者展开深入的交流对话,力图从学界科研与小红书实战经验的双重视角探索和讨论有价值的技术问题。

参考链接:
[1] https://zhuanlan.zhihu.com/p/589533490
[2] https://www.cnet.com/tech/services-and-software/chatgpt-caused-code-red-at-google-report-says/
理论小红书ChatGPT
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

多模态学习技术

现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~