维基百科计划引入人工智能来完成大量繁重的工作,这些工作将使得维基百科能实时更新、没有垃圾邮件侵扰、同时也保证其内容合法。客观修订评价服务(Objective Revision Evaluation Service)可以使用文字处理人工智能算法来扫描最近编辑的内容,判断其中是否有垃圾邮件、灌水以及编辑战(相应内容被修改和反修改,无穷无尽)或者可疑内容等。人类非常擅长辨认字里行间的细微差别,计算机也能做到这一点吗? 自然语言处理是人工智能的一个分支,其主要任务不是创造智能计算机,而是对于文字的智能理解。它旨在帮助计算机理解人类语言,并且以人类的方式交流。 语言的智能化理解意味着很多事情。它可能意味着理解语言的语法。为了让语言能够实现这一点,语言的内在规则必须公式化,以便让计算机理解。这一点其实并不难,因为语法本身就有一系列规则,而且机器也非常擅长处理规则。对机器更困难的则是日常对话,因为日常对话中包含很多非完整的或者非语法的内容,例如「我想要去呃...今天也许...」或者对话中也包含很多噪音,例如「啊哈」、「嗯」、「哦」、「哇哦」等,这些听起来没什么意义,但是对话中的人类听众却能明白其中的含义。
理解一种语言也许意味着以人类的方式生成文字内容,例如写小说、喜剧或者新闻。深度神经网络可用于训练算法,以便可以生成和输入数据类似的文字内容。一个有趣的例子是一种可以生成 James Bible 国王风格文本的算法;另一个例子就是基于实际数据来创作叙事作品,例如基于温度和风向等信息而生成的天气预报信息。 理解语言也可能意味着按照人类的方式处理文字内容,例如总结、分类、意译等。这也是维基百科的机器人编辑正在做的事情,就是将编辑的内容分为真实的和不真实的、正确的和不正确的、可接受的和不可接受的。
手动训练算法
为了能够正确地完成这些任务,人工智能必须学会如何为符号(例如文字和段落)赋予不同的含义。这项任务非常艰巨,不仅仅是因为我们尚不确定人类是如何做到这些,即便我们将大脑这般复杂的结构交给计算机来处理,计算机也很难完成。 比如,一项研究就发现,在区分「旅行顾问(Trip Advisor)」上的欺骗性评论方面,人类做得也并不好。然而,90% 的时间中,计算机可以正确辨认出这些欺骗性言论,但是这样的结果依赖于人类专家给出足够多的「黄金标准」,即人类写的真实意见和虚假意见。接下来的挑战就是掌握这些学习数据。维基百科这项任务其实意味着我们并没有足够多的可信的数据。 在缺乏大量良好数据的情况下,人工智能需要手动进行训练,即通过告诉计算机语言特征来区分好的形式和坏的形式。欺骗心理语言学研究发现了撒谎的人更有可能使用的词语类型,例如一项研究表明这种情况下会有更少的因果词语以及否定表达,如「因为」、「效果」、「不」、「从来没有」等,同时另一项研究也表明撒谎者会避免使用第一人称,而会更多地使用第三人称。 而这样做的一个问题是语言特征的种类会非常多,通常很难完全知道所有的语言特征——事实上新研究也在不断地揭示新类型的语言特征。一些文字可能包含了这些特征,机器人编辑需要找出这些针对维基百科的恶意编辑内容的鲜明特征。
然而,机器非常善于学习语法(规则和流程)和词汇,但是在理解意思方面(即语义)并不擅长。维基百科的机器人编辑的工作是找出恶意编辑,然而如果存在一些与机器人学会的恶意书写的特征清单不符合的恶意编辑呢?计算机如何才能理解复杂的成语、嘲讽、隐喻和明喻?要想让算法辨认出具有这些特征的坏的编辑,或者从有效的编辑中将其区分出来绝非易事。 虽然有这么多的挑战,自然语言处理在理解语言和自动完成语言任务方面却做得越来越好,翻译和智能搜索引擎方面的巨大进步就是明证,它们不仅可以辨认你输入的内容,也能理解其中的含义。只要有足够的数据和继续创造的方法,人工智能就可以逐渐学会人类语言的方方面面,就像小孩学习语言那样。
编译:杨超、微胖