提升人工智能准确度,微软解读多项AAAI-17研究

Marine-2.jpg

Marine Carpuat(前),马里兰大学计算语言学和信息处理实验室计算机科学助理教授


十年前,我们还认为用计算机技术进行类似自动翻译,识别图像中的物体,甚至写一段话描述图像中的内容这样的任务看起来很有趣,但对于现实世界而言并不实用。


最近人工智能的快速发展改变了这一情况,随着时间的推移,越来越多的人们开始依赖基于机器学习等方式进行他们的工作。然而,这也为人工智能研究者带来了新的课题:如何确保这些算法、训练数据、甚至用于测试系统的工具是准确而无偏差的?


Ece_Kamar.jpg

Ece Kamar,哈佛大学计算机科学博士


微软自适应系统和交互组研究员 Ece Kamar 表示,研究者和开发人员已经意识到,尽管事实上这些系统并不完美,人们却已经为它们赋予重任了。


「这就是为什么了解我们的系统在何处出错是如此的重要,」Kamar 说道。


在本周末于旧金山举行的 AAAI 人工智能会议上,Kamar 和她的微软同事将提交两篇论文,旨在通过算法和人类专业知识消除计算机数据和系统的偏见。此外,另一个微软研究团队则发表了一个语料库(MSLT),可以帮助语音翻译研究者测试他们的会话系统的准确性。


数据支撑的人工智能


当开发者使用机器学习创建工具时,他/她通常会依赖大量数据进行训练,让系统学会执行特定的任务。例如,为了训练机器学习系统识别不同类别的动物,开发者需要向系统中输入大量不同动物的图片,以此训练系统识别不同动物(如猫和狗)的区别。


理论上,经过训练的系统可以识别它从未见过的图片中的猫和狗。


但是,正如 Kamar 指出的,训练数据系统有时会出现一些被称为盲点的错误,导致错误的结果。例如,如果我们只给系统输入白色的猫和黑色狗图片进行训练,随后输入白色狗图片让它进行判断,系统可能就会错误地把狗误认为猫了。


此类问题在研究者使用不是专门设计用于手头任务的数据集时经常发生。这是难以避免的——使用一个现成的数据集,如一组带有标签的动物图片,比自己重新建立一个方便得多——这也意味着对训练数据集进行安全检查刻不容缓。


「如果这种事没有发生过,我们就无法知晓数据的偏见,」Kamar 说道。


在其中一篇论文的研究中,Kamar 和她的同事们展示了被认为可以识别系统盲点的预测模型,这可以让开发者发现并解决此类问题。目前这个项目还在研究过程中,但研究小组希望这项技术最终可以成为所有开发者和研究人员可以依赖的盲点检测工具。


「所有使用机器学习的公司和学术机构都会需要这些工具,」Kamar 说道。


Kamar 和她的同事在 AAAI 会议上展示的另一项研究有关帮助研究者在复杂的人工智能系统里不同错误如何导致不同的错误结果。由于人工智能正在被应用于越来越复杂的任务,依赖于越来越多的参数,进行此类分析看起来难度惊人。


例如,假如一个自动描述照片内容的工具将泰迪熊错误地描述为搅拌机。你也许会认为错误出在训练数据集的图片构成上,只有为数据集的图片进行正确的描述才能解决这个问题。


Kamar 和她的同事们设计了一种方法,可以指导研究者们通过模拟使用各种修复方式来解决这样的问题。


有人监督的训练


对于参与过的研究项目而言,Kamar 表示她受到了 AI 100 的强烈影响,AI 100 是斯坦福大学的一个项目,旨在研究人工智能未来一百年中将会怎样影响人类。


Kamar 表示她从这些工作中获得的额外收获在于确认了人们在深入参与开发系统、验证系统和修正系统(troubleshooting systems)的重要性——研究人员称之为「有人监督的训练(human in the loop)」。这将确保我们正在构建的人工智能会增强人类的能力,并反映出人类的期望。


测试会话翻译的准确性


当开发者和学术研究员建立在对话中识别单词的系统时,他们会很注重测试系统的准确性:利用如 Switchboard 和 CALLHOME 那样的会话数据集。


image (4).png

Christian Federmann,高级项目经理


Christian Federmann 是 Microsoft 翻译团队的高级项目经理,他认为现如今是没有那么多测试双语对话语音翻译系统(如 Microsoft Translator live feature 和 Skype Translator)的标准数据集的。


所以他和他的同事们决定创建一个。


微软语音语言翻译语料库(Microsoft Speech Language Translation corpus)将在本周公开发布,任何人都能使用,它允许研究员根据这个标准数据集衡量自己对话翻译系统的质量和效力。该验证数据集包含法语、英语和德语之间的双语对话数据。


该语料库由微软使用双语者的会话制作,旨在创建一个标准,并让人们可以通过这个标准衡量他们会话语音翻译系统的水平。


Federmann 说道:「你需要高质量的数据才能创建一个高质量的测试集。」


直到这个数据集出现,人们忽然才发现将对话语音和双语翻译结合在一起的数据集一直是十分稀缺的。


Marine Carpuat 是马里兰大学计算机科学助理教授,她一直致力于研究自然语言处理,Marine 说当她想测试她的会话翻译算法的效果时,经常只能依赖于那些可免费获得的数据,如欧盟文件的官方翻译。


她说这些官方翻译都不是为了测试会话翻译系统而建立的,它并不会反映人们在日常生活的交谈中的那种随意与自发性。当人们想翻译规整的对话时,将很难知道她所做的技术性手段到底是否起作用,因为对话常常包含一些停顿「嗯」和其他口语化的习惯。


Carpuat 是最早期获得语料库访问权限的人,她说语料库立马就对她有很大的帮助。


她说:「这是一种将系统放入标准数据很好的方法,并能看看如果尝试处理会话会发生些什么。」


image (5).png

Will Lewis,首席技术项目经理


微软认为语料库的免费开放将有利于会话翻译领域的进步,同时帮助人们创建更多的标准化基准,从而帮助研究人员衡量他们的研究工作。


微软翻译团队的首席技术项目经理 Will Lewis 说:「这将有助于推进该领域加速向前发展。」


相关研究:



入门微软NLP产业AAAI 2017会议
李泽南
李泽南

You will always be lucky if you know how to make friends with strange cats.

返回顶部