参与李泽南 蛋酱 张倩

YOLO之父宣布退出CV界,坦言无法忽视自己工作带来的负面影响

我们可能看不到根红苗正的 YOLO v4 面世了。

「YOLO 之父」Joseph Redmon 宣布退出计算机视觉领域了!这个刚刚出现的消息着实让人工智能界感到惊讶。
在社交网络上,这位 YOLO、XNOR-Net 等知名 AI 算法的发明者昨天突然声明:出于道德上的考虑,他决定停止一切有关计算机视觉的研究。

在 AI 领域,这还是第一次。

推文链接:https://twitter.com/jeremyphoward/status/1230610470991589376
在有关「不应该发表的重要研究」的长篇讨论中,Redmon 现身发表了自己的看法:「我现在已经停止了计算机视觉研究,因为我看到了自己工作造成的影响。我热爱自己的作品,但我已经无法忽视它在军事领域的应用以及给个人隐私带来的风险。」

他还表示,一些学者的想法是错误的,他们认为,「我们不必考虑新研究的社会影响,因为这很困难,而且其他人也会帮我们做。」

「尽管在大学阶段我们一直被灌输科学研究是中立的,无论其内容如何。但如果我们认真考虑广泛的影响,则基本所有面部识别工作都不应被发表:它们几乎不会带来好处,尽是负面风险。」

为什么突然有了这样一番话?一切讨论似乎都是由最近人工智能顶会 NeurIPS 2020 的全新论文接收标准引发的。

在今年正在进行的大会论文提交过程中,除了提前截稿、提前拒稿,让论文作者当审稿人等一系列新操作之外,还有一条就是必须提交「广泛影响声明」:

在 NeurIPS 2020 大会官网论文提交指南中,论文评审重大变化的第五条。

NeurIPS 2020 候选论文的作者被要求在他们提交论文的文件中加入新的讨论部分,阐述其新工作可能产生的广泛影响,包括一些可能造成的正面和负面社会影响。

近年来,随着 AI 领域的快速发展,人们对于科技的思考也越来越多。投向 NeurIPS 的新研究,显然代表了人工智能领域最先进的技术。但新科技对于社会发展的影响,或许是科学家们此前有所忽略的地方。不过有关研究广泛影响的考量竟让计算机视觉领域的大牛选择隐退江湖,着实让人惊讶。

Redmon 和快到没朋友的 YOLO

说到 YOLO,相信每个计算机视觉从业者都不陌生。它是一种非常常用的目标检测算法,任务是找出图像中我们感兴趣的目标,确定其大小和位置并识别出具体是哪个对象。从自动驾驶到人脸识别,很多日常生活中的常见任务都离不开这种算法。

YOLO 模型最早是由 Joseph Redmon 等人在 2015 年提出的,并在随后的几篇论文中进行了修订。

YOLO 目标检测算法。图源:https://arxiv.org/pdf/1506.02640.pdf。

Faster R-CNN 及在其基础上改进的 Mask R-CNN 在实例分割、目标检测、人体关键点检测等任务上都取得了很好的效果,但通常较慢。而 YOLO 的创新之处在于,它提出了 one-stage,即目标定位和目标识别在一个步骤中完成,是名副其实的「You Only Look Once」。

由于 YOLO 只使用单个网络,因此可以直接在检测性能上进行端到端优化,使得基础 YOLO 模型能以每秒 45 帧的速度实时处理图像。YOLO 的一个小规模版本——Fast YOLO 可以达到每秒 155 帧的处理速度。

YOLO 有着让人惊艳的速度,同时也有让人止步的缺陷:不擅长小目标检测。为了弥补这一缺陷,2018 年,Redmon 等人发布了 YOLO v3。这一新版本保持了 YOLO 的速度优势,提升了模型精度,尤其加强了小目标、重叠遮挡目标的识别,补齐了 YOLO 的短板,是目前速度和精度均衡的目标检测网络。

研究者们对于 YOLO 下一个版本的展望主要在于三个方面:更高的识别准确率、更加广泛的实时监测,以及更轻量化的模型。在 GitHub 上,人们对于 v4 版本什么时候出的问题,得到的答案一直是「coming soon」。

一直以来,Joseph Redmon 跟随 Allen School 教授 Ali Farhadi 从事计算机视觉研究,他是 2018 年度谷歌博士奖学金的获得者,理由是在「创造更快、更好、更有用的计算机视觉应用工具」方面的贡献。

Redmond 曾在 TED 上向人们介绍计算机视觉技术的发展。
Redmon 曾在艾伦人工智能研究所实习(后孵化出初创公司 XNOR.ai,该公司现已被苹果收购),当时参与的是 XNOR-Net 开发工作。在此之前,他也曾在谷歌大脑有过实习经历。

当然,他最有名的个人项目还是 YOLO,这一成果最早在论文《You Only Look Once: Unified, Real-Time Object Detection》中进行了详细介绍,文章也获得了 CVPR 2016「OpenCV People's Choice Award」奖项;Redmon 与导师合著的论文《YOLO9000: Better, Faster, Stronger》获得 CVPR 2017 最佳论文荣誉提名奖。

To be or not to be?

自己的工作对社会有潜在的负面影响就应该停止研究吗?在 Redmon 的推文底下,大家展开了一番讨论。

前谷歌大脑机器人研究专家 Kevin Zakka 认为,研究者不应该因为自己的工作可能带来负面影响而停止研究。相反,你应该利用自己在该领域的影响力来提高人们的警惕,将研究成果用在正确的地方。


不少人表达了相似的见解。有人认为,你停止研究并不代表别人也会停。以爱因斯坦的相对论为例,其他人几乎也同时得出了相同的结论。这个方向不会因你而停滞不前,而且,继续做研究的人道德水平可能并不如你。所以,与其让一个不了解这一领域潜在危害的人来引领发展方向,还不如这一领域最清楚利弊的人继续做。

当然,也有人有不同意见,认为「如果这件事从本质上就是错的,那你永远也无法找出一种正确的做法。」

从这个逻辑上来说,如果某个方向有潜在危害,这个领域的专家不仅应该停止研究,更应该站出来,成为阻止这种研究方向的意见领袖。

很多技术都是一把双刃剑,它们的出现推动着人类社会的发展,但也伴随着伦理、道德问题的讨论。诺贝尔后悔发明了炸药,但我们今天开山修路却离不了它。在这种道德困境下,科学家应该如何做选择?简单的讨论恐怕很难回答这一问题。

在讨论区,也有人给出了下一步的职业建议,认为 Redmon 可以进入医疗 CV 领域。这一领域目前还有很多待解决的问题。

不知 Joseph Redmon 和 YOLO 的未来将何去何从。
产业CV谷歌大脑计算机视觉YOLO
1
相关数据
SSD技术

一种计算机视觉模型。论文发表于 2015 年(Wei Liu et al.)

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

OpenCV技术

OpenCV的全称是Open Source Computer Vision Library,是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。

目标定位技术

目标定位任务不仅要识别出图像中是什么,还要给出目标在图像中的位置信息。简单的说,就是用一个矩形框把识别的目标框出来(有时候也有多个固定数量的目标)。一般基本思路是多任务学习,网络带有两个输出分支。一个分支用于做图像分类,即全连接+softmax判断目标类别,和单纯图像分类区别在于这里还另外需要一个“背景”类。另一个分支用于判断目标位置,即完成回归任务输出四个数字标记包围盒位置(例如中心点横纵坐标和包围盒长宽),该分支输出结果只有在分类分支判断不为“背景”时才使用。

人体关键点检测技术

人体关键点检测(Human Keypoint Detection)又称为人体姿态识别,旨在准确定位图像之中人体关节点的位置,是人体动作识别、人体行为分析、人机交互的前置任务。

推荐文章
暂无评论
暂无评论~