Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

钱德虎作者虎嗅APP来源

你还好意思说自己是脑力劳动者吗?

本文由机器之心经授权转载自虎嗅APP(ID:huxiu_com),未经授权禁止二次转载。

很长时间以来,人类区别脑力劳动和体力劳动的标准,是颇值得反思的。

我们一般默认,那些坐在办公室里的人,都应该属于脑力劳动者,即在工作中基本不使用头部和手指以外肌肉的人。在东亚这种极为重视教育的民族氛围中,更将这种区别二元对立化,认为体力劳动只是简单、重复、乏味的肌肉循环,唯有脑力劳动才是充满挑战、变化、不可预测的高智慧人类劳动。

这个区别以及背后的含意真的准确吗?比如橄榄球运动员,个个体壮如牛,喘着粗气鼓着腮帮子奔跑、冲撞甚至抱摔,然而橄榄球是一项非常讲究规则战术,严格依靠团队配合,并且极其考验个人瞬间判断的运动。这些壮汉在工作时,不动脑吗?

再比如面朝黄土背朝天的农民,以及工厂里的焊接工,他们不仅要掌握并不断打磨自己的技艺,还必须应付工作中的随机性,比如气候变化和不规则模具。他们不是什么识文断字的高手,但在自己的工作领域内,具备了极高的技能储备和应变能力,这些统统都是需要脑力判断的。

更关键的,还不是体力劳动者动不动脑,而是那些“脑力劳动白领”们,平时的工作真的都属于挑战、变化、不可预测、需要高级智慧判断的吗?

财会人员每天大量的时间,会用在比对数据,整理表格上;合格的文字工作者,其收集素材与产出内容的比例至少是二比一以上;教师、律师、医生等职业在绝大部分时间谈不上什么处理新鲜事,每天都在应付一些浅层知识的重复调用;至于客服、录入员、审核员等等传统的白领职位,就离“脑力劳动”更遥远了。

说这个话题,不是为了抨击什么,而是揭示目前人类劳动状态中,依然有太多重复、单调、无聊的时刻,即便在传统意义上的“脑力劳动”中也是如此。

这不是一种让人类更幸福的工作模式,因为在这些劳动岗位上,人其实只是工具。和一个扳手、锤子、钉子没什么区别,只不过人比这些工具多读了十几年书罢了。比如近几年很多公司都在做实时翻译机,看着手里这个鸡蛋大小的玩意能够清晰翻译多国语言,不少专业八级的外语高材生难过起来——这工具不就是他们真人的物化版本吗?

从21亿秒中找出60秒

自从拿到NBA赛事的网络传播权后,腾讯的视频库中就积累了长达69年、超过21亿秒的篮球比赛视频素材。这丰富而庞大的视频资料储备,既是幸福也是烦恼。

这是一个常见的情景:在NBA比赛传播中,需要经常为某个球员做一段精华集锦片段,比如当这个球员被评奖、本场比赛发挥出色或者人气很高时,我们在网上都看过大量此类视频。

然而,有谁考虑过,制作这些视频的剪辑师要怎样工作呢?他们需要从数亿秒的视频中找到60秒可用的素材,再通过自己的认知判断将其剪为一段完整的视频,最后再配上音乐和特效才能完成。

在传统意义上,这份工作毫无疑问属于脑力劳动,然而上文的质疑同样有效:按照特定属性寻找视频素材、遍历一个巨大的数据库、将这些视频素材组合成一个符合逻辑的视频时间轴,如果抽象出来,这几步工作就是寻找、判断、剪接的动作不断重复,这真的是“智慧结晶”吗?

于是,腾讯找来了一个帮手,一起分担这种单调重复的劳作——IBM AI Vision视觉大脑。(以下简称IBM视觉大脑)

IBM视觉大脑的工作原理并不复杂,只是模拟了一个正常人类剪辑师要做的工作——

首先,腾讯体育编辑会根据需求为IBM视觉大脑下达任务,比如“寻找凯文•杜兰特的精彩瞬间”,这些精彩瞬间包括投篮、扣篮、抢断、盖帽等内容。

接下来,IBM视觉大脑会对视频素材的每一帧数据进行多通道分析,并打上标签,包括人物、运动轨迹、声音等,将非结构化视频数据提取为结构化数据,并用数据库进行实时管理,让每一帧画面都变得可检索。同时,还会针对动作的精彩程度和不同主题的匹配程度,生成综合评价。

最后,根据体育编辑设置的主题和球员等要求,“AI剪辑师”按照综合评分选出最贴切主题的精彩视频片段,几乎实时自动生成一分钟剪辑视频,并加上特效处理。而这一系列操作,IBM视觉大脑仅仅需要20秒钟就够了。

这意味着什么呢?

看球没那么简单 

鉴于读到本文的大多是成年人,所以必须请大家回忆一下自己童年时期,第一次在电视上看到乒乓球比赛时的情景。我当时唯一的感觉就是“不知道球在哪里”,眼睛和脖子跟不上小球来回跳动的速度,一会就失去兴趣,换台了。

中国乒乓球运动员:马龙

而篮球作为一项高速运动,对其进行视频分析几乎是所有比赛中最难的。场上10个高壮大汉,不仅经常在逼仄空间和快速移动中重叠、冲撞、跳起、变向,令人难以识别,而且比赛规则也极为繁琐:是否踩线、盖帽还是干扰球、打手还是有效防守……均在一线之间。更不必说球出手后有多种可能:传球、投篮、三分投篮,甚至可能是一个极为花哨的上篮动作。

还是那句话,人类往往对自己已经具备的能力过于轻视,不妨试试向一个从未看过球的新朋友讲球,感受下什么是崩溃吧。

为了让AI能看懂球,IBM采用了“多模态视觉理解技术”。比如说,怎么确定眼前这个漂移投三分的是球员库里?这就要涉及到机器视觉(确定库里的脸、球衣等)、动作识别(库里的投篮、运球、上篮、防守等姿势)、声音识别(库里进球之后的吼叫或被吹犯规之后的抱怨等)等几个方面的技术。同样,通过对各种比赛要素的训练,机器能看懂什么叫进球、谁是进攻一方,根据投篮姿势等不同确定投篮的方式(三分、后仰、上篮、扣篮等等)。 

接下来IBM视觉大脑在理解比赛内容后,将海量视频用自己的逻辑将其分类:比如哪些画面被定义为扣篮,哪些画面是后仰跳投,又有哪些是盖帽等。打完了标签,再进行检索,那么想要什么素材就都随用随取了。有趣的是,IBM视觉大脑还能为动作打分,比如某球员的扣篮动作非常有表现力,能打一百分;而另一位勉强的把球放进篮框,就只能得个及格分了。这种评分机制,正是迅速生成“精华片段”的关键。

这看似简单的几步,但却是AI技术突飞猛进的结晶。人类一直以来对复杂模糊情景的快速理解能力,已经基本被AI全部“偷师”过去——要知道,这个系统可是能够瞬间将几小时的篮球比赛,按照“灵动”、“霸气”、“精准”、“强硬”等标准,分成不同段落的。

由此带来的效率的提升是显而易见的。剪辑师们再也不用因为赶时间而把一个素材用到烂,而且数据的快速处理,也就能够在海量视频资源中掘金,让历史影像资料都能够得到最大化的价值利用。

有数据显示,在海量存储视频中,能被用户高频调取的数据仅占总量的20%。因此,很多视频运营者致力于在数据爆炸的时代中,有效盘活另外80%的非活跃数据。到2025年,全球数据量将达到163ZB,想再让人类去处理这天文数字已经不太可能,这恰恰为IBM视觉大脑提供了用武之地。

让工具回到工具,把人当人

不难看出,对于视频剪辑师而言,IBM视觉大脑能够给出最符合制作需求的视频片段。当寻找合适的素材这个需要耗费大量时间的环节被完美解决之后,剪辑师的工作任务也就被分解,从而可以腾出更多的时间开发出更多有创意的视频内容。

只有那些真正有创意的,需要发挥人类作为智慧生物体无穷创造力的工作,才真正配得上“脑力劳动”。比如让IBM视觉大脑去拍部李安的电影,是根本没门的。反过来说,能够被IBM视觉大脑代替的工作,恐怕也不好意思再说是什么“脑力劳动”了。比如各类视频的粗剪,产品质量的检测,安防监控,都不太需要再安排一个人类盯着了,还不如用AI:成本更低,效率更高。

总之,AI技术进步并非是要来抢人类的饭碗。而是代替人类去做那些重复、单调、低水平的工作,解放人类。让工具回到工具,把人当人,进而增加整个社会的效率和幸福感。

IBM视觉大脑无疑是人类智慧实践的结晶之一,然而即便强大如它,也不过属于目前AI领域多个探索赛道其中的一条。像这样有趣的故事,地球上每时每刻都在上演着。

日前,Discovery探索频道推出了一部名为《THIS IS AI》的纪录片,在这部由十个章节组成的AI全景纪实中,IBM视觉大脑代表了第八章节“人造第六感”的技术路线——由于AI具备了面孔识别、语言理解和动态视频分析能力,很多国家的安全部门已经以AI为助手,识别潜在的犯罪行为。

这是我目前看过的市面上所有讲述AI的纪录片中,最清晰直白,最容易理解,也最实实在在的一部。在这里,没有遥远的猜测或过于宏大的论述,只有一个个真实存在的案例、问题和实践。你能看到人类是如何利用AI,一个个攻克技术难题,又如何在与AI共处中,探索出新的分配结构和认知体系,仿佛一部“科技创世纪”。

这十个自成逻辑的章节,从“理解人类语言”,再到“与机器争辩”,进而探讨“机器如何学习”,最终直到“与机器融为一体”。无论你是一名普通的科技从业者,媒体人,学生,甚至只是一名路人,都值得一看。因为这部纪录片所描述的内容,包含了人类改变自身命运的最新实践和未来可能,更不必提连中学生都能看懂。

接下来一个半小时里,你可以找个舒服的地方,安静享受思维与认知的快感。如果时间不够也没关系,收藏起来这篇文章,每天看个几分钟,用来下饭也是好的——

本文由机器之心经授权转载自虎嗅APP(ID:huxiu_com)

原文链接:https://mp.weixin.qq.com/s/f_LYyAg_cqdCIlq6Jr9AfQ

产业人工智能应用
11
相关数据
数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

推荐文章
哈哈哈