YinTao 撰写 半夏 编辑

深度长文:新iPhoneX凭什么卖这么贵?

iPhoneX已经在人工智能领域迈出了一大步。

发布会之后,网友纷纷表示新一代苹果毫无新意,然而AI锐见可不这么认为!像素级图像分割、精准的人体关键点检测,新iPhoneX集人工智能前沿技术于一身,难怪售价这么高!2018年9月13日凌晨三点钟,国内果粉们顶着困意看完了发生在一万公里外的苹果秋季发布会。发布会上,苹果拿出了三款搭载A12仿生(Bionic)芯片的全新苹果手机和新一代苹果智能手表(具体产品可以点击Ai锐见13日凌晨发文:能救命的Apple Watch和双卡双待的iPhone来了,你准备好了吗?)。 新发布产品种最高端的iPhoneXs Max顶配在国内售价破万元,堪称史上最豪华阵容。保留了刘海屏、没有吸人眼球的外观设计,单单升级处理器和内存, 为什么这次iPhone售价如此之高,抱着疑问,Ai锐见从头到尾仔细研究了两个小时发布会全过程之后,才理解了苹果煞费苦心。像素级图像分割、精准的人体关键点检测,新iPhoneX集人工智能前沿技术于一身,难怪售价这么高!当介绍到iPhoneXr的摄像功能时,席勒这样说:他表示,原生摄像做了个聚焦功能,然后效果是这样的:一张神似出自单反相机的人像,但实际是算法处理出来的,原先很多手机都有这个功能。就这张图可以说,人物边缘选择非常精准,效果惊艳。看似和国产高端机拍出来的效果没啥区别,实际上这里面大有学问:

敲黑板!Mark重点:景深摄像

来看一张普通双摄智能手机(20MP+16MP)拍摄“大光圈”效果后得到的景深可调图像:


乍一看整体效果非常棒,几千元的双摄手机派出了单反的效果,但是我们注意到了细节:如果后期处理算法没能检测出物体的边缘准确位置,那么加入景深效果就会如上图所示。也就是说,为了达到单反大光圈的景深摄影,单单使用大光圈、高像素、双摄的手机,达不到摄影爱好者的要求。一张由12MP、f/1.8光圈手机单摄像头完成的图像,如果我们仔细观察这张照片的细节,会感叹新一代iPhone的处理能力景深摄影,是手机ai摄像的一道坎,卡在了算法和算力(运算能力)。苹果官网也对深度图进行了一句话的简单介绍:那么,这项手机摄像技术的核心技术在哪里?

敲黑板!Mark重点:像素级语义分割

不得不提高iPhoneXr另一项特技:一键换背景

iPhoneXr的一键换背景功能,可以让用户完成人像背景百变。

为什么说这两项功能很强大?首先看两者有共同的算法原理:像素级语义分割

什么是语义分割?正如下图:

(a)原图,(b)语义分割

(c)实例分割,保留实体,去除背景

(d)全景分割,分割全部,同类物体也区分

语义分割,一项用于计算机视觉最前沿的算法,目前广泛用于基于摄像头传感的自动驾驶系统:摄像头采回来的影像通过语义分割,让汽车分辨前方的车辆、行人、路牌等。分割嘛,区分不同物体。人的脑袋中也自带这种算法,只不过我们平时不会注意到它的存在。

像素级的语义分割,顾名思义,就是将场景分割效果细致到像素点。这种算法在自动驾驶汽车上要求达到1ms级的响应速度,很难做到手机这样的分割效果,但在手机上几秒钟之内图像分割就可以有很好的用户体验了。

发表于2017年的ACM Multimedia会议上一家中国研究团队的工作成果,通过像素级语义分割,实现家具图片背景的一秒更换,未来可以给购物者多方位的产品视觉参考。

一键换背景

甚至还可以结合面部检测实现“一键换美装”

然而目前这些功能还应用在PC端或者是借助云计算的力量来实现。

基于A12的新一代iPhoneX,是革命性的:因为,以上复杂算法都可以在一台手机上完成。

注意后三个处理步骤:面部检测、面部标界、分割

iPhoneXr的“一键换背景”、景深摄像,真正达到了:

“原先只能通过搭建摄影棚或花时间PS出来的照片,现在只要几秒种。”

大部分摄影师实现的高质量图像效果,只要借助iPhoneXr在一秒之内完成!然而,iPhoneX还有一重大举措:开放出基于人工智能的应用开发平台。另一项炫酷的第三方应用程序HomeCourt,在iPhoneX系列上实现了下面这个功能:

人体骨骼关键点检测(Pose Estimation)

人体骨骼关键点检测的目的是让机器“看到”人的行为,在视频监控领域,该项技术被用于检测画面中人的特殊行为;机器人配备了这项能力则可以对用户“察言观色”,是智能人机交互一大进步。苹果的搭载A12处理器为新一代具备人机交互的智能手机提供了一个应用程序平台。

基于A12开发的应用代表之一:HomeCourt

iPhoneXs发布会视频中,黑色上衣男子起跳投篮,HomeCourt绘制出了该男子的体态点线图。旁边负责辅助训练的白衣男子并未被检测分析,说明这个应用程序可以自定义跟踪被检测对象。

行为检测是一项非常具有挑战的任务,堪称在人工智能一块“难啃的骨头”。实际生活应用行为检测功能不那么容易,视觉信息提取设备需要兼顾场景中复杂的光线、动态的人物、突变的姿态,实时检测的算力瓶颈也限制了这项功能的移动端化。实验表明,为了让机器区分人的多态行为,至少需要绘制13个关键点,这些关键点分布在人体关节、腕部、头部等。

2015年Leonid Pishchulin等人发表《DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation》,这篇文章基于CNN(卷积神经网络)提出了有别于先前检测策略,可以分辨场景中距离相近的多个人的肢体行为。这篇文章影响广泛,具有相当大的启发性,为近几年的姿态检测研究奠定了一个方向,即将深度神经网络与行为检测相结合。

基于CNN训练出来的模型,准确率领先传统算法一大截

(图片来自CSDN,题目《人体骨骼关键点检测综述》,作者 SIGAI_CSDN)

在苹果的这款应用程序中,我们也可以看到这项技术的优势体现:准确的检测目标的行为和姿态

当然,这项技术得以在移动设备上实现,与A12适用于神经网络运算能力密切相关。

行为检测算法的研究在深度神经网络的应用下突飞猛进。公共安全领域的行为检测技术已经帮助监控系统识别行动可疑的人物,或是发现需要紧急帮助的人,例如老人摔倒、心脏病突发者,甚至是走失的儿童。

百度云计算提供在线人体关键点检测平台

各大云平台也在布局人体行为检测的服务,例如百度、阿里云、旷视科技(Face++)。

同样的,苹果这次升级的AR平台也将在AppStore大有市场。

甚至可以与好友在AR游戏中合作

渲染相当棒的大型3D游戏画面,画质堪比家用游戏主机

有没有发现以上图片中出现的功能之间的共同点?

那就是 : 高负荷图形计算压力

也就是说,为了实现绝大部分功能的实时化处理,苹果为此搭载的A12处理器才是产品发布的核心。

A12才是最大卖点

这些软件处理的背后,你会发现一个关键词汇:神经网络。如果要加上一个修饰词,则是深度神经网络

因为当下手机图像相关的功能非常依赖基于深度神经网络的后期处理,所谓ai芯片即内部架构是为了适用于运算神经网络数据而设计的特殊的运算核心,这就是为什么华为这样的大厂会将目标定为开发新一代手机Ai芯片。单一的为CPU搭配个GPU已经不能满足优质的照片处理需求。

实际上去年华为和苹果已经打响了手机ai芯片的战争,苹果推出A11搭载在去年最新的iPhoneX上,同时将自己最新的处理器命名为A11 Bionic,主要就是因为其内置了人工智能“神经引擎”。华为紧随其后,高调推出麒麟970,制式10nm,性能为上一代960的两倍,官方称这款国产芯在CPU、GPU基础上还搭载了一个强大嵌入式神经网络处理器NPU。

去年麒麟970发布会

然而,这么快的CPU,和用户有什么关系?这个问题留给华为在未来发挥。

实际上,拿13日苹果发布会相比麒麟980的问世,我发现了两个有趣的现象:

一、华为7nm一出,周边合作厂商的股价上涨

二、苹果7nm一出,苹果公司股价微跌(北京9月13日)

三、苹果发布第二天(北京9月14日),股价回涨

实际上,无论7nm还是14nm,手机真正能带给用户的:是体验;速度,只是体验的一部分。

图像处理到内嵌人工智能模型的应用程序,苹果最新iPhone系列产品都在尝试容纳最前沿的算法技术,不仅是FaceID,iPhoneX系列常用原生功能都开始需要借助A12强大的神经网络计算功能。在发布之后App开发商也会进一步借助A12的特性,设计出原先我们想象不到的应用程序。

苹果目的时通过A12打造新开发者生态圈,原先只能通过云计算实现的运算量现在放到了新iPhoneX上做,实现了实时的智能检测,可以说实现了很多原先不可能的app功能。未来能够做到出类拔萃的app开发商也会围绕着这些运算进行。我们可以看到苹果秉承这三条战略:

1,超前于的其他厂商的技术视野;

2,带给用户融合最前沿技术的原生应用,“体验”即一切;

3,硬件不花哨,新一代应用开发平台是关键。

徒有一个强大的“计算器”,没有优质、互相推进的应用程序接口,麒麟系列980、970计算速度再快也没有用。苹果做的就是用户-app开发商之间的生态系统,因为在这个平台上,三者都有利可图。

用户通过前沿的app内置功能创作、体验;开发商在appstore上收取费用;苹果在背后提供硬件、系统支持。目前在华为推出新一代基于7nm智能手机生态圈之前,除了快,用户不会有任何值得惊叹的体验。

所以苹果秉承一贯作风,卖的不是硬件,而是算法。

软件,才是苹果的高价值区。

也许,盯着苹果硬件配置价格表,不会让人有任何购买冲动。苹果的战略是让人亲身体会产品带给人的感受。所以正像库克在发布会的一开始表示,苹果自己是retail(零售)界的改革者,而不是手机界改革者。每年苹果实体店拥有500milion的流量,由此可见一斑。

就在库克结束了今年秋季产品发布会之后几分钟,华为董事成员余承东发微博:

为在未来将会推出对标苹果什么样技术平台,我们拭目以待,仅仅通过增大内存容量、CPU快一些已经不能满足当今智能手机市场了,也许这个市场还在教育阶段,并不是所有需求都集中在Ai技术上。

也许苹果iPhoneX是一个不可逆创新。什么叫不可逆创新,即大家之前不觉得它有用,但用过之后都觉得它很有必要。所以,期待新一代iPhoneX在Ai智能手机市场上的发挥。

AI锐见
AI锐见

洞察AI行业趋势

产业语义分割人工智能iPhoneX
3
相关数据
自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

暂无评论
暂无评论~