视觉搜索 | 机器之心

简介

视觉搜索是一种需要注意力的感知任务，它通常涉及针对特定对象或特征（目标）搜索可以在有或没有眼睛运动的情况下进行搜索。在过去的40年里，人们已经广泛地研究了在复杂的刺激序列中有意识地定位一个物体或目标的能力。在日常生活中可以看到使用视觉搜索的实用示例，例如，当在超市货架上挑选产品时，当动物在一堆树叶中寻找食物时，当试图在一大群人中找到朋友时，或者仅仅当玩视觉搜索游戏时。然而，迄今为止的大量研究表明，眼球运动可以独立于注意力而运动，因此眼球运动测量并不能完全捕捉注意力。很多之前的工作都用反应时间来测量在分心器中的物体。如：找到一个绿色的方块（目标）在一组红色圆圈（分心器）中。然而，测量的反应时间并不总是区分注意力和其他因素的作用：长反应时间可能是难以将注意力引到目标、或过慢的决策过程，或在注意力已经到了后的运动反应的减慢，或者已经检测到目标。

Search Types 搜索类型

Feature Search 特征搜索

特征搜索（也称为“析取”或“有效”搜索 "disjunctive" or "efficient" search）是一种视觉搜索过程，其重点是在干扰物中识别目标，干扰物诸如颜色、形状、方向或大小等独特的视觉特征。特征搜索任务的一个例子：让参与者识别被黑色正方形（干扰物）包围的白色正方形（目标）。在这种类型的视觉搜索中，干扰者的特征是它们具有相同的视觉特征。特征搜索在反应时间(RT)和精度方面的效率取决于“弹出pop out”效应、自底向上处理还是并行处理。然而，特征搜索的效率不受干扰物数量的影响。在文献[5]弹出(pop out)效应是特征搜索中的一个独特于其他干扰对象中的特征元素。自下而上的处理(Bottom-up processing)，即依赖于环境输入的信息，它可以解释如何利用特征检测器来处理刺激的特征并将目标与其干扰物区分开来。bottom-up过程被称为“显著性”，它专注于目标物体。最后，并行处理是一种允许特征检测器在识别目标同时的工作机制。

Conjunction Search 联合搜索

联合搜索（Conjunction search，也称为低效搜索或串行搜索，inefficient or serial search）是一种视觉搜索过程，其重点是识别在具有目标本身的一个或多个共同视觉特征的干扰物所包围的目标。联合搜索任务的示例：让人识别红色X（目标），但是它在黑色X（相同形状）和红色O（相同颜色）组成的干扰物中。与特征搜索不同的是，联合搜索可能涉及彼此不同但与目标至少表现出一个共同特征的干扰物（或干扰物组）。关于反应时间（RT）和精确度的联合搜索的效率取决于分离率（distractor-ratio）和存在的干扰物的数量。反应时间（RT）增加，准确度降低。随着存在的干扰物数量的增加，反应时间（RT）增加，准确度降低。但是，通过实践，联合搜索的原始反应时间（RT）约束明显改善。在处理的早期阶段，联合搜索利用自下而上的过程，在刺激物（stimuli）中识别预先指定的特征。然后，这些过程被更加连续化的有意识地评估刺激的指示特征过程所取代，以便将一个人的焦点空间注意力恰当地分配给能最准确展示目标的刺激。在许多情况下，自上而下的处理通过消除与先前对目标描述的先前知识不一致的刺激来影响联合搜索，这样能更有效地识别目标。自上而下过程对联合搜索任务的影响的一个例子是：当在红色'C'和黑'K'中搜索红色'K'时，个人忽略黑色字母并专注于剩余的红色字母以便减少可能目标的设定大小，从而更有效地确定其目标。

Real World Visual Search 现实世界中的视觉搜索

在日常情况下，人们最常在视觉领域的任务就是寻找熟悉的目标。当涉及到搜索熟悉的刺激（stimuli）时，自上而下的处理允许人们在更加复杂地特征或联合搜索任务中，更有效地识别目标。在一项旨在分析反向字母效应的研究中，研究人员得出结论，由于 top-down processes，个体能更有效地识别对称字母中的不对称字母，即识别对称字母中的不对称字母比识别其倒数更有效。自上而下的过程允许研究参与者获得关于字母N形状识别的先验知识，并快速消除与他们的知识相匹配的刺激。在现实世界中，一个人必须每天使用先验知识，以便准确和有效地定位对象，如电话、钥匙等，在一个更加复杂的干扰阵列。尽管有一定复杂度，用复杂物体进行视觉搜索（以及基于先验知识搜索诸如“电话”之类的物体类别）似乎依赖于与联合搜索相同的主动扫描过程，而联合搜索是使用不太复杂、并且人为的实验室刺激。虽然自下而上的过程可能在识别不那么熟悉的对象时会起作用，但是总体的自上而下的处理对日常生活中出现的视觉搜索有很大影响。

案例：

Task 1:在下面的图片中找出形状象“Q”的符号

Task 2:在下面的图片中找出形状象“O”的符号

结果:

我们能够更快速的从一堆”O”里面找到”Q”,

比在一堆”Q”里面找”O”快.

结论:我们对特征的表征注意比对特征缺失的注

意要更有效(容易看到有的,不容易注意到无的)

【出处：wiki，https://en.wikipedia.org/wiki/Visual_search 】

发展历史

视觉搜索不仅仅是 Neuropsychology，Perception，和Cognitive psychology领域的专有名词，现在的视觉搜索也是可以在计算机领域进行实现：显著代表就是人脸识别系统。

在过去的几十年里，在人脸识别方面已经进行了大量的研究，明确指出人脸在位于颞叶中梭形回的被称为梭形面部区域(FFA)的区域内经受着专门的处理。在不同的系统中检测和处理对象，以及是否都具有用于识别和识别的特定类别区域。迄今为止的大量研究集中在检测的准确性和复杂视觉搜索阵列中检测人脸所花费的时间。

人脸识别是一个复杂的过程，它有很多影响认知能力的因素。其他要考虑的方面包括种族、文化和人的面孔识别能力如其他种族效应，它可以影响一个人的能力来识别和记忆的面孔。

自动人脸识别的先驱包括Woody Bledsoe，Helen Chan Wolf和Charles Bisson。

在1964年和1965年期间，Bledsoe与Helen Chan和Charles Bisson一起致力于使用计算机识别人脸（Bledsoe 1966a，1966b; Bledsoe和Chan 1965）。Bledsoe当时为这项工作感到自豪，但由于资金是由一个不具备大量宣传力的无名情报机构提供的，因此很少有工作被发表。当时的工作是：给定一个大型图像数据库（实际上是一本大头照）和一张照片，解决的问题是从数据库中选择一小组记录，使其中一个图像记录与照片相匹配。该方法的成功可以根据答案列表与数据库中记录数量的比率来衡量。 Bledsoe（1966a）当时总结了当时的一些研究困难：

该项目是人机标记的，研究人员从照片中提取了一组特征的坐标，然后计算机来识别。使用图形输入板（GRAFACON或RAND TABLET），操作者将提取瞳孔中心、眼睛内角、眼睛外角、峰点pupil to pupil等特征的坐标。根据这些坐标，计算了20个距离的列表，如嘴宽和眼睛宽度，瞳孔到瞳孔。操作员每小时可以处理大约40张照片。在建立数据库时，照片中的人的名字与计算距离的列表相关联，并存储在计算机中。在识别阶段，将距离集合与每张照片的相应距离进行比较，得出照片和数据库记录之间的距离。返回最接近的记录。

因为不可能任何两张图片在头部旋转、倾斜、倾斜和比例（距相机的距离）上匹配，所以每组距离被标准化以表示正面方向的面部。为了完成这个归一化，程序首先尝试确定倾斜、倾斜和旋转。然后，使用这些角度，计算机撤销这些变换对计算距离的影响。为了计算这些角度，计算机必须知道头部的三维几何结构。

布列Bledsoe于1966离开PRI后，这项工作继续在斯坦福研究所Stanford Research Institute，主要由Peter Hart负责。在超过2000张照片的数据库上进行的实验中，研究的相同识别任务的同时，计算机的表现总是优于人类（Bledsoe 1968）。Peter Hart（1996）热情地回忆了这个项目，感叹道：“这真的很管用！”

到1997年左右，由德国波鸿大学（University of Bochum）和美国南加州大学（University of Southern California）的克里斯托夫·冯·德·马尔斯堡（Christoph von der Malsburg）和研究生开发的系统比Massachusetts Institute of Technology 和University of Maryland的大多数系统表现的要好。Bochum system 是由美国陆军研究实验室资助的。该软件以ZN-Face形式销售，并被德意志银行( Deutsche Bank )、机场运营商等场所使用。该软件“强大到足以从不完美的面部表情进行识别。它也经常能看穿诸如胡须、胡须、改变发型和眼镜——甚至太阳镜——等妨碍识别的障碍。

2006，在人脸识别大挑战（FRGC）中对最新的人脸识别算法的性能进行了评价。在测试中使用了高分辨率人脸图像、三维人脸扫描和虹膜图像。结果表明，新算法比2002年的人脸识别算法准确10倍，比1995年的人脸识别算法准确100倍。其中一些算法在识别人脸方面能够胜过人类，并且可以唯一地识别出同卵双胞胎。

美国政府赞助的评估和挑战问题帮助提高了人脸识别系统性能的两个数量级。自1993以来，自动人脸识别系统的错误率下降了272倍。该减少适用于在studio或MuGeScript环境中与人脸图像匹配的系统。穆尔定律（Moore's law）中，误差率每两年减少一半。

【出处：wiki，https://en.wikipedia.org/wiki/Facial_recognition_system 】

主要事件

年份	事件	相关论文
1991	Turk, M. A., & Pentland, A. P.使用 eigenfaces进行面部识别	Turk, M. A., & Pentland, A. P. (1991, June). Face recognition using eigenfaces. In Computer Vision and Pattern Recognition, 1991. Proceedings CVPR'91., IEEE Computer Society Conference on (pp. 586-591). IEEE.
1992	Samal, A., & Iyengar, P. A.考虑了人的面部表情	Samal, A., & Iyengar, P. A. (1992). Automatic recognition and analysis of human faces and facial expressions: A survey. Pattern recognition, 25(1), 65-77.
2009	Wright, J., Yang, A. Y., Ganesh, A.对稀疏的数据进行面部自动识别	Wright, J., Yang, A. Y., Ganesh, A., Sastry, S. S., & Ma, Y. (2009). Robust face recognition via sparse representation. IEEE transactions on pattern analysis and machine intelligence, 31(2), 210-227.
2018	Best-Rowden, L., & Jain, A. K.自动人脸识别的纵向研究	Best-Rowden, L., & Jain, A. K. (2018). Longitudinal study of automatic face recognition. IEEE transactions on pattern analysis and machine intelligence, 40(1), 148-162.

发展分析

瓶颈

2008年卡内基梅隆机器人研究所的研究员拉尔夫·格罗斯描述了一个与面部角度的问题：“脸部识别在全脸和20度以下已经做的相当好，但是一旦你接近侧面，就会出现问题。”由于姿态变化，低分辨率人脸图像也很难识别。这是人脸识别在监控系统中的主要障碍之一。

面部表情变化不大。如果面部表情变化。微笑可以使系统变得不那么有效。例如，2009，加拿大在护照照片中只允许没有面部表情的图片。

研究人员使用的数据集也存在不稳定性。研究者可以使用从多个主题到多个主题的地方，以及几百个图像到数千个图像。对于研究者来说，重要的是至少有一个标准数据集。

数据隐私是主要的关注点，当涉及到存储生物特征数据的公司。如果没有正确存储或黑客攻击，或者可以通过第三方访问关于面部或生物特征的数据存储，那么这是很危险的事情。Parris补充道，在Techworld（2017），“黑客们已经开始尝试复制人脸来欺骗面部识别系统，但事实证明，这项技术比指纹或语音识别技术更难被黑客破解。”

【URL： https://en.wikipedia.org/wiki/Facial_recognition_system#Advantages_and_disadvantages 】

未来发展方向

1.因为多种面部识别方法已经被提出，混合方法 hybrid method可以被进一步发展。

2.可以通过面部识别来识别心情，也可以减缓表情的变化对面部识别准确率的影响，Antifacial recognition systems。

Contributor: Ruiying Cai

简介