斯坦福大学的研究者们正在使用计算机视觉系统,利用谷歌街景图片上街边汽车的型号来识别给定社区的政治倾向,其识别准确率超过了 80%。这项研究的论文已发表在《美国科学院论文集》上,研究人员表示,新的研究不仅可以节省大量人力开支,也可以为人口统计任务提供前所未有的实时数据。
从奢华的宾利到经济家用的 MPV,再到实用的皮卡,每个美国人驾驶的汽车都或多或少是他们个性的外在表述。就像俗话说的:你就是你所开的汽车,斯坦福大学的研究人员正在把这一思想提升到新的高度。
通过计算机视觉算法,一群研究人员正在利用谷歌街景上数百万张公开图像展开分析。研究人员称,只要看看街边的停着的汽车,他们开发的算法就可以识别出社区的政治倾向。
李飞飞,斯坦福大学计算机科学教授
「通过使用这种易于获得的视觉数据,我们可以学习到众多社区的方方面面,而想要从人口普查中获知这些信息需要花费数十亿美元。更重要的是,新的研究打开了利用计算机视觉信息对社会进行探究的思路,」斯坦福大学计算机科学副教授,斯坦福人工智能实验室和斯坦福视觉实验室负责人李飞飞说道,她也是这一研究的参与者之一。
作为著名图片数据集 ImageNet 的发起人,李飞飞是计算机视觉和深度学习的著名学者。在众多研究人员的努力下,人工智能在今天已经可以从二维图片中识别三维物体——计算机可以看到并识别它所见到的东西。
在李飞飞等人的研究下,新的算法通过谷歌街景中 200 个美国城市的超过 5000 万张图片进行学习,并在自我训练过程中学会了识别自 1990 年以后所有汽车的品牌、型号与出产年份。
汽车的类型和地址随后会与(目前最为全面的人口数据库)美国社区情况调查和美国总统投票结果数据相匹配,以评价种族、受教育程度、收入以及投票倾向。
李飞飞和她的团队发现汽车、人口统计与政治倾向上存在简单的线性关系。这种社会学关联「简单而有力」,该研究的论文《Using deep learning and Google Street View to estimate the demographic makeup of neighborhoods across the United States》刚刚发表在《美国科学院论文集》上。
例如,如果一个社区路边轿车的数量大于皮卡,那么这个社区有 88% 的几率倾向于民主党。而与之相反的社区有 82% 的几率倾向于共和党。
及时与连续
除了对于政治倾向的见解之外,研究人员相信他们的算法能够为目前的人口统计学调查带来更多及时与连续的帮助。目前的「美国社区调查(American Community Survey)」采用挨家挨户的探访调查形式,每年都会花费美国政府超过 2.5 亿美元的费用。即便花费如此巨资,收集到的数据距离整理发表也要延迟两年甚至更久,在小城市和农村地区尤为如此。
相比之下,李飞飞的研究基于公开的,经常更新的数据集之上,由谷歌街景构建与投资,而生成分析结果的过程是近乎实时的。
「我认为这样的技术并不会替代 American Community Survey,但它可以作为一个补充,让数据实时跟进,」该论文的第一作者,李飞飞实验室的原成员 Timnit Gebru 这样说道。Gebru 目前是微软研究院人工智能组 Fairness Accountability Transparency and Ethics(FATE)的一名博士后。
Gebru 表示,要实现这样的成果并不容易。他们的研究团队首先对自 1990 年以来的所有汽车型号手动建立了一个图像数据集,对生产年、品牌、型号、不同配置分别进行标记,随后才开始训练计算机从模糊的图片中区分这些车型的细微差别。
细微的差异
他们从来自汽车销售网站 Edmunds.com 的一个包含 15,000 辆汽车的数据集开始。接下来人类专家需要将汽车根据细节一个接一个地分类。例如,本田雅阁的 2007 年版本和 2008 年版本的差异,只是一个几乎无法察觉的尾灯变化。
该算法运行得很快,只需要两周时间就可以将全部 5000 万张图像根据品牌、型号和出产年份分为 2657 个类别。相比之下,一个人以每分钟 6 张图像的速率工作,需要 15 年才能完成这个任务。
面对其他人对该研究提出的质疑,Gebru 说。他们指出图像拍摄时间的不一致性可能会影响交通模式和汽车型号组成。「实际上,」Gebru 补充道,「很多街景图像是在清晨拍摄的,这样可以避开交通高峰,这一定程度上形成了拍摄时间的一致性。」即使忽略交通问题,Gebru 认为,这些图像仍然提供了有价值的信息。
旧金山居民区的谷歌街景图像(来源:谷歌街景)
「当驾车穿越一个地区的时候,有时候从交通密度获得的信息和从车辆类型获得的信息有相同的价值,」Gebru 说,「我们可以在算法中使用所有这些信息。」
Gebru 对她的新应用抱有很大的期待。她很期待不久以后,他们的新技术能够超越人口统计的范畴,使用视觉影像分析提高对难以直接接触的地区进行有意义的调查,比如监控二氧化碳水平和缓解交通拥堵。
李飞飞对此表示同意,「这项技术可以帮助我们理解我们社会的运转方式、人们的需求和提高生活的方法。」
论文:Using deep learning and Google Street View to estimate the demographic makeup of neighborhoods across the United States
论文链接:http://www.pnas.org/content/early/2017/11/27/1700035114.abstract
摘要:美国每年需要花费超过 2 亿 5000 万美元在美国社区调查(American Community Survey,ACS)上,这是一项劳动密集型的门到门研究,测算关于种族、性别、教育、职业、失业和其它人口统计因素的统计学结果。虽然拥有综合的数据资源,人口变化和在 ACS 中的记录之间往往有着超过两年的时间差。随着数位影像学的普及和机器视觉技术的进步,自动化数据分析在实践中越来越有望成为 ACS 的补充。在本论文中,我们提出了一种方法,可以通过使用由谷歌街景车搜集的 5000 万张街景图像,评估跨越 200 个美国城市的区域的社会经济学特征。使用基于深度学习的计算机视觉技术,我们决定监控和统计(谷歌街景车跨越)特定区域时遇见的所有汽车的品牌、型号和出产年份。汽车统计的数据(总共包含 2200 万辆汽车,占全美汽车量的 8%)可以用于准确地估计收入、种族、教育,和邮政编码层次、选区层次的投票模式(美国的选区平均包含约 1000 个人)。得到的结果非常简单而有力。例如,如果在驾车穿越一个城市的过程中遇到的轿车数量比皮卡的数量多很多,该城市更可能在下次总统选举中把票投给民主党(88% 的几率)。反之,该城市更可能投给共和党(82% 的几率)。我们的结果表明监控人口统计数据的自动化系统具备高空间分辨率测量人口统计数据的潜能,接近实时监控的程度,可以作为劳动密集型方法的有效补充。