读取37000照片后,计算机绘制了美国人的微笑编年史

数据挖掘已经改变了我们看待信息的方式。机器学习算法现在一向急不可耐地从你的社交媒体对话、旅行图谱、通话记录乃至健康记录里挖掘数据,从中形成洞察,这些洞察有助于提升我们在沟通、旅行以及健康方面的体验。 不过,有一个维度的数据长期被忽视,那就是历史维度,比如挖掘大量历史照片上的信息,这也面临巨大挑战。 首先,数据量非常大,相机发明到现在已经有150年历史。更重要的是,这些照片的上面的信息提取时非常困难,不同照片上面的信息量(比如人物、景象)差异巨大。 根据MIT Technology Review的报道,加州大学伯克利分校Shiry Ginosar和他的小伙伴使用机器视觉的算法要攻克这个难题。他们首先从一个相对简单的照片数据库入手,那就是从1905年开始的美国高中年鉴的照片。这些年鉴照片已经在全美实现了数字化,并且照片上的信息相对比较少,基本都是某个姿势的人物正面照片。 Ginosar下载了超过15万张这样的照片,删除掉不太标准的人物正面照片后,还剩下来自800个年鉴里的37000张照片。他们将这些照片按照每十年进行分组,并将照片进行叠加,以推导出每个阶段的「大众脸」,叠加的过程会考虑发型、服饰、眼镜的样式以及脸部的表情,下图就展示每个十年里男女的「大众脸」。 2015-11-27-2 结果很值得解读。年鉴照片中展示了美国人微笑的进化史,Ginosar表示,照相技术刚出现时,大多数人在拍照时的表情和姿势与曾经画家笔下的「模特」无异,这与当时社会审美标准有关,比如拍照时,那时的什么会说「say prunes(梅干)」而不是「say cheese(中国人说茄子)」。 随着20世纪照相的普及,情况也发生了变化。当时柯达公司的广告宣传让大家意识到照片可以存储开心的记忆。于是,微笑成为照片上的新「信息」,Ginosar和他的团队认为:当时人们意识到一点,拍照时必须微笑。 Ginosar还设计了一套算法去分析人们在微笑时嘴角弯曲的角度,随后发现随着时间的推移,照片中的人们似乎越来越爱笑了。另外一个发现则是,「女性比男性更喜欢微笑」。 不过这个数据库也有一定的局限性,比如不到10%的美国人在1900年代上高中,这个比例到60年代时已经超过50%。更重要的一点则是,非洲裔美国人直到20世纪中期才出现在学校照片中。 尽管如此,Ginosar团队还是做出了很棒的工作,他们一改过往手工筛选照片提取信息的方法,展现出机器学习的强大之处,同时提供了一个了解历史照片并展望未来的新角度。从历史照片发现微笑的进化只是一个开始,接下来更多历史影像,比如家庭全家福照片,其包含的信息量更多,也更有历史意义。 作者:赵赛坡。
入门
暂无评论
暂无评论~