我们用人工智能给东京、巴黎…拍摄了城市定妆照

我们用人工智能给东京、巴黎…拍摄了城市定妆照

我们用人工智能给东京、巴黎…拍摄了城市定妆照

导读

看了上面的图片,你能分辨出哪张是东京,哪张是巴黎?除了高楼大厦就是车水马龙,相似的背景,恍然间环顾四周,“我”究竟身处何方?而今天我们就要给东京和巴黎等18个城市用人工智能来拍摄城市定妆照。


过去数十年间,全球化让城市间联系愈加紧密,但同时,相似性却渐渐取代了每座城市的个性。层层堆高的摩天大楼成为城市建设的基本范式,类似的玻璃幕墙装饰的写字楼或商业楼被拿来充当城市地标。而对国际化的渴求让更多城市继续陷入同质化建设轨道。

本文章利用数百万张来自于北京、东京、巴黎、旧金山等全世界18个城市的社交媒体照片,并基于计算机视觉和深度学习技术度量城市之间视觉环境的相似性,寻找城市中最有代表性的场景和物体。

本研究发现,城市最有特色的物体不止于标志性建筑,还包括历史遗迹、宗教符号、特色街道风格、特色地貌等;类似地,本方法还支持对城市特色物体的提取,以车辆为例,研究发现城市中最有特色的车辆为出租车、巴士等交通工具。本研究适用于多种尺度(街道、城市、地区等)的场所(Place)物理环境之间分析,为场所形式化、城市视觉环境的定量研究提供方法支撑,为城市设计、规划和管理等领域提供决策支持。论文于2019年3月发表在Royal Society Open Science中。

实验数据


本研究数据来自于Panoramio照片分享网站。如表1所示,照片来自于16个国家的18个城市,总数超过200万张;同时利用基于计算机视觉的物体检测识别模型,裁切出原始图片中的物体,共计80类,其中数目最多的物体类别为小轿车(car), 人(person),卡车(truck)等。

我们用人工智能给东京、巴黎…拍摄了城市定妆照

表1. 基于计算机视觉的物体检测识别照片数据

研究方法


方法主要分三个部分,如图1所示,第一部分,通过训练以城市为类别标签的图片分类模型,使模型学习每个城市视觉环境的内在表征(Learning deep representations)。第二部分,通过模型对全部样本的判别,得到城市类别间的混淆矩阵,计算城市特异度和相似度(若来自于两个城市间的样本相互识别错误率较高,则认为两城市较相似;若某个城市较不容易识别为其他任何城市,则认为某城市特异度较高)。第三部分,通过模型对全部样本的判别,将正样本(True positive samples)的置信度进行排序,取置信度较高的样本,作为最有城市特征的城市场景图片和城市物体图片(置信度反映了模型对某个样本属于某个类别的置信程度;拥有较高置信度的样本被认为最具有类别代表性)。

我们用人工智能给东京、巴黎…拍摄了城市定妆照

图1. 方法总体框架: I. 基于深度学习的图片分类(以城市为标签); II. 混淆矩阵分析; III. 基于置信度的样本排序

实验与结果分析


实验基于152层的ResNet模型,在200多万张图片的18个城市分类任务中取得了36.43%的准确度。图2所示为全球18个城市间的视觉环境相似度与特异度,其中较相似的城市用蓝色线连接,蓝色数字代表相似度分值;红色点大小代表了城市视觉环境的特异度,黑色数字代表特异度分值。例如,曼谷、罗马、首尔等的城市景观呈现出较高的特异度;伦敦和巴黎、布拉格和维也纳、罗马和巴塞罗那、新加坡和香港等两两城市之间具有较高的相似度,验证了方法的有效性。北京、东京、旧金山之间也有一定的相似性,原因有待进一步验证。

我们用人工智能给东京、巴黎…拍摄了城市定妆照

图2. 全球18个城市间的视觉环境相似度与特异度


图3所示为18个城市中每个城市的最有代表性的街景。例如,阿姆斯特丹、巴塞罗那、柏林、香港、莫斯科、布拉格和维也纳等城市表现出了极具特色的建筑风格;北京、罗马、首尔和东京等城市的街道呈现出特色的历史和文化符号;此外,结果中还发现了伦敦、巴黎和旧金山等城市的标志性建筑,例如伦敦桥、伦敦红色电话亭、埃菲尔铁塔、金门大桥等,展现出了城市代表性场景的多样性和方法的有效性。

我们用人工智能给东京、巴黎…拍摄了城市定妆照

图3. 城市最有代表性的场景


图4所示为18个城市中每个城市最有代表性的车辆。研究发现出租车、警车、救护车等公共车辆,由于涂装的城市内一致性和城市间的差异性,成为了城市最有代表性的车辆。其中,实验在曼谷、香港、东京等城市中识别出了两种以上的出租车。此外,伦敦街头的车辆以老式、复古型居多,罗马的车型一般较为紧凑,而巴黎的车辆比较奢华酷炫。

我们用人工智能给东京、巴黎…拍摄了城市定妆照

图3. 城市最有代表性的物体 – 以车辆为例

总结


移动互联网技术、导航定位技术和众包平台的发展带来了海量的、描述城市物质空间的街景数据,为城市空间的研究带来了潜在的机遇;而传统图像处理方法对于图片数据的分析能力有限,对街景数据中描述的城市复杂场景的理解能力不足。本研究利用社交媒体照片来刻画城市视觉环境,基于深度学习和计算机视觉技术学习城市视觉环境的深层次特征,提出了一个城市视觉环境间量化比较的分析框架,为场所物质空间、建成环境的定量研究提供支持,为城市设计、规划领域提供参考。

参考文献

[1]      Fan Zhang, Bolei Zhou, Carlo Ratti, Yu Liu. Discovering place-informative scenes and objects using social media photos. Royal Society Open Science. 2019.03, 6(3) http://doi.org/10.1098/rsos.181375

[2]      Fan Zhang, Bolei Zhou, Liu Liu, Yu Liu, Helene H. Fung, Hui Lin, Carlo Ratti. (2018). Measuring human perceptions of a large-scale urban region using machine learning [J]. Landscape and Urban Planning, 80, 148-160. https://doi.org/10.1016/j.landurbplan.2018.08.020

[3]      Fan Zhang, Ding Zhang, Yu Liu, Hui Lin. (2018). Representing place locales using scene elements [J]. Computers, Environment and Urban Systems, 63, 58-67. https://doi.org/10.1016/j.compenvurbsys.2018.05.005

材料 | 张 帆

编辑 | 王安 李颖欣

本项目由城室科技与北京大学合作完成

原文转载于未名时空公众号。

城室科技,致力于大数据和人工智能,欢迎合作。

往期内容回顾:

情感地图:基于街景和深度学习的城市感知计算

T005 城视 | CityEye —— 为拍照调研而生

CityEye | 满足你对城市影像的所有想象

色彩背后的世界——寻找你的缘分建筑

基于人工智能的江岸风貌分析


我们用人工智能给东京、巴黎…拍摄了城市定妆照

城室科技

致力于大数据和人工智能

我们用人工智能给东京、巴黎…拍摄了城市定妆照

原文始发于微信公众号(城室科技):我们用人工智能给东京、巴黎…拍摄了城市定妆照