YFCC 100M 数据库初析

YFCC 100M 数据库初析

YFCC 100M数据库是2014年来基于雅虎Flickr的影像数据库。该库由1亿条产生于2004年至2014年间的多条媒体数据组成,其中包含了9920万的照片数据以及80万条视频数据。

不过其中只有4800多万张照片和大约10万条视频记录带有地理坐标信息。而在这些坐标信息中又只有260万条是处在俺们国家的范围内。空间连接(spatial join)下来基本上也就50多个城市(或县级单元)的照片统计量超过1000张。需要指出的是,这并非Flickr在中国的全部样本,而只是在这份数据库采样中的样本。

其实,这个数据库的分析之前就很想分析,但始终找不到切入点。尽管有地理坐标,也做了空间链接,但个人感觉仍无论如何都很难与城市、与空间联系起来。在尝试研究几次失败过后,我想索性破罐子破摔,来个分析的“实时播报”吧。做一点写一点,反正这样可以有一定的积累。

首先,这货的标签(tag)很多很繁杂,但和很多vision computation搞标签的一样,它的所有标签也并非两两互斥,每一个autotag都给了一定的概率。粗粗统计一下它的所有tag:

统计一下tag之间的gephi

比如 ‘sport’ 这个标签,国内占比最高的地方是定日县,是的你没有看错,叫定日县。一个来自于西藏自治区的地方,翻阅了一下当地的照片,多数都是与登山有关;又比如在前十名以 ‘mountain’ 为标签的地区中,该要素占比排名第一的是滦平县。

定日县的’sport’标签

滦平县的’mountain’标签

在 ‘landscape’ 标签排名中,九寨沟县则名列前茅

九寨沟县的’landscape’标签

大同的“architecture”标签

不得不说Flickr的数据库的照片整体质量都比较高。

当然有些样本也比较无语,比如 ‘concert’ 标签,在重庆估计有个张信哲的粉丝,拼了命的传演唱会的照片。

写到这里我大致有了一点新的思路,这套数据的检索得用“组合拳”。

THOMEE B, SHAMMA D A, FRIEDLAND G等. YFCC100M: The new data in multimedia research[J]. Communications of the ACM, 2016, 59(2): 64–73.

6 thoughts on “YFCC 100M 数据库初析

  1. Мобильные слоты представлены как в простом, так и в игровом автомате. Существует оба вида тематических слотов, линия из каких вероятно быть активирована с поддержкой игры на удвоение и на экране показывается знакомый логотип со слота. Число линий регулируется кнопкой на игровом столе, в зависимости от выбранного режима. Присутствуют возможность сделать до 20 спинов, существует потенциальность стартовать игру по одной линии. Призовой бонусный раунд от каждого из игровых автоматов — текущее шанс одержать высший приз. Возможно собирать комбинации из одинаковых по рисунку символов: изображения фруктов, животных, символов с изображением водных стихий. В новейшем слоте реализована стратегия, то что позволяет зарабатывать и играть бонусные игровые баллы.


Leave a Reply

Your email address will not be published. Required fields are marked *

*