该目标是识别照片中描绘的场景类别。此任务的数据来自Places数据集,其中包含属于400多个唯一场景类别的 1000多万个图像。具体而言,数据将被分为8百万个用于训练的图像,用于验证的36K图像和用于来自365个场景类别的328K用于测试的图像。请注意,每个类别的训练图像分布不均匀,范围从4,000到40,000,模仿场景出现的更自然的频率。
对于每个图像,算法将按置信度的降序生成最多5个场景类别的列表。标签的质量将根据最符合图像地面实况标签的标签进行评估。这个想法是允许算法识别图像中的多个场景类别,因为许多环境具有多个标签(例如,酒吧也可以是餐馆),并且人们经常用不同的词语描述一个地方(例如森林小径,森林,树木)。
本文来自织梦