可思数据-人工智能媒体资讯平台!可思数据-人工智能媒体资讯平台!

街景号码(SVHN)图像数据集

数据类型:图形图像 热度
★★★★☆

文件类型: .zip     文件大小:2.45 GB

授权方式: 其它     发布时间:2019-09-08

数据介绍:
街景号码(SVHN)数据集
 
SVHN是一个真实的图像数据集,用于开发机器学习和对象识别算法,对数据预处理和格式化的要求最低。它可以被看作与MNIST的风味相似(例如,图像是小的裁剪数字),但是包含更多标记数据的数量级(超过600,000个数字图像)并且来自更加困难,未解决的现实世界问题(识别自然场景图像中的数字和数字)。SVHN是从Google街景图像中的门牌号码获得的。

The Street View House Numbers (SVHN) 是对图像中阿拉伯数字进行识别的数据集,该数据集中的图像来自真实世界的门牌号数字,每张图片中包含一组 '0-9' 的阿拉伯数字。训练集中包含 73257 个数字,测试集中包含 26032 个数字,另有 531131 个附加数字。


织梦好,好织梦



这些是具有字符级边界框的原始可变分辨率彩色房屋号码图像,如上面的示例图像所示。(此处的蓝色边界框仅用于说明目的。边界框信息存储在digitStruct.mat中,而不是直接在数据集中的图像上绘制。)每个tar.gz文件包含png格式的原始图像,以及digitStruct.mat文件,可以使用Matlab加载。digitStruct.mat文件包含一个名为digitStruct的结构,其长度与原始图像的数量相同。digitStruct中的每个元素都包含以下字段:name是包含相应图像文件名的字符串。 BBOX这是一个struct数组,包含图像中每个数字边界框的位置,大小和标签。例如:digitStruct(300).bbox(2)。高度给出第300个图像中第二个数字边界框的高度。



  • 格式2:裁剪数字: train_32x32.mat, test_32x32.mat, extra_32x32.mat (注意:仅限非商业用途)

copyright dedecms

类似MNIST格式的字符级别基础事实。所有数字都已调整为32 x 32像素的固定分辨率。原始字符边界框在适当的维度上扩展为方形窗口,因此将它们调整为32×32像素不会引入宽高比失真。然而,这种预处理在感兴趣的数字的两侧引入了一些令人分心的数字。加载.mat文件会创建2个变量:X是包含图像的4-D矩阵,y是类标签的向量。为了访问图像,X(:,:,:,i)给出第i个32×32 RGB图像,其类标签为y(i)。

特别声明:

¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
人工智能交流群扫码邀请
人工智能交流群扫码邀请

    最近关注
    热点内容
    热点图文