街景号码(SVHN)数据集 |
The Street View House Numbers (SVHN) 是对图像中阿拉伯数字进行识别的数据集,该数据集中的图像来自真实世界的门牌号数字,每张图片中包含一组 '0-9' 的阿拉伯数字。训练集中包含 73257 个数字,测试集中包含 26032 个数字,另有 531131 个附加数字。
copyright dedecms
这些是具有字符级边界框的原始可变分辨率彩色房屋号码图像,如上面的示例图像所示。(此处的蓝色边界框仅用于说明目的。边界框信息存储在digitStruct.mat中,而不是直接在数据集中的图像上绘制。)每个tar.gz文件包含png格式的原始图像,以及digitStruct.mat文件,可以使用Matlab加载。digitStruct.mat文件包含一个名为digitStruct的结构,其长度与原始图像的数量相同。digitStruct中的每个元素都包含以下字段:name是包含相应图像文件名的字符串。 BBOX这是一个struct数组,包含图像中每个数字边界框的位置,大小和标签。例如:digitStruct(300).bbox(2)。高度给出第300个图像中第二个数字边界框的高度。
- 格式2:裁剪数字: train_32x32.mat, test_32x32.mat, extra_32x32.mat (注意:仅限非商业用途)
织梦好,好织梦
类似MNIST格式的字符级别基础事实。所有数字都已调整为32 x 32像素的固定分辨率。原始字符边界框在适当的维度上扩展为方形窗口,因此将它们调整为32×32像素不会引入宽高比失真。然而,这种预处理在感兴趣的数字的两侧引入了一些令人分心的数字。加载.mat文件会创建2个变量:X是包含图像的4-D矩阵,y是类标签的向量。为了访问图像,X(:,:,:,i)给出第i个32×32 RGB图像,其类标签为y(i)。