我有一段 MATLAB 代码,它从图像中提取一个 91x91 的像素 block ,然后用苹果 HOG 提取其特征向量。我想用 Python 重写函数。我一直在努力寻找如何在 Python 中获得与在 MATLAB 中相同的 HOG 返回值,但没有成功。如果您能提供任何帮助,我将不胜感激。
VLFeat 库(http://www.vlfeat.org/overview/hog.html)用于 MATLAB 代码,我在 Python 中使用 scikit-image(http://scikit-image.org/docs/dev/api/skimage.feature.html?highlight=peak_local_max#skimage.feature.hog)。
在Matlab中,输入'im2single(patch)'是一个91*91的数组,而Hog返回的数据类型是4*4*16 single。HoG是使用23的单元格大小和方向数来应用的共 4 个。
hog = vl_hog(im2single(patch),23, 'variant', 'dalaltriggs', 'numOrientations',4) ;
返回的数据为4*4*16单条,可以显示为:
val(:,:,1) =
0 0 0 0
0 0 0 0
0 0.2000 0.2000 0.0083
0 0.2000 0.2000 0.0317
....
val(:,:,16) =
0 0 0 0
0 0 0 0
0 0 0.0526 0.0142
0 0 0.2000 0.2000
然后手动将结果展平为 256*1 的特征向量。综上所述,在一个91*91的像素 block 中,提取了一个256*1的特征向量。现在我想在 Python 中获得相同的结果。
在我的 Python 代码中,我尝试应用具有相同单元格大小和方向数的 HOG。 block 大小设置为 (1,1)
tc = hog(repatch, orientations=4, pixels_per_cell=(23,23), cells_per_block= (1,1), visualise=False, normalise=False)
我附加了patch的大小为92*92,所以patch的大小是cell大小的整数倍。输入数组现在称为“repatch”。然而,输出 'tc' 是一个 64*1 数组(梯度直方图被展平为特征向量)
tc.shape
(64,)
然后我查看了 Skimage 源代码,
orientation_histogram = np.zeros((n_cellsy, n_cellsx, orientations))
orientation_histogram.shape
(4, 4, 4)
这里的 n_cellsx 是:x 中的单元格数,n_cellsy 是:y 中的单元格数。看起来 Hog 的输出与 orientation_histogram 的维度高度相关。
HoG 返回值的实际维度由以下因素决定:
normalised_blocks = np.zeros((n_blocksy, n_blocksx,by, bx, orientations))
其中 n_blocksy, n_blocksy 的计算方式是:
n_blocksx = (n_cellsx - bx) + 1
n_blocksy = (n_cellsy - by) + 1
n_cellsx为:x中的单元格个数,这里取值为4,n_cellsy也是; bx,by是cells_per_block,也就是(1,1);在这种情况下,方向是 4。
似乎返回值的大小(normalised_blocks)是通过 4*4*1*1*4 (n_blocksy * n_blocksx * by * bx * orientations) 计算的
我已经尝试更改 block 大小,但仍然无法达到我的预期...(虽然 block 大小为 (2,2),但返回值为 144*1 数组)
谁能帮忙...我怎样才能得到与在 Matlab 中相同的 Hog 输出?非常感谢。
最佳答案
与 scikit-image 相比,VLFeat 库做了一些不同的事情。 VLFeat 库返回 9(方向数)对比度不敏感、18 个对比度敏感和 4 个维度,这些维度捕获方形 block (包含四个单元格)中的整体梯度能量。所以它每个单元格输出 31 个维度。然而,scikit-image 过程是不同的,我认为你已经很好地理解了它。
根据我的经验,如果您想使用 scikit-image 和 MATLAB 找到相同的 HoG 向量,您肯定至少应该为 scikit-image 放置 cells_per_block= (2,2)
。
关于python - 为什么 Python 的 Hog 输出 (scikit-image) 与 MATLAB 的 Hog (vlfeat) 不同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25602247/