python - 为什么 Python 的 Hog 输出 (scikit-image) 与 MATLAB 的 Hog (vlfeat) 不同？

我有一段 MATLAB 代码，它从图像中提取一个 91x91 的像素 block ，然后用苹果 HOG 提取其特征向量。我想用 Python 重写函数。我一直在努力寻找如何在 Python 中获得与在 MATLAB 中相同的 HOG 返回值，但没有成功。如果您能提供任何帮助，我将不胜感激。

VLFeat 库(http://www.vlfeat.org/overview/hog.html)用于 MATLAB 代码，我在 Python 中使用 scikit-image(http://scikit-image.org/docs/dev/api/skimage.feature.html?highlight=peak_local_max#skimage.feature.hog)。

在Matlab中，输入'im2single(patch)'是一个91*91的数组，而Hog返回的数据类型是4*4*16 single。HoG是使用23的单元格大小和方向数来应用的共 4 个。

     hog = vl_hog(im2single(patch),23, 'variant', 'dalaltriggs', 'numOrientations',4) ;

返回的数据为4*4*16单条，可以显示为:

     val(:,:,1) =

     0         0         0         0
     0         0         0         0
     0    0.2000    0.2000    0.0083
     0    0.2000    0.2000    0.0317

     ....

     val(:,:,16) =

     0         0         0         0
     0         0         0         0
     0         0    0.0526    0.0142
     0         0    0.2000    0.2000

然后手动将结果展平为 256*1 的特征向量。综上所述，在一个91*91的像素 block 中，提取了一个256*1的特征向量。现在我想在 Python 中获得相同的结果。

在我的 Python 代码中，我尝试应用具有相同单元格大小和方向数的 HOG。 block 大小设置为 (1,1)

    tc = hog(repatch, orientations=4, pixels_per_cell=(23,23), cells_per_block= (1,1), visualise=False, normalise=False)

我附加了patch的大小为92*92，所以patch的大小是cell大小的整数倍。输入数组现在称为“repatch”。然而，输出 'tc' 是一个 64*1 数组(梯度直方图被展平为特征向量)

   tc.shape 

   (64,)

然后我查看了 Skimage 源代码，

    orientation_histogram = np.zeros((n_cellsy, n_cellsx, orientations))
    orientation_histogram.shape 
    (4, 4, 4)

这里的 n_cellsx 是:x 中的单元格数，n_cellsy 是:y 中的单元格数。看起来 Hog 的输出与 orientation_histogram 的维度高度相关。

HoG 返回值的实际维度由以下因素决定:

    normalised_blocks = np.zeros((n_blocksy, n_blocksx,by, bx, orientations))

其中 n_blocksy, n_blocksy 的计算方式是:

    n_blocksx = (n_cellsx - bx) + 1
    n_blocksy = (n_cellsy - by) + 1

n_cellsx为:x中的单元格个数，这里取值为4，n_cellsy也是； bx,by是cells_per_block，也就是(1,1)；在这种情况下，方向是 4。

似乎返回值的大小(normalised_blocks)是通过 4*4*1*1*4 (n_blocksy * n_blocksx * by * bx * orientations) 计算的

我已经尝试更改 block 大小，但仍然无法达到我的预期...(虽然 block 大小为 (2,2)，但返回值为 144*1 数组)

谁能帮忙...我怎样才能得到与在 Matlab 中相同的 Hog 输出？非常感谢。

最佳答案

与 scikit-image 相比，VLFeat 库做了一些不同的事情。 VLFeat 库返回 9(方向数)对比度不敏感、18 个对比度敏感和 4 个维度，这些维度捕获方形 block (包含四个单元格)中的整体梯度能量。所以它每个单元格输出 31 个维度。然而，scikit-image 过程是不同的，我认为你已经很好地理解了它。

根据我的经验，如果您想使用 scikit-image 和 MATLAB 找到相同的 HoG 向量，您肯定至少应该为 scikit-image 放置 cells_per_block= (2,2)。

关于python - 为什么 Python 的 Hog 输出 (scikit-image) 与 MATLAB 的 Hog (vlfeat) 不同？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25602247/

python - 为什么 Python 的 Hog 输出 (scikit-image) 与 MATLAB 的 Hog (vlfeat) 不同？

上一篇：python - 从 ipython 运行时按预期将包添加到 sys.path 导入的脚本，但从 python 运行脚本时抛出异常

下一篇：python - Hostgator 上的 Askbot (Django)