image-processing - 带填充的平均池的期望行为是什么?

标签 image-processing machine-learning computer-vision pytorch max-pooling

最近我使用 pytorch 训练了一个神经网络,其中有一个带有填充的平均池层。我对它的行为以及带有填充的平均池化的定义感到困惑。

例如,如果我们有一个输入张量:

[[1, 2, 3],
 [4, 5, 6],
 [7, 8, 9]]

当填充为 1 且内​​核大小为 3 时,第一个内核的输入应为:

 0, 0, 0
 0, 1, 2
 0, 4, 5

pytorch的输出是12/4 = 3(忽略填充的0),但我认为应该是12/9 = 1.333

谁能给我解释一下吗?

非常感谢。

最佳答案

基本上由您决定您希望填充池层的行为方式。
这就是为什么 pytorch 的 avg 池(例如 nn.AvgPool2d )有一个可选参数 count_include_pad=True:
默认情况下(True)平均池将首先填充输入,然后对所有元素进行相同的处理。在这种情况下,示例的输出确实是 1.33。
另一方面,如果您设置 count_include_pad=False 池化层将忽略填充元素,示例中的结果将为 3。

关于image-processing - 带填充的平均池的期望行为是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55738420/

相关文章:

android - 使用 Android NDK 问题调用 JNI

javascript - 谁能告诉我如何在按下鼠标并继续直到它在 p5.js 中被释放时触发一个函数

python - 使用nltk进行通用同义词和词性处理

python - 如何使用 opencv 制作剪切图/使图像背景透明?

python - 一旦我可以将这个字符串保存为图像,其他时候我就不能

image - 如何对图片进行圆 Angular 处理?

c# - 如何在 OpenCV 和 C# 中进行霍夫变换?

python - 用于返回下一个特征以 split 树的决策树实现

machine-learning - 为神经网络训练标记数据

python - Tensorflow 图像分类脚本