我对深度学习这个领域非常陌生。虽然我了解它是如何工作的,并且我设法在 Caffe 库上运行了一些教程,但我仍然有一些问题,但我无法找到令人满意的答案。
我的问题如下:
考虑 AlexNet,它采用 227 x 227 图像大小作为 caffe 中的输入(我认为在原始论文中是 224),FC7 生成 4096-D 特征向量。现在,如果我想检测一个人,说使用大小为 (32 x 64) 的滑动窗口,那么每个窗口在通过 AlexNet 之前都会被放大到 227 x 227。这是一些很大的计算。有没有更好的方法来处理这个(32 x 64)窗口?
我对这个 32 x 64 窗口检测器的方法是构建我自己的网络,其中包含很少的卷积、池化、ReLus 和 FC。虽然我了解如何构建架构,但我担心我将训练的模型可能存在过度拟合等问题。我的一位 friend 告诉我使用 AlexNet 预训练我的网络,但我不知道该怎么做?我暂时联系不上他,但有谁认为他说的可行吗?我很困惑。我正在考虑使用 ImageNet 并训练我的网络,该网络将采用 32 x 64 输入。由于这只是特征提取器,我觉得使用 imageNet 可能会为我提供各种图像以进行良好的学习?如果我错了,请纠正我,如果可能的话,引导我走上正确的道路。
这个问题只是关于 Caffe。假设我使用 HOG 计算特征,并且想使用 GPU 版本的神经网络来训练分类器。那可能吗?我想考虑使用 HDF5 层读取 hog 特征向量并通过该全连接层进行训练?这可能吗?
如果有任何帮助或论文链接等可以帮助我理解卷积网络的想法,我将不胜感激。
最佳答案
对于包含全连接层的 CNN,输入大小无法更改。如果网络在 224x224 图像上进行训练,则输入大小必须为 224x224。看看这个question .
从头开始训练自己的网络将需要大量数据。 AlexNet 接受了一百万张图像的训练。如果您有如此大量的训练数据(您可以下载 ImageNet 训练数据),那么就继续吧。否则你可能想看看 finetuning .
是的,您可以使用HDF5层读取HOG特征向量进行训练。
关于neural-network - 用小输入训练深度卷积网络,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38335553/