我正在考虑一个使用神经网络进行对象识别的玩具项目。我的一些物体从一个特定角度观看时非常相似,但从不同角度观看时很容易区分。因此我的问题是:
将同一对象的多个图像输入网络的方法有哪些?或者哪些网络架构可以利用从不同角度拍摄的多个图像?
我对机器学习技术有很好的了解,但对神经网络只有基本的了解。因此,我在这里寻找的是与谷歌搜索相关的方法、技术和其他术语的名称,以及可能感兴趣的特定论文或文章的链接。
最佳答案
使用多维数据的最常见方法是使用多维卷积 ( https://keras.io/layers/convolutional/#conv3d )、循环网络 ( http://www.deeplearningbook.org/contents/rnn.html ) 或多个输入,这与多维卷积有点相似。
循环网络处理数据序列,并且可以将图像堆栈视为一个序列。相比之下,多维卷积主要利用附近的数据。因此,同一空间在图像堆栈中高度相关非常重要。如果情况并非如此,您可能需要考虑在神经网络中使用多个输入。
关于machine-learning - 将同一物体的多个图像输入神经网络进行物体检测的方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44152357/