machine-learning - 将同一物体的多个图像输入神经网络进行物体检测的方法

标签 machine-learning neural-network computer-vision deep-learning image-recognition

我正在考虑一个使用神经网络进行对象识别的玩具项目。我的一些物体从一个特定角度观看时非常相似,但从不同角度观看时很容易区分。因此我的问题是:

将同一对象的多个图像输入网络的方法有哪些?或者哪些网络架构可以利用从不同角度拍摄的多个图像?

我对机器学习技术有很好的了解,但对神经网络只有基本的了解。因此,我在这里寻找的是与谷歌搜索相关的方法、技术和其他术语的名称,以及可能感兴趣的特定论文或文章的链接。

最佳答案

使用多维数据的最常见方法是使用多维卷积 ( https://keras.io/layers/convolutional/#conv3d )、循环网络 ( http://www.deeplearningbook.org/contents/rnn.html ) 或多个输入,这与多维卷积有点相似。

循环网络处理数据序列,并且可以将图像堆栈视为一个序列。相比之下,多维卷积主要利用附近的数据。因此,同一空间在图像堆栈中高度相关非常重要。如果情况并非如此,您可能需要考虑在神经网络中使用多个输入。

关于machine-learning - 将同一物体的多个图像输入神经网络进行物体检测的方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44152357/

相关文章:

Python - 输入包含 NaN、无穷大或对于 dtype ('float64' 来说太大的值)

machine-learning - 神经网络可以比标记的训练集表现得更好吗?

machine-learning - 将静态数据(不随时间变化)添加到 LSTM 中的序列数据

c++ - 使用 cv::ml::StatModel::train 以使用 KNN 的 Opencv 错误

computer-vision - 合并照片纹理 -(来自校准的相机) - 投影到几何体上

python - 处理缺失值: When 99% of the data is missing from most columns (important ones)

matlab - 根据不同的窗口宽度(非对称窗口宽度)将局部最大值附近的值分配给局部最大值的值

python - SOM-- 神经网络

r - 如何使用 mxnet 包为 R 中的前馈神经网络指定正则化参数(L1 或 L2)?

opencv - 立体视觉物体识别