computer-vision - 是什么让对象表示和识别变得困难?

标签 computer-vision graphics 3d-reconstruction object-recognition

直觉上,如果从几乎任何对象的不同角度给出十几个左右的 2d 图像,构建该对象的 3d 表示应该很容易。随后,以这种方式获得的 3d 表示库可用于识别新的 2d 图像。

在这些方面有哪些文献,为什么它还没有产生强大的物体识别能力?

最佳答案

正是你的“直觉”这个词给你带来了麻烦。你的大脑并不是为了完成某些任务而设计的,比如瞬间乘以数千个数字。然而,对于原始的计算能力,你的大脑让最快的计算机看起来只是简单的眨眼(神经响应时间只有大约 10 毫秒,但所有这些 10^14 个左右的神经元都并行工作,完全胜过任何现代机器)。只是您的大脑旨在解决计算上更加复杂的问题,例如识别图片中的对象、解析声音数据以及在背景噪音中挑选出单个扬声器。学习分类和处理数以万计类型的对象。

你的大脑设计用来做的那些计算量非常大的事情,对一个人来说,这些事情似乎是“直观的”。它设计得并不好做的事情似乎“不直观”或困难。但是强大的对象识别所需的原始计算(因为对象的种类太多了,其中许多确实有子对象,并且具有多种分类和非刚性形式,例如“裤子”、“水”、“狗”)远远不止需要完成人们认为只有计算机才能完成的事情。像使用“常识”来解决日常问题之类的事情对一个人来说同样微不足道,但在计算上却异常复杂。

关于computer-vision - 是什么让对象表示和识别变得困难?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5082784/

相关文章:

iphone - OpenGLES 中缺少的函数的替代列表

c++ - 如何通过删除 "free faces"从非流形中提取底层 2-流形?

matlab - 校准相机获得匹配点进行 3D 重建,理想测试失败

image-processing - 使用 OpenCV 查找图像中矩形的位置

python - 从包含带有边框的表格的图像中提取表格结构

opencv - OpenCV,计算距深度垫的像素距离

c++ - SFML + OpenGL : Unable to draw cube

ios - SceneKit如何绘制上万条线?

opencv - 关于Motion Pipeline结构的问题

c++ - 像素级图像配准/对齐?