computer-vision - 是什么让对象表示和识别变得困难？

标签 computer-vision graphics 3d-reconstruction object-recognition

直觉上，如果从几乎任何对象的不同角度给出十几个左右的 2d 图像，构建该对象的 3d 表示应该很容易。随后，以这种方式获得的 3d 表示库可用于识别新的 2d 图像。

在这些方面有哪些文献，为什么它还没有产生强大的物体识别能力？

最佳答案

正是你的“直觉”这个词给你带来了麻烦。你的大脑并不是为了完成某些任务而设计的，比如瞬间乘以数千个数字。然而，对于原始的计算能力，你的大脑让最快的计算机看起来只是简单的眨眼(神经响应时间只有大约 10 毫秒，但所有这些 10^14 个左右的神经元都并行工作，完全胜过任何现代机器)。只是您的大脑旨在解决计算上更加复杂的问题，例如识别图片中的对象、解析声音数据以及在背景噪音中挑选出单个扬声器。学习分类和处理数以万计类型的对象。

你的大脑设计用来做的那些计算量非常大的事情，对一个人来说，这些事情似乎是“直观的”。它设计得并不好做的事情似乎“不直观”或困难。但是强大的对象识别所需的原始计算(因为对象的种类太多了，其中许多确实有子对象，并且具有多种分类和非刚性形式，例如“裤子”、“水”、“狗”)远远不止需要完成人们认为只有计算机才能完成的事情。像使用“常识”来解决日常问题之类的事情对一个人来说同样微不足道，但在计算上却异常复杂。

关于computer-vision - 是什么让对象表示和识别变得困难？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5082784/

上一篇：design-patterns - java异常处理策略

下一篇：amazon-web-services - 创建 AWS Cognito 用户池后如何更改电话号码格式？

相关文章：

iphone - OpenGLES 中缺少的函数的替代列表

c++ - 如何通过删除 "free faces"从非流形中提取底层 2-流形？

matlab - 校准相机获得匹配点进行 3D 重建，理想测试失败

image-processing - 使用 OpenCV 查找图像中矩形的位置

python - 从包含带有边框的表格的图像中提取表格结构

opencv - OpenCV，计算距深度垫的像素距离

c++ - SFML + OpenGL : Unable to draw cube

ios - SceneKit如何绘制上万条线？

opencv - 关于Motion Pipeline结构的问题

c++ - 像素级图像配准/对齐？