直觉上,如果从几乎任何对象的不同角度给出十几个左右的 2d 图像,构建该对象的 3d 表示应该很容易。随后,以这种方式获得的 3d 表示库可用于识别新的 2d 图像。
在这些方面有哪些文献,为什么它还没有产生强大的物体识别能力?
最佳答案
正是你的“直觉”这个词给你带来了麻烦。你的大脑并不是为了完成某些任务而设计的,比如瞬间乘以数千个数字。然而,对于原始的计算能力,你的大脑让最快的计算机看起来只是简单的眨眼(神经响应时间只有大约 10 毫秒,但所有这些 10^14 个左右的神经元都并行工作,完全胜过任何现代机器)。只是您的大脑旨在解决计算上更加复杂的问题,例如识别图片中的对象、解析声音数据以及在背景噪音中挑选出单个扬声器。学习分类和处理数以万计类型的对象。
你的大脑设计用来做的那些计算量非常大的事情,对一个人来说,这些事情似乎是“直观的”。它设计得并不好做的事情似乎“不直观”或困难。但是强大的对象识别所需的原始计算(因为对象的种类太多了,其中许多确实有子对象,并且具有多种分类和非刚性形式,例如“裤子”、“水”、“狗”)远远不止需要完成人们认为只有计算机才能完成的事情。像使用“常识”来解决日常问题之类的事情对一个人来说同样微不足道,但在计算上却异常复杂。
关于computer-vision - 是什么让对象表示和识别变得困难?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5082784/