我想实现一个应用程序,能够识别相机输入的图片。我的意思不是对象的分类
,而是从给定的图像集中检测精确的单个图像。因此,如果我有一个包含 500 张照片的相册,那么如果我将相机指向其中一张照片,那么应用程序将能够告诉它的文件名。我发现的大多数关于 CoreML 的教程都严格用于图像分类(识别对象的类别),而不是识别相机中的确切图像名称。这也需要从不同的角度进行工作,而我可以用来训练网络的就是这张包含许多不同图片的相册(单个对象的单个图片)。这可以通过某种方式实现吗?我无法使用 ARKit 图像跟踪
,因为这些图像大约有 500 个,我需要首先使用 CoreML
/愿景
。
最佳答案
我不确定,但我猜perceptual hashing也许可以帮助你。 它的工作原理是从引用图像中生成一些指纹,对于给定的图像,它也会提取指纹,然后你就可以找到最相似的指纹。
这样,即使新图像不是100%与数据集中的图像一样,你仍然可以检测到它。
其实实现起来并不难。但如果你愿意,我想phash图书馆是一个很好用的图书馆。
关于swift - CoreML 图像检测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59735032/