machine-learning - ARKit 图像检测 - 许多图像

标签 machine-learning computer-vision arkit image-recognition coreml

我需要制作一个应用程序来检测图像及其位置,并在其上显示 AR 内容。这些图像会在应用程序的生命周期内发生变化,并且可能会有很多。我想知道如何设计这种应用程序。 ARKit 可以提供此功能 - 检测图像及其方向,并在其上显示 AR 内容。但问题是 ARKit 一次只能检测到有限数量的图像。例如,如果我有 300 张图像,那么可能会出现问题。也许我可以准备一些 ML 数据集来预先检测图像,然后将其分配为动态可跟踪的 ARKit?这是正确的方法吗?我还能做些什么来制作这样一个具有动态和大量图像来检测的应用程序?

最佳答案

关于ML方法,您可以使用几乎任何最先进的对象检测网络来提取所需目标的近似坐标并提取帧的该部分,传递正值ARKit 或类似的。缺点是培训可能会占用大量资源。它可能有效,但我无法谈论它相对于其他方法的效率。

在扩展这个解释时,我看到 ARKit 2.0 处理(看起来是)你想要做的事情;是 this不够?

为了回答您在评论中的问题,CoreML 似乎提供了对象识别模型,但没有提供本地化模型,因此我怀疑有必要使用他们的 converter训练诸如 these 之类的模型后。该网络的输入将是来自相机的帧,输出将是具有检测概率和近似坐标的检测类;您的目标是否存在以及它们的大致位置。

不过,如果您正在寻找 2D 图像而不是 3D+ 对象,并且尤其如果它是 ARKit 应用程序,那么 ARKit 的内置跟踪确实看起来会更有效开发成本大大降低。

关于machine-learning - ARKit 图像检测 - 许多图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56290436/

相关文章:

machine-learning - 批量大小在推理中是否重要

java - Weka预测分类节点

python - 在图像锐化中进行相同操作后得到不同的图像阵列

Python/OpenCV — 细菌图像中的智能质心跟踪?

ios - 如何在 iOS 11 中将 3d 对象放置在水平面的固定位置?

matlab - 在 MATLAB 中使用 princomp 进行 PCA(用于人脸识别)

opencv - opencv_traincascade CvCascadeClassifier::fillPassedSamples 中的无限循环

ios - AVFoundation视频播放问题

swift - SceneKit - 如何获取 .dae 模型的动画?

python - 我是否错误地使用了 LMDB?它说在 0 次插入后达到环境映射大小限制