machine-learning - ARKit 图像检测 - 许多图像

标签 machine-learning computer-vision arkit image-recognition coreml

我需要制作一个应用程序来检测图像及其位置，并在其上显示 AR 内容。这些图像会在应用程序的生命周期内发生变化，并且可能会有很多。我想知道如何设计这种应用程序。 ARKit 可以提供此功能 - 检测图像及其方向，并在其上显示 AR 内容。但问题是 ARKit 一次只能检测到有限数量的图像。例如，如果我有 300 张图像，那么可能会出现问题。也许我可以准备一些 ML 数据集来预先检测图像，然后将其分配为动态可跟踪的 ARKit？这是正确的方法吗？我还能做些什么来制作这样一个具有动态和大量图像来检测的应用程序？

最佳答案

关于ML方法，您可以使用几乎任何最先进的对象检测网络来提取所需目标的近似坐标并提取帧的该部分，传递正值ARKit 或类似的。缺点是培训可能会占用大量资源。它可能有效，但我无法谈论它相对于其他方法的效率。

在扩展这个解释时，我看到 ARKit 2.0 处理(看起来是)你想要做的事情；是 this不够？

为了回答您在评论中的问题，CoreML 似乎提供了对象识别模型，但没有提供本地化模型，因此我怀疑有必要使用他们的 converter训练诸如 these 之类的模型后。该网络的输入将是来自相机的帧，输出将是具有检测概率和近似坐标的检测类；您的目标是否存在以及它们的大致位置。

不过，如果您正在寻找 2D 图像而不是 3D+ 对象，并且尤其如果它是 ARKit 应用程序，那么 ARKit 的内置跟踪确实看起来会更有效开发成本大大降低。

关于machine-learning - ARKit 图像检测 - 许多图像，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56290436/