machine-learning - 为什么姿态估计器这么慢?

标签 machine-learning deep-learning computer-vision face-detection pose-estimation

我是机器学习领域的新手,有一个关于计算机视觉的问题。为什么人脸检测和物体检测软件(例如 Instagram 的人脸滤镜)可以在我们的智能手机上以 30 - 60 FPS 的速度流畅运行,而姿势估计软件(例如 OpenPose)却很难以 10 FPS 以上的速度处理实时视频(具有不错的规范)也)?

如果我错了,请纠正我,但 Snapchat 的软件可以跟踪你的脸部,直到光线不足和相当突然的运动为止,并且他也可以通过姿势估计来完成,但需要更好/更多的 GPU 并以较低的 FPS 运行。

用于实时姿势估计的最快类型的神经网络是什么?哪些组件构成了可以实时准确预测人的姿势的强大神经网络?

是否有可能执行大量计算并仍然实现相对较高的 FPS?

欢迎任何回复

最佳答案

纯粹的检测总是很慢。最常见的方法是使用检测 -> 跟踪 -> 更新框架。

在显示线程中,视频以恒定 30 fps 的速度显示。 <- 这是用户将看到的内容,并且不会感受到延迟带来的痛苦。

后端,姿势检测不断更新到姿势模型(通过 EKF 或其他方式预测)。 EKF 能够输出与显示线程频率对应的 30 Hz 的模型。在这之间,如果您有面部更新,您还可以更新相关面部模型以局部预测具有较大方差的小步长/基线姿势运动。在关键姿势更新步骤中,为此更新提供低方差以执行主要更新。

关于machine-learning - 为什么姿态估计器这么慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56389553/

相关文章:

python - fit_generator 中的 Keras steps_per_epoch 是如何工作的

python-3.x - 如何知道哪些特征对预测目标类别影响更大?

rotation - 给定旋转的旋转矩阵是否唯一?

python - (scikit-image) HOG 可视化图像在保存时显示为黑色

python - 如何确定机器学习模型的最佳阈值(随机森林)

machine-learning - ValueError : The name "Sequential" is used 4 times in the model. 所有图层名称都应该是唯一的吗?

opencv - 手部实时追踪

r - 如何解释 h2o.predict() 结果的概率 (p0, p1)

machine-learning - 查找用户标签之间的距离/相似度的算法?

python - 从图像中提取时钟指针