我正在研究我的期末项目,我想像 amazon go 一样进行对象检测和运动分类,我已经阅读了很多研究,例如使用 SSD 或 YOLO 进行对象检测以及使用 CNN+LSTM 进行视频分类,我想要提出这样的训练算法:
- 使用 SSD/YOLO 实时检测多个对象(在我的例子中:人)
- 获取边界对象并裁剪框架
- 将裁剪后的帧信息输入 CNN+LSTM 算法以进行运动预测(如果人正在行走/拿取元素)
可以在实时环境下制作吗? 或者有没有更好的实时检测和运动分类的方法
最佳答案
如果你想在实时应用中使用它,还必须考虑其他一些在实际环境中实现算法之前不会出现的事情。
关于您提出的三步方法,它已经可以产生一个好的方法,但第一步会非常准确。我认为最好将这 3 个步骤合并为一个步骤。因为人的运动类型是一个人的良好特征。正因为如此,我认为所有步骤都可以集中在一个步骤中。
我的想法是这样的: 1. 一个视频分类数据集,仅标记人或物体的运动 2.基于cnn-lstm的视频分类方法
这将正确解决您的项目。
这个答案需要更多细节,如果你有兴趣,我可以更详细地回答你。
关于machine-learning - 需要有关实时视频上的对象检测和运动分类的建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58361711/