object - 多目标跟踪 (MOT) 评估的最佳指标是什么?为什么?

标签 object deep-learning computer-vision object-detection tracking

我想在我自己的数据集上比较多种计算机视觉多目标跟踪 (MOT) 方法,因此首先我想为这项任务选择最佳指标。我对科学文献进行了一些研究,得出的结论是存在三个主要指标集:

  1. 来自 "Tracking of Multiple, Partially Occluded Humans based on Static Body Part Detection" 的指标
  2. CLEAR MOT metrics
  3. ID scores

因此,我想知道我应该最重视上述哪些指标?

我想问问是否有人遇到过类似的问题并对这个主题有任何想法可以证明并帮助我为上述任务选择最佳指标。

最佳答案

我知道这是旧的,但我看到没有人提到 HOTA ( https://arxiv.org/pdf/2009.07736.pdf )。该指标已成为多目标跟踪的新标准,最新的 SOTA 跟踪研究表明:https://arxiv.org/abs/2202.13514https://arxiv.org/pdf/2110.06864.pdf

使用非 MOTA 和 IDF1 指标的原因是它们分别过分强调检测和关联。 HOTA 明确测量这两种类型的错误并以平衡的方式组合它们。 HOTA 还结合了测量跟踪结果的定位精度,这在 MOTA 或 IDF1 中都不存在。

关于object - 多目标跟踪 (MOT) 评估的最佳指标是什么?为什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65304345/

相关文章:

Javascript 方法以字符串形式返回方法代码

java - 父类可以看到子类的 protected 变量吗?

deep-learning - 如何在 Keras 中按列拆分张量以实现 STFCN

python - BCELoss 用于二进制像素级分割 pytorch

deep-learning - 为拥抱脸 (HF) ViT 模型创建特征提取器的正确方法是什么?

Javascript 类继承,而不是函数

javascript - Node-Red 中函数的输出在 html 中显示为 [object OBJECT]。模板

machine-learning - 什么时候应该运行 wandb.watch 以便权重和偏差正确跟踪参数和梯度?

opencv - 从屏幕截图检测在浏览器中播放的视频——OpenCV

c# - 使用 EmguCV 3.1.0.1 从视频捕获中检测