python - 如何为深度学习训练数据集创建真实边界框?

标签 python deep-learning faster-rcnn

我正在开发一个项目,我想使用 mask RCNN 来识别一组图像中的对象。但是,我很难理解如何为地面实况数据创建边界框(编码像素)。谁能指出我正确的方向或进一步向我解释这一点?

最佳答案

边界框通常是手工标记的。大多数深度学习人员使用单独的应用程序进行标记。我相信这个包很受欢迎:

https://github.com/AlexeyAB/Yolo_mark

我开发了自己的 RoR 标记解决方案,因为这有助于将工作分配给几个人。如果您想看一下,该存储库是开源的:

https://github.com/asfarley/imgclass

我认为称其为“编码像素”有点误导。边界框是带标签的矩形数据类型,这意味着它们完全由类型(汽车、公共(public)汽车、卡车)和矩形角的 (x,y) 坐标定义。

用于定义边界框的软件通常由图像显示元素以及允许用户在 UI 上拖动边界框的功能组成。我的应用程序使用单选按钮列表来选择对象类型(汽车、公共(public)汽车等);然后用户绘制一个边界框。

完全标记图像的结果是一个文本文件,其中每一行代表一个边界框。您应该检查训练算法的库文档,以准确了解输入边界框所需的格式。

在我自己的应用程序中,我开发了一些功能来比较不同用户的边界框。在任何大型机器学习工作中,您可能会遇到一些错误标记的图像,因此您确实需要一个工具来识别这一点,因为它会严重降低您的结果。

关于python - 如何为深度学习训练数据集创建真实边界框?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59867441/

相关文章:

python - Keras 中用于图像分类的 CNN 类型是什么?

dataset - 在 Keras 中的数值数据集上使用自动编码器

Python Selenium Firefox 脚本在重新启动驱动程序实例后崩溃

python - 如何在 python 中使用 espeak 演奏动态弦乐

python - 有没有办法在 python/rpy2 中访问 R 数据框列名?

machine-learning - LSTM 预测的初始部分中的摆动

python - 使用采样解码器输出实现 seq2seq

python - 使用更快的 RCNN Inception Resnet 进行迁移学习 |为什么在第一个检查点之后的每个步骤都会保存新的检查点?

tensorflow - 是否有必要在图像上标记类别的每个对象?

Python Pandas 匹配两个索引和列的值