opencv - HOG探测器: relation between detected roi size and training sample size

标签 opencv svm object-detection

我正在使用 opencv 和 HOGDescriptor c++ 对象试验人员检测器:HOGDescriptor::getDefaultPeopleDetector()。使用 Opencv 2.4.3 存储库的 example/cpp 目录中的示例程序 peopleDetect.cpp 并针对一些 INRIA dataset 对其进行测试图像..效果很好。

现在我想尝试使用一些必须使用的图像,即使我尝试更改参数..它也找不到任何东西。

我想这是因为我的图像中的行人比 INRIA 的小得多。因此,最好先训练一个新的检测器,但在这样做之前..

这是我的问题:

是吗?用于训练的图像和检测到的图像之间是否存在严格的关系?这意味着 HOG 检测器并不是真正的尺度不变方法。 特别是,默认的 HOGDescriptor::getDefaultPeopleDetector() 的最佳大小是多少?我是否必须训练一个新的检测器来检测小得多的人?

这是我正在使用的 peopledetect.cpp:

#include "opencv2/imgproc/imgproc.hpp"
#include "opencv2/objdetect/objdetect.hpp"
#include "opencv2/highgui/highgui.hpp"

#include <stdio.h>
#include <string.h>
#include <ctype.h>

#include <iostream>

using namespace cv;
using namespace std;

// static void help()
// {
//     printf(
//             "\nDemonstrate the use of the HoG descriptor using\n"
//             "  HOGDescriptor::hog.setSVMDetector(HOGDescriptor::getDefaultPeopleDetector());\n"
//             "Usage:\n"
//             "./peopledetect (<image_filename> | <image_list>.txt)\n\n");
// }

int main(int argc, char** argv)
{

    std::cout << "OPENCV version: " << CV_MAJOR_VERSION << " " << CV_MINOR_VERSION << std::endl; 

    Mat img;
    FILE* f = 0;
    char _filename[1024];

    if( argc == 1 )
    {
        printf("Usage: peopledetect (<image_filename> | <image_list>.txt)\n");
        return 0;
    }
    img = imread(argv[1]);

    if( img.data )
    {
        strcpy(_filename, argv[1]);
    }
    else
    {
        f = fopen(argv[1], "rt");
        if(!f)
        {
            fprintf( stderr, "ERROR: the specified file could not be loaded\n");
            return -1;
        }
    }

    HOGDescriptor hog;
    hog.setSVMDetector(HOGDescriptor::getDefaultPeopleDetector());
    namedWindow("people detector", 1);

    for(;;)
    {
        char* filename = _filename;
        if(f)
        {
            if(!fgets(filename, (int)sizeof(_filename)-2, f))
                break;
            //while(*filename && isspace(*filename))
            //  ++filename;
            if(filename[0] == '#')
                continue;
            int l = (int)strlen(filename);
            while(l > 0 && isspace(filename[l-1]))
                --l;
            filename[l] = '\0';
            img = imread(filename);
        }
        printf("%s:\n", filename);
        if(!img.data)
            continue;

        fflush(stdout);
        vector<Rect> found, found_filtered;
        double t = (double)getTickCount();
        // run the detector with default parameters. to get a higher hit-rate
        // (and more false alarms, respectively), decrease the hitThreshold and
        // groupThreshold (set groupThreshold to 0 to turn off the grouping completely).
        hog.detectMultiScale(img, found, 0, Size(8,8), Size(32,32), 1.05, 2);
        t = (double)getTickCount() - t;
        printf("tdetection time = %gms\n", t*1000./cv::getTickFrequency());

        std::cout << "found: " << found.size() << std::endl;

        size_t i, j;
        for( i = 0; i < found.size(); i++ )
        {
            Rect r = found[i];
            for( j = 0; j < found.size(); j++ )
                if( j != i && (r & found[j]) == r)
                    break;
            if( j == found.size() )
                found_filtered.push_back(r);
        }
        for( i = 0; i < found_filtered.size(); i++ )
        {
            Rect r = found_filtered[i];
            // the HOG detector returns slightly larger rectangles than the real objects.
            // so we slightly shrink the rectangles to get a nicer output.
            r.x += cvRound(r.width*0.1);
            r.width = cvRound(r.width*0.8);
            r.y += cvRound(r.height*0.07);
            r.height = cvRound(r.height*0.8);
            rectangle(img, r.tl(), r.br(), cv::Scalar(0,255,0), 3);
        }
        imshow("people detector", img);
        int c = waitKey(0) & 255;
        if( c == 'q' || c == 'Q' || !f)
            break;
    }
    if(f)
        fclose(f);
    return 0;
}

最佳答案

HOG 使用经过训练的数据。为了有效地使用它,您有 3 种可能性:

  1. 将图像与训练数据的数据类型相同/相近(即,如 INRIA 数据集截图)(简单的方法)

  2. 构建您自己的训练数据以用于 HOG。 (艰难的方式)

  3. 找到一个非常通用的 SVM 集,它可以在任何地方应用(很难找到)

关于opencv - HOG探测器: relation between detected roi size and training sample size,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21292120/

相关文章:

r - e1071 的 svm 产生错误结果

deep-learning - Yolo 3 在 Yolo 4 中是如何实现的?

image-processing - 为什么物体检测需要图像分割?

python - 如何裁剪图像,如果坐标不存在,则延伸另一侧,从而保持裁剪的大小相同?

c++ - 带有 OpenCv 和指针的 OpenMp

python - Scikit Learn SGDClassifier Partial_Fit 错误

machine-learning - SVM 硬边距 : why imbalanced dataset may cause bad results?

computer-vision - Yolo 或 Faster RCNN 中的 anchor 框或边界框

opencv - 如何在 OpenCV 中使用 cv::BackgroundSubtractorMOG?

c++ - BFMatcher knnMatch