c++ - 对于大型对象(超过 30 个字段)覆盖 istream 的最佳方法是什么?

标签 c++ performance memory-management large-data istream

我有一个非常大的文本文件,包含超过 1100 万个条目/行。每行有 35 个值,每个值由“|”分隔/定界。

对于我正在读入的每一行,我正在创建一个对象“记录”。我将它们存储在记录 vector 中,因为我需要能够根据给定字段中的值对它们进行排序。 (如果有更好的方法,请提出)

我知道如何重写 istream>> 运算符,但我从来没有必要为这么大的对象执行此操作,而且我不确定最好的方法是什么。我尝试在每个分隔符之前创建标记 IE:

using namespace std; 

inline istream& operator>>(istream& is, Record& r) {
    string line_of_text;
    string token;
    char delim = '|';

    is >> temp;

    token = line_of_text.substr(0, line_of_text.find(delim));
    r.firstField = token;
    
    // so on for each field in Record

    return is;
}

但这非常不切实际且效率低下。

对于这么大的对象,有没有合理的方法来做到这一点?在不浪费这么多内存的情况下解析这样的文本的最佳方法是什么?

输入行示例:

xx|0000|0| 0.00| 3.00|111|111| 5.70| 136000.00| 620.23| 80.00| 47.00| 0.000|固定|P|C| 80.00|完整|SF|1.|P|常规|ME| 3| | |未报告 |WFHM |2 |N| |1|0|0|0|0|0| 126162.03| 0.00| 0.00| 0.00| 0.00| 0.00| 0.00| 0.00

我也尝试过这样做

inline istream& operator>>(istream& is, Record& r) {
    return is >> r.fieldOne >> r.fieldTwo; //....etc
}

但这不起作用,因为许多字段没有用空格分隔,而只是用“|”分隔,是否有一种优雅的方法让 >> 跳过“|”就像空格一样?请记住,字段可能为空。

最佳答案

我真的很想找到一次指向成员语法的用途,所以......

您可以将指向成员的指针语法与一组重载的帮助程序一起使用,让编译器选择正确的转换器:

struct Record
{
    int x;
    std::string y;
    double z;
    
    void readInput(std::istream& in, int Record::*var)
    {
        std::string input;
        std::getline(in, input, '|');
        this->*var = std::stoi(input);
    }
    
    void readInput(std::istream& in, double Record::*var)
    {
        std::string input;
        std::getline(in, input, '|');
        this->*var = std::stod(input);
    }
    
    void readInput(std::istream& in, std::string Record::*var)
    {
        std::getline(in, this->*var, '|');
    }
};

有了这个,运算符>>将如下所示:

std::istream& operator>>(std::istream& in, Record& r)
{
    r.readInput(in, &Record::x);
    r.readInput(in, &Record::y);
    r.readInput(in, &Record::z);
    //no need to handle last value as special case as long as stream ends there and you don't care that it will be in fail() state afterwards
    return in;
}

See it online


可以只提供自由函数,它采用引用而不是指向成员的指针,例如:

void readInput(std::istream& in, int& var)
{
    std::string input;
    std::getline(in, input, '|');
    var = std::stoi(input);
}

operator >>中使用如下:

readInput(in, r.x);

这两种方法之间的核心区别在于您是否希望它只能与 Record 一起使用,还是始终希望读取由 |< 分隔的整数 来自 istreams。

关于c++ - 对于大型对象(超过 30 个字段)覆盖 istream 的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64854973/

相关文章:

C++ 比较运算符不返回 true 或 false

c++ - 在 C++ 循环中,重用大型数据结构并重置内容或分配新内容,哪个更快?

android - 检测android native 代码中的内存泄漏

没有动态内存分配的 C++ 返回数组?

c++ - (C++) 错误 : 'invalid_argument' was not declared in this scope

c++ - 如何在单独的线程上设置 QSerialPort?

C++ 性能挑战:整数到 std::string 的转换

c# - 从 PHP 最快访问密集型函数?

java - 开启JIT日志,分析汇编代码,对代码优化有帮助吗?

java - 有哪些工具可以分析 Java 中堆外的内存使用情况?