c++ - 带有大数组的 C++ 中的堆栈溢出

好吧，我正在为大学编写一个程序，我必须将数据转储为 HDF 格式。数据转储如下所示:

"1444394028","1","5339","M","873"
"1444394028","1","7045","V","0.34902"
"1444394028","1","7042","M","2"
"1444394028","1","7077","V","0.0470588"
"1444394028","1","5415","M","40"
"1444394028","1","7077","V","0.462745"
"1444394028","1","7076","B","10001101"
"1444394028","1","7074","M","19"
"1444394028","1","7142","M","16"
"1444394028","1","7141","V","0.866667"

对于 HDF5 API，我需要一个数组。所以我目前的方法是，将数据转储写入这样的数组:

int count = 0;
std::ifstream countInput("share/ObservationDump.txt");
std::string line;

if(!countInput) cout << "Datei nicht gefunden" << endl; 

while( std::getline( countInput, line ) ) {
    count++;
}

cout << count << endl;

struct_t writedata[count];

int i = 0;

std::ifstream dataInput("share/ObservationDump.txt");
std::string line2;

char delimeter(',');

std::string timestampTemp, millisecondsSinceStartTemp, deviceTemp, typeTemp, valueTemp;

while (std::getline(dataInput, timestampTemp, delimeter) ) 
{
    std::getline(dataInput, millisecondsSinceStartTemp, delimeter);
    std::getline(dataInput, deviceTemp, delimeter);
    std::getline(dataInput, typeTemp, delimeter);
    std::getline(dataInput, valueTemp);

    writedata[i].timestamp = atoi(timestampTemp.substr(1, timestampTemp.size()-2).c_str());
    writedata[i].millisecondsSinceStart = atoi(millisecondsSinceStartTemp.substr(1, millisecondsSinceStartTemp.size()-2).c_str());
    writedata[i].device = atoi(deviceTemp.substr(1, deviceTemp.size()-2).c_str());
    writedata[i].value = atof(valueTemp.substr(1, valueTemp.size()-2).c_str());
    writedata[i].type = *(typeTemp.substr(1, typeTemp.size()-2).c_str());

    i++; 
}

与 struct_t定义为

struct struct_t
{
    int timestamp;
    int millisecondsSinceStart;
    int device; 
    char type; 
    double value; 
};

正如你们中的一些人可能看到的，使用大数据转储(大约 6 万行)数组 writedata往往会产生堆栈溢出(段错误)。我需要一个数组将它传递给我的 HDF 适配器。如何防止溢出？我无法通过广泛的谷歌搜索找到答案。提前致谢!

最佳答案

example code您正在关注的是 C，而您正在编写的代码是 C++。在大多数情况下，有效的 C 代码就是有效的 C++ 代码，尽管不一定是好的风格；这是不存在的情况之一，尽管由于这不是您真正的问题，因此我将在答案的末尾对此进行解释。

当您声明 struct_t writedata[count]; ，您正在堆栈上创建一个数组。堆栈的大小通常人为地受到限制，因此在堆栈上创建一个大数组可能会导致堆栈空间不足的问题。这就是你所看到的。典型的解决方案是在堆中创建大型数据结构(尽管堆的主要用途是使数据持续超过创建它的函数的return)。

访问堆的最 C++ 惯用方式不是直接进行，而是使用辅助容器类。在这种情况下，您需要的是 std::vector ，它可以让您将数据推送到最后，并且会随着您推送更多数据而自动增长。由于它会自动增长，因此您无需提前指定大小；只需将其声明为 std::vector<struct_t> writedata; (阅读“std::vector 中的 struct_t”)。同样，由于它不需要预先知道大小，您也可以忽略整个第一个循环。

vector 最初是空的；要将数据放入其中，通常要使用 writedata.push_back()或 writedata.emplace_back() .其中第一个采用现有的 struct_t ;第二个接受你用来创建一个的参数。所有元素都连续存储在内存中，就像 C 数组一样，您可以使用 writedata.data() 直接访问它。 .

在函数结束时，vector超出范围并且不再可访问，它的析构函数将被调用并自动清理它使用的内存。

另一种选择，而不是使用 std::vector ，就是自己管理内存。这样做的 C++ 方法是使用 new和 delete .最简单的处理方法是仍然计算 count , 就像你做的那样，但不是通过将数组声明为 count 来在堆栈上创建数组大小的数组，你做 struct_t* writedata = new struct_t[count]; .这将创建一个数组 count struct_t s 在堆中，并设置 writedata作为指向此数组的第一个元素的指针。然后你可以像在程序中使用数组一样使用它，但由于它在堆上，你不会用完堆栈空间。

这样做的缺点是需要提前知道大小，并且需要清理自己使用的内存。为此，当您不再需要数据时，应运行 delete[] writedata .之后，writedata仍然会指向内存中的同一个位置，但是您的程序不再拥有该数据，因此您需要确保不再使用该值；标准方法是在删除后立即设置 writedata至nullptr .

您也可以使用 C 等价于 new和 delete ，它们是 malloc和 free .它们在您的情况下大部分是等效的，但是对于更复杂的示例，您应该记住，这些会使内存未初始化，而 new和 delete将运行您创建的构造函数/析构函数，以确保对象在开始时处于正常状态，并且不会在最后留下资源。

现在为什么您的原始代码对于任何大小的文件实际上都不是有效的 C++:您的行 struct_t writedata[count];尝试创建 count 的数组struct_t s。由于count是一个变量，这称为变长数组(VLA)。这样的事情在较新版本的 C 中是合法的，但在 C++ 中不合法。只要您只想在当前使用的同一系统上编译代码，仅此一项就值得警告，因为您的编译器似乎支持 VLA 作为扩展。然而，如果你想在任何其他系统上编译你的代码(让它更便携)，你不应该使用像这样的编译器扩展。

关于c++ - 带有大数组的 C++ 中的堆栈溢出，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43848614/

c++ - 带有大数组的 C++ 中的堆栈溢出

上一篇：c++ - 存储可本地化字符串的惯用 Qt 方式？

下一篇：c++ - 将词法分析器字符串累加器移植到新版本的 Quex 时出现问题