好吧,我正在为大学编写一个程序,我必须将数据转储为 HDF 格式。数据转储如下所示:
"1444394028","1","5339","M","873"
"1444394028","1","7045","V","0.34902"
"1444394028","1","7042","M","2"
"1444394028","1","7077","V","0.0470588"
"1444394028","1","5415","M","40"
"1444394028","1","7077","V","0.462745"
"1444394028","1","7076","B","10001101"
"1444394028","1","7074","M","19"
"1444394028","1","7142","M","16"
"1444394028","1","7141","V","0.866667"
对于 HDF5 API,我需要一个数组。所以我目前的方法是,将数据转储写入这样的数组:
int count = 0;
std::ifstream countInput("share/ObservationDump.txt");
std::string line;
if(!countInput) cout << "Datei nicht gefunden" << endl;
while( std::getline( countInput, line ) ) {
count++;
}
cout << count << endl;
struct_t writedata[count];
int i = 0;
std::ifstream dataInput("share/ObservationDump.txt");
std::string line2;
char delimeter(',');
std::string timestampTemp, millisecondsSinceStartTemp, deviceTemp, typeTemp, valueTemp;
while (std::getline(dataInput, timestampTemp, delimeter) )
{
std::getline(dataInput, millisecondsSinceStartTemp, delimeter);
std::getline(dataInput, deviceTemp, delimeter);
std::getline(dataInput, typeTemp, delimeter);
std::getline(dataInput, valueTemp);
writedata[i].timestamp = atoi(timestampTemp.substr(1, timestampTemp.size()-2).c_str());
writedata[i].millisecondsSinceStart = atoi(millisecondsSinceStartTemp.substr(1, millisecondsSinceStartTemp.size()-2).c_str());
writedata[i].device = atoi(deviceTemp.substr(1, deviceTemp.size()-2).c_str());
writedata[i].value = atof(valueTemp.substr(1, valueTemp.size()-2).c_str());
writedata[i].type = *(typeTemp.substr(1, typeTemp.size()-2).c_str());
i++;
}
与
struct_t
定义为struct struct_t
{
int timestamp;
int millisecondsSinceStart;
int device;
char type;
double value;
};
正如你们中的一些人可能看到的,使用大数据转储(大约 6 万行)数组
writedata
往往会产生堆栈溢出(段错误)。我需要一个数组将它传递给我的 HDF 适配器。如何防止溢出?我无法通过广泛的谷歌搜索找到答案。提前致谢!
最佳答案
example code您正在关注的是 C,而您正在编写的代码是 C++。在大多数情况下,有效的 C 代码就是有效的 C++ 代码,尽管不一定是好的风格;这是不存在的情况之一,尽管由于这不是您真正的问题,因此我将在答案的末尾对此进行解释。
当您声明 struct_t writedata[count];
,您正在堆栈上创建一个数组。堆栈的大小通常人为地受到限制,因此在堆栈上创建一个大数组可能会导致堆栈空间不足的问题。这就是你所看到的。典型的解决方案是在堆中创建大型数据结构(尽管堆的主要用途是使数据持续超过创建它的函数的return
)。
访问堆的最 C++ 惯用方式不是直接进行,而是使用辅助容器类。在这种情况下,您需要的是 std::vector
,它可以让您将数据推送到最后,并且会随着您推送更多数据而自动增长。由于它会自动增长,因此您无需提前指定大小;只需将其声明为 std::vector<struct_t> writedata;
(阅读“std::vector
中的 struct_t
”)。同样,由于它不需要预先知道大小,您也可以忽略整个第一个循环。
vector 最初是空的;要将数据放入其中,通常要使用 writedata.push_back()
或 writedata.emplace_back()
.其中第一个采用现有的 struct_t
;第二个接受你用来创建一个的参数。所有元素都连续存储在内存中,就像 C 数组一样,您可以使用 writedata.data()
直接访问它。 .
在函数结束时,vector
超出范围并且不再可访问,它的析构函数将被调用并自动清理它使用的内存。
另一种选择,而不是使用 std::vector
,就是自己管理内存。这样做的 C++ 方法是使用 new
和 delete
.最简单的处理方法是仍然计算 count
, 就像你做的那样,但不是通过将数组声明为 count
来在堆栈上创建数组大小的数组,你做 struct_t* writedata = new struct_t[count];
.这将创建一个数组 count
struct_t
s 在堆中,并设置 writedata
作为指向此数组的第一个元素的指针。然后你可以像在程序中使用数组一样使用它,但由于它在堆上,你不会用完堆栈空间。
这样做的缺点是需要提前知道大小,并且需要清理自己使用的内存。为此,当您不再需要数据时,应运行 delete[] writedata
.之后,writedata
仍然会指向内存中的同一个位置,但是您的程序不再拥有该数据,因此您需要确保不再使用该值;标准方法是在删除后立即设置 writedata
至nullptr
.
您也可以使用 C 等价于 new
和 delete
,它们是 malloc
和 free
.它们在您的情况下大部分是等效的,但是对于更复杂的示例,您应该记住,这些会使内存未初始化,而 new
和 delete
将运行您创建的构造函数/析构函数,以确保对象在开始时处于正常状态,并且不会在最后留下资源。
现在为什么您的原始代码对于任何大小的文件实际上都不是有效的 C++:您的行 struct_t writedata[count];
尝试创建 count
的数组struct_t
s。由于count
是一个变量,这称为变长数组(VLA)。这样的事情在较新版本的 C 中是合法的,但在 C++ 中不合法。只要您只想在当前使用的同一系统上编译代码,仅此一项就值得警告,因为您的编译器似乎支持 VLA 作为扩展。然而,如果你想在任何其他系统上编译你的代码(让它更便携),你不应该使用像这样的编译器扩展。
关于c++ - 带有大数组的 C++ 中的堆栈溢出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43848614/