我有以下算法,
private void writetodb()
{
using(var reader = File.OpenRead("C:\Data.csv");
using(var parser = new TextFieldParser(reader))
{
//Do some opeartions
while(!parser.EndOfData)
{
//Do operations
//Take 500 rows of data and put it in dataset
Thread thread = new thread(() => WriteTodb(tablename, set));
thread.Start();
Thread.Sleep(5000);
}
}
}
public void WriteTodb(string table, CellSet set)
{
//WriteToDB
//Edit: This statement will write to hbase db in hdinsight
hbase.StoreCells(TableName, set);
}
此方法在 500 mb 数据 之前工作得很好,但在那之后它无法显示 Out of memory exception
。
我非常确定这是因为线程,但使用线程是强制性的,我无法更改架构。
谁能告诉我在上面的程序中我必须在线程编程中做哪些修改才能避免内存异常。
最佳答案
首先,我无法理解你所说的线程:
I have to make in thread programming in the above program to avoid memory exception.
如果你使用TPL
,你将使用线程编程,正如已经建议的那样。如果你不能理解它,你真的不必使用 Thread
类。您说您的代码是 C# 4.0
,因此 TPL
是您的一个选项。你可以做这样的事情(非常简单的方法):
List<Task> tasks = new List<Task>();
while(!parser.EndOfData)
{
tasks.Add(Task.Run(() => WriteTodb(tablename, set)));
}
Task.WaitAll(tasks.ToArray());
TPL 引擎将使用默认的 TaskScheduler
类,它使用内部 ThreadPool
并且可以平衡您在服务器上拥有的资源。
此外,我看到您正在使用 Microsoft 的 HBase
客户端,并且 it has async
method其中:
public async Task StoreCellsAsync(string table, CellSet cells)
{
}
所以你可以use the asynchronious approach in your code and TPL
at the same time :
List<Task> tasks = new List<Task>();
while(!parser.EndOfData)
{
tasks.Add(WriteTodb(tablename, set)));
}
// asynchroniously await all the writes
await Task.WhenAll(tasks.ToArray());
public async Task WriteTodb(string table,CellSet set)
{
//WriteToDB
//Edit: This statement will write to hbase db in hdinsight asynchroniously!
await hbase.StoreCellsAsync(TableName, set);
}
如果由于某些奇怪的原因,您不能使用TPL
,您必须重构您的代码并编写您自己的线程调度程序:
- 您不必每次都为写入创建线程,您可以重复使用它们。
- 在同一个线程中第二次运行通常比为每个操作创建两个不同的线程要快。
- 将文件拆分成多个部分,创建写入线程,循环写入数据。
关于c# - 使用线程时出现内存不足异常,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31658640/