我有大约 100 个 csv 文件,每个 100,000 x 40 行 列。我想对其进行一些统计分析,提取一些样本数据,绘制总体趋势图,进行方差和 R 方分析,并绘制一些光谱图。目前,我正在考虑使用 numpy 进行分析。
我想知道这么大的文件会出现什么问题?我已经检查过错误数据。您对进行统计分析有何建议?如果我只是拆分文件并在 Excel 中完成整个操作会更好吗?
最佳答案
我发现 Python + CSV 可能是执行某些统计处理的最快、最简单的方法。
我们对奇怪的数据错误进行了大量的重新格式化和更正,因此 Python 可以帮助我们。
Python 的函数式编程特性的可用性使这变得特别简单。您可以使用这样的工具进行采样。
def someStatFunction( source ):
for row in source:
...some processing...
def someFilterFunction( source ):
for row in source:
if someFunction( row ):
yield row
# All rows
with open( "someFile", "rb" ) as source:
rdr = csv.reader( source )
someStatFunction( rdr )
# Filtered by someFilterFunction applied to each row
with open( "someFile", "rb" ) as source:
rdr = csv.reader( source )
someStatFunction( someFilterFunction( rdr ) )
我非常喜欢能够将更简单的函数组合成更复杂的函数。
关于Python:分析 CSV 文件 100,000 行 x 40 列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2142415/