Python:分析 CSV 文件 100,000 行 x 40 列

标签 python numpy

我有大约 100 个 csv 文件,每个 100,000 x 40 列。我想对其进行一些统计分析,提取一些样本数据,绘制总体趋势图,进行方差和 R 方分析,并绘制一些光谱图。目前,我正在考虑使用 numpy 进行分析。

我想知道这么大的文件会出现什么问题?我已经检查过错误数据。您对进行统计分析有何建议?如果我只是拆分文件并在 Excel 中完成整个操作会更好吗?

最佳答案

我发现 Python + CSV 可能是执行某些统计处理的最快、最简单的方法。

我们对奇怪的数据错误进行了大量的重新格式化和更正,因此 Python 可以帮助我们。

Python 的函数式编程特性的可用性使这变得特别简单。您可以使用这样的工具进行采样。

def someStatFunction( source ):
    for row in source:
        ...some processing...

def someFilterFunction( source ):
    for row in source:
        if someFunction( row ):
            yield row

# All rows
with open( "someFile", "rb" )  as source:
    rdr = csv.reader( source )
    someStatFunction( rdr )

# Filtered by someFilterFunction applied to each row
with open( "someFile", "rb" )  as source:
    rdr = csv.reader( source )
    someStatFunction( someFilterFunction( rdr ) )

我非常喜欢能够将更简单的函数组合成更复杂的函数。

关于Python:分析 CSV 文件 100,000 行 x 40 列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2142415/

相关文章:

python - 如何根据列的过滤条件删除行

python - 在 float numpy 数组中打印字符

python - 将最大 numpy 数组偏移量转换为元组?

python - 如何向量化 `__call__`方法

python - pip3 无法获取 URL https ://pypi. org/simple/pip/:确认 ssl 证书时出现问题

python - Pandas 对包含特定值的行进行加权平均值

python - Django "Singleton model"存储用户设置

python - 需要帮助来使用 pyinstaller 编译 python

python - 在 NumPy 中将逐元素乘法和矩阵乘法与多维数组相结合

python - 根据另一个数组更改列的值