python - 如何显着减少数据集(比如 .csv)的大小以在 Pandas 中进行分析?

标签 python pandas

假设我们有 1GB 的数据集(比如 .csv)要分析,但我们无法快速运行,因为延迟太大而无法一次又一次地运行,如何才能使数据具有足够的可扩展性以进行分析。

最佳答案

很多次我遇到这个问题并通过制作数据集的数据帧并通过从数据帧输出创建新数据集(比如.csv)得到了一个简单的解决方案,最重要的是创建新数据集几乎 1/8 数据集实际大小。下面是它如何工作的示例。

import pandas as pd
df=pd.DataFrame()
df=pd.read_csv('a1.csv')

现在,在对数据进行一些小操作后(如果需要),您可以输出数据并获得非常小的 .csv 文件来分析数据。

df.to_csv('a2.csv')

如果您有其他方法可以使用 Pandas 处理更大的数据集,请纠正我。

关于python - 如何显着减少数据集(比如 .csv)的大小以在 Pandas 中进行分析?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38300152/

相关文章:

python - 如何在 python 中合并附加两个嵌套字典?

python - 如何在 python 中使用 boto3 在 amazon-cognito 中创建用户

Python:将字典附加到列表中

python - pandas Dataframe 的不同颜色取决于索引号

python - 使用 pandas 在 CSV 文件中写入注释

Python执行目录和子目录中的所有Python文件

python - 在 python 中,是否有与 isinstance 等效的静态?

python - 如何将行的值转换为列

python - 有条件地格式化 Python pandas 单元格

python - (Python 代码不在循环中工作)pandas.DataFrame.apply() 不在循环中工作