pandas - 从字典创建一个 dask 数据框

标签 pandas dask

我有一本这样的字典:

d = {'Caps': 'cap_list', 'Term': 'unique_tokens', 'LocalFreq': 'local_freq_list','CorpusFreq': 'corpus_freq_list'}

我想从中创建一个 dask 数据框。我该怎么做?通常,在 Pandas 中,可以通过以下方式轻松导入 Pandas df:
df = pd.DataFrame({'Caps': cap_list, 'Term': unique_tokens, 'LocalFreq': local_freq_list,
                               'CorpusFreq': corpus_freq_list})

我应该先装入袋子,然后从袋子转换为 ddf 吗?

最佳答案

如果您的数据适合内存,那么我鼓励您使用 Pandas 而不是 Dask Dataframe。

如果由于某种原因你仍然想使用 Dask 数据框,那么我会将内容转换为 Pandas 数据框,然后使用 dask.dataframe.from_pandas功能。

import dask.dataframe as dd
import pandas as pd

df = pd.DataFrame(...)
ddf = dd.from_pandas(df, npartitions=20)

但是在很多情况下,这会比仅仅使用 Pandas 慢。

关于pandas - 从字典创建一个 dask 数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59377561/

相关文章:

python - 如何在pandas中groupby之后压缩行

Python Pandas <...上的pandas.core.groupby.DataFrameGroupBy对象>

python - 为 dask 数据框列创建 dask 列表

python-3.x - 如何使用 Dask 比较两个大型 CSV 文件

python - 将 csv 导入 dask 中的数据框时命名列

python - 绘图轴以相反的顺序显示日期(从最近到最早)-Python

python - 在 Pandas 中应用带参数的函数

python - Pandas - 将前导 "0"添加到字符串值,以便所有值都等于 len

dask - 如何在多台机器上运行dask?

python - Dask dataframe apply 在传递局部变量作为参数时给出意外的结果