我有一本这样的字典:
d = {'Caps': 'cap_list', 'Term': 'unique_tokens', 'LocalFreq': 'local_freq_list','CorpusFreq': 'corpus_freq_list'}
我想从中创建一个 dask 数据框。我该怎么做?通常,在 Pandas 中,可以通过以下方式轻松导入 Pandas df:
df = pd.DataFrame({'Caps': cap_list, 'Term': unique_tokens, 'LocalFreq': local_freq_list,
'CorpusFreq': corpus_freq_list})
我应该先装入袋子,然后从袋子转换为 ddf 吗?
最佳答案
如果您的数据适合内存,那么我鼓励您使用 Pandas 而不是 Dask Dataframe。
如果由于某种原因你仍然想使用 Dask 数据框,那么我会将内容转换为 Pandas 数据框,然后使用 dask.dataframe.from_pandas
功能。
import dask.dataframe as dd
import pandas as pd
df = pd.DataFrame(...)
ddf = dd.from_pandas(df, npartitions=20)
但是在很多情况下,这会比仅仅使用 Pandas 慢。
关于pandas - 从字典创建一个 dask 数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59377561/