python - map_partitions 的返回值是多少?

标签 python pandas dask

dask API 表示,map_partition 可用于“在每个 DataFrame 分区上应用 Python 函数”。从这个描述和“ map ”的通常行为来看,我希望 map_partitions 的返回值是(类似于)一个长度等于分区数的列表。列表的每个元素都应该是函数调用的返回值之一。

但是,对于下面的代码,我不确定返回值取决于什么:

#generate example dataframe
pdf = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD'))
ddf = dd.from_pandas(pdf, npartitions=3)

#define helper function for map. VAL is the return value
VAL = pd.Series({'A': 1})
#VAL = pd.DataFrame({'A': [1]}) #other return values used in this example
#VAL = None
#VAL = 1
def helper(x):
    print('function called\n')
    return VAL

#check result
out = ddf.map_partitions(helper).compute()
print(len(out))
  • VAL = pd.Series({'A': 1}) 导致 4 次函数调用(可能是一次推断数据类型和 3 次用于分区)和一个输出 len == 3 和pd.Series 类型。
  • pd.DataFrame({'A': [1]}) 结果相同,但结果类型为 pd.DataFrame。
  • VAL = None 导致 TypeError ... 为什么?难道不能使用 map_partitions 来某事而不是返回某事吗?
  • VAL = 1 仅导致 2 次函数调用。 map_partitions 的结果是整数 1。

因此,我想请教几个问题:

  1. map_partitions 的返回值是如何确定的?
  2. 除了分区数之外,还有什么会影响函数调用的数量/每个分区调用一次函数需要满足什么条件?
  3. 一个函数的返回值应该是什么,它只“做”某事,即一个过程?
  4. 应该如何设计返回任意对象的函数?

最佳答案

Dask DataFrame.map_partitions函数根据映射函数的输出类型返回一个新的 Dask Dataframe 或 Series。查看API documentation以获得详尽的解释。

  1. map_partitions的返回值是如何确定的?

    请参阅上面提到的 API 文档。

  2. 除了分区数之外,还有什么会影响函数调用的数量/每个分区调用一次函数要满足什么条件?

    你是对的,我们立即调用它一次来猜测输出的数据类型/列。您可以通过直接指定 meta= 关键字来避免这种情况。除此之外,该函数每个分区调用一次。

  3. 一个函数的返回值应该是什么,它只“做”某事,即一个过程?

    你总是可以返回一个空的数据框。您可能还想考虑将数据框转换为 dask.delayed 的序列对象,通常更常用于临时计算。

  4. 返回任意对象的函数应该如何设计?

    如果您的函数不返回系列/数据帧,那么我建议将您的数据帧转换为 dask.delayed 的序列带有 DataFrame.to_delayed 的对象方法。

关于python - map_partitions 的返回值是多少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39215617/

相关文章:

python - pandas 从数据框中提取列表

python - Matplotlib imshow 显示所有像素

python - 在 pip 中获取 zip 文件时出现 403 错误

dask - 为什么 dask 的 read_sql_table 需要一个 index_col 参数?

python - 如何调试 Kubernetes 中部署的 Dask Gateway 中的 CommClosedError

python - 在 Dask 中使用 read_csv 进行列名移位

python - python中的三向字典深度合并

python - 如何加快DataFrame设置速度?

python - 如何在 MinIO 中将 Pandas 数据框保存为 CSV 文件?

python - 高级描述 Pandas