Dask:定期更新发布的数据集并从其他客户端拉取数据

标签 dask dask-distributed dask-dataframe

我想从队列(如 redis)中向 published dask dataset 添加数据。然后其他 python 程序将能够获取最新数据(例如每秒一次/分钟)并执行一些进一步的操作。

  1. 这可能吗?
  2. 应该使用哪个追加接口(interface)?我应该先将它加载到 pd.DataFrame 中,还是最好使用一些文本导入器?
  3. 假定的附加速度是多​​少?是否可以在一秒钟内追加 1k/10k 行?
  4. 对于在 dask 集群中交换庞大且快速更新的数据集还有其他好的建议吗?

感谢任何提示和建议。

最佳答案

这里有几个选项。

What are the assumed append speeds? Is it possible to append lets say 1k/10k rows in a second?

Dask 只是跟踪远程数据。与 Dask 相比,应用程序的速度更多地取决于您选择如何表示该数据(例如 python 列表与 pandas 数据帧)。 Dask 每秒可以处理数千个任务。这些任务中的每一个都可以有一行或数百万行。这取决于您如何构建它。

关于Dask:定期更新发布的数据集并从其他客户端拉取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63156650/

相关文章:

pandas - dask 如何定义并行操作并返回具有不同形状的数据帧的自定义(时间折叠)函数

python - 在 Dask apply 中返回结构化行

python - 在 dask 数组中使用 float32 时出现内存错误

python - 无法在 dask worker 中加载模块

kubernetes - 如何从本地机器向远程Kubernetes集群提交Dask作业

dask - 使用外部代码处理分布式 dask 集合

pandas - Dask 集群 : AttributeError: 'DataFrame' object has no attribute '_data'

python - Dask DataFrame Groupby : Most frequent value of column in aggregate

python - 为什么 Dask 的执行速度如此之慢,而多进程的执行速度如此之快?

python - 如何使用 Dask 将函数应用于大型数据集的单列?