Dask:定期更新发布的数据集并从其他客户端拉取数据

标签 dask dask-distributed dask-dataframe

我想从队列(如 redis)中向 published dask dataset 添加数据。然后其他 python 程序将能够获取最新数据(例如每秒一次/分钟)并执行一些进一步的操作。

这可能吗？
应该使用哪个追加接口(interface)？我应该先将它加载到 pd.DataFrame 中，还是最好使用一些文本导入器？
假定的附加速度是多少？是否可以在一秒钟内追加 1k/10k 行？
对于在 dask 集群中交换庞大且快速更新的数据集还有其他好的建议吗？

感谢任何提示和建议。

最佳答案

这里有几个选项。

您可以看看 streamz 项目
您可以看看 Dask 的 coordination primitives

What are the assumed append speeds? Is it possible to append lets say 1k/10k rows in a second?

Dask 只是跟踪远程数据。与 Dask 相比，应用程序的速度更多地取决于您选择如何表示该数据(例如 python 列表与 pandas 数据帧)。 Dask 每秒可以处理数千个任务。这些任务中的每一个都可以有一行或数百万行。这取决于您如何构建它。

关于Dask:定期更新发布的数据集并从其他客户端拉取数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63156650/

上一篇：python - 有没有办法在 React Native 应用程序中使用我的 Python 代码？

下一篇：android - 在 HMS 设备上使用 Geocoder 对纬度/经度坐标进行反向地理编码

相关文章：

pandas - dask 如何定义并行操作并返回具有不同形状的数据帧的自定义(时间折叠)函数

python - 在 Dask apply 中返回结构化行

python - 在 dask 数组中使用 float32 时出现内存错误

python - 无法在 dask worker 中加载模块

kubernetes - 如何从本地机器向远程Kubernetes集群提交Dask作业

dask - 使用外部代码处理分布式 dask 集合

pandas - Dask 集群 : AttributeError: 'DataFrame' object has no attribute '_data'

python - Dask DataFrame Groupby : Most frequent value of column in aggregate

python - 为什么 Dask 的执行速度如此之慢，而多进程的执行速度如此之快？

python - 如何使用 Dask 将函数应用于大型数据集的单列？

©2024 IT工具网联系我们