我想从队列(如 redis)中向 published dask dataset
添加数据。然后其他 python 程序将能够获取最新数据(例如每秒一次/分钟)并执行一些进一步的操作。
- 这可能吗?
- 应该使用哪个追加接口(interface)?我应该先将它加载到
pd.DataFrame
中,还是最好使用一些文本导入器? - 假定的附加速度是多少?是否可以在一秒钟内追加 1k/10k 行?
- 对于在 dask 集群中交换庞大且快速更新的数据集还有其他好的建议吗?
感谢任何提示和建议。
最佳答案
这里有几个选项。
- 您可以看看 streamz 项目
- 您可以看看 Dask 的 coordination primitives
What are the assumed append speeds? Is it possible to append lets say 1k/10k rows in a second?
Dask 只是跟踪远程数据。与 Dask 相比,应用程序的速度更多地取决于您选择如何表示该数据(例如 python 列表与 pandas 数据帧)。 Dask 每秒可以处理数千个任务。这些任务中的每一个都可以有一行或数百万行。这取决于您如何构建它。
关于Dask:定期更新发布的数据集并从其他客户端拉取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63156650/