python - 懒惰地从 PostgreSQL/Cassandra 创建 Dask DataFrame

标签 python postgresql dataframe cassandra dask

据我所知，Dask DataFrame 是处理表格数据的正确方法。我在 PostgreSQL 中有一个表，我知道将它加载到 pandas.Dataframe 中的方法。

我知道，odo 可用于将 pandas.DataFrame 转换为 dask.dataframe。但这不是惰性操作:这种转换强制将整个 PostgeSQL 表加载到内存中，这是不好的。我更喜欢一个接一个或大块地阅读项目。如何做到这一点？

Cassandra 的类似问题。但 Cassandra 就像分布式存储，它可以针对分布式访问进行优化。但是如何使用 Dask 做到这一点呢？

最佳答案

至于 MongoDB，我创建了以下解决方案: https://gist.github.com/Sklavit/747e292fc17f6c9b400470006ff1c567

主要思想是创建一个目标名称包，然后将这些参数传递给加载器。

关于python - 懒惰地从 PostgreSQL/Cassandra 创建 Dask DataFrame，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39907188/

上一篇：python - 失败的 ndb 事务尝试不回滚所有更改？

下一篇：python - 如何克服 numpy.unique 的 MemoryError

相关文章：

python - Pandas : update a Dataframe's serie based on a larger Dataframe

R - 导入文本文件，其中包含主数据表上方标题行中的信息

python - 绘制悬停数据和悬停文本

python - 数据帧转换后保留标题

python - python中的头文件

django - 如何在 docker-compose 中访问 Postgres 数据库

java - 用于 postgreSQL JDBC 驱动程序的 .jar 文件。如何配置？

python - 嵌套数据的复杂排序

r - 相当于 tidyverse 生态系统中的 ave()

python - 将序列日期列 (yyyy-mm-dd) 转换为英国日期格式(Pythonic 方式)

©2024 IT工具网联系我们