python - 如何使用Dask从SQL<连接字符串>中读取数据?

标签 python pandas dask

关于如何从 sqlAlchemy 读取数据到 dask 数据帧的文档中没有足够的示例。

我看到的一些例子是:

   df = dd.read_sql_table(table='my_table_name', uri=my_sqlalchemy_con_url, index_col='id')

但是我的查询不是一次获取整个表,而是只获取 (select * from ....table A where .....) 类型的查询作为参数传递.. 另外,如何传递连接参数是没有提到。

如何从 sqlAlchemy 连接引擎传递连接参数并传递自定义查询而不是获取整个表。

我知道这是基本的,但在 docs/web 中找不到关于此的引用

编辑 :
     d100 = 'mysql+mysqlconnector://{0}:{1}@{2}:{3}/{4}'.format("xx", "xx", "xxxxx.com", "3306", "xxxx") 
     df = dd.read_sql_table(table='select * from ps_g9 limit 10;', uri=d100, index_col='uuid') 

我得到表不存在错误

最佳答案

数字索引的默认分区大小为 256 MB,除非您指定 npartitions。
对于字符串索引,您可以使用 divisions论证,例如

... division = sorted(['red', 'green', 'blue', 'yellow']) ...

如果你有一个带有颜色名称的索引。

另见 https://github.com/dask/dask/issues/2604 .

可以使用 engine_kwargs 传递 sqlalchemy 的更多参数。关键词。另见 read_sql_table docs .

Here是 Mannings Data Science at Scale with Python and Dask book 相关章节的预览。

关于python - 如何使用Dask从SQL<连接字符串>中读取数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56886764/

相关文章:

python - 使用Python的Elasticsearch JSON批量索引

python - Azure get_blob 仅返回 4KB 的图像大小

python - Matplotlib 和 Numpy 与某些 Pandas 函数的兼容性? - 需要整数

python - 类型错误 : Cannot create a consistent method resolution in django

python - 在没有迭代的情况下将字典批量存储在redis中

python - 从列中删除重复的单词

python - 使用 sklearn 缩放的 pandas 数据框列

python - Dask - 是否可以通过自定义函数使用每个工作线程中的所有线程?

python-2.7 - 使用默认调度程序进行 Dask 内存管理

python - 使用 Python 顺序读取和写入核心文件的多线程