python - 如何使用Dask从SQL<连接字符串>中读取数据？

关于如何从 sqlAlchemy 读取数据到 dask 数据帧的文档中没有足够的示例。

我看到的一些例子是:

   df = dd.read_sql_table(table='my_table_name', uri=my_sqlalchemy_con_url, index_col='id')

但是我的查询不是一次获取整个表，而是只获取 (select * from ....table A where .....) 类型的查询作为参数传递.. 另外，如何传递连接参数是没有提到。

如何从 sqlAlchemy 连接引擎传递连接参数并传递自定义查询而不是获取整个表。

我知道这是基本的，但在 docs/web 中找不到关于此的引用

编辑 :

     d100 = 'mysql+mysqlconnector://{0}:{1}@{2}:{3}/{4}'.format("xx", "xx", "xxxxx.com", "3306", "xxxx") 
     df = dd.read_sql_table(table='select * from ps_g9 limit 10;', uri=d100, index_col='uuid')

我得到表不存在错误

最佳答案

数字索引的默认分区大小为 256 MB，除非您指定 npartitions。
对于字符串索引，您可以使用 divisions论证，例如

... division = sorted(['red', 'green', 'blue', 'yellow']) ...

如果你有一个带有颜色名称的索引。

另见 https://github.com/dask/dask/issues/2604 .

可以使用 engine_kwargs 传递 sqlalchemy 的更多参数。关键词。另见 read_sql_table docs .

Here是 Mannings Data Science at Scale with Python and Dask book 相关章节的预览。

关于python - 如何使用Dask从SQL<连接字符串>中读取数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56886764/

上一篇：web-services - 为网络打开共享时 Metro 风格应用程序中的套接字异常

下一篇：javascript - 跟踪 redux-form 上禁用字段的最佳方法

python - Azure get_blob 仅返回 4KB 的图像大小

python - Matplotlib 和 Numpy 与某些 Pandas 函数的兼容性？ - 需要整数

python - 类型错误 : Cannot create a consistent method resolution in django

python - 在没有迭代的情况下将字典批量存储在redis中

python - 从列中删除重复的单词

python - 使用 sklearn 缩放的 pandas 数据框列

python - Dask - 是否可以通过自定义函数使用每个工作线程中的所有线程？

python-2.7 - 使用默认调度程序进行 Dask 内存管理

python - 使用 Python 顺序读取和写入核心文件的多线程