hadoop - PyArrow 中的 hdfs.connect() 与 HdfsClient

标签 hadoop hdfs parquet pyarrow

如果这是一个菜鸟问题,我深表歉意,但我找不到任何相关引用 -

这两个有什么区别?

如果我想使用 pyarrow 从 hdfs 读取 parquet 文件,我会使用哪个?

最佳答案

HdfsClient API 已弃用,您想现在使用 pyarrow.hdfs.connect 进行连接:http://arrow.apache.org/docs/python/filesystems.html#hadoop-file-system-hdfs

关于hadoop - PyArrow 中的 hdfs.connect() 与 HdfsClient,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47400987/

相关文章:

hadoop - 使用内存 channel 增加水槽中的文件大小

java - 将 HDFS 挂载到本地目录失败

hadoop - Hadoop -getmerge 是如何工作的?

python - 在 Hadoop Streaming 作业中写入 Parquet 输出

hadoop - Parquet 模式管理

hadoop - 级联中的横向 View 功能

hadoop - Solr-发布数据时出现IO异常:java.net.ConnectionException

pig 中的正则表达式匹配

apache-spark - 如何在Spark中更有效地加载Parquet文件(pySpark v1.2.0)

java - 在插件存储库中找不到插件 - 当我的公司 Nexus 出现故障时如何解决问题?