我正在从配置单元查询到多个 HDFS 目录中生成一些带分隔符的文件。下一步,我想将文件读入单个 pandas 数据帧,以便应用标准的非分布式算法。
在某种程度上,使用“hadoop dfs -copyTolocal”后跟本地文件系统操作的可行解决方案很简单,但是我正在寻找一种特别优雅的方法来加载我将纳入我的标准实践的数据。
理想解决方案的一些特征:
- 无需创建本地副本(谁喜欢清理?)
- 最少的系统调用数
- 几行Python代码
最佳答案
看起来 pydoop.hdfs 模块解决了这个问题,同时满足了一组很好的目标:
http://pydoop.sourceforge.net/docs/tutorial/hdfs_api.html
我无法对此进行评估,因为 pydoop 的编译要求非常严格,而且我的 Hadoop 版本有点过时。
关于python - 将 HDFS(Hadoop 文件系统)目录中的文件读入 Pandas 数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16598043/