python - 将 HDFS(Hadoop 文件系统)目录中的文件读入 Pandas 数据帧

标签 python hadoop pandas hdfs

我正在从配置单元查询到多个 HDFS 目录中生成一些带分隔符的文件。下一步,我想将文件读入单个 pandas 数据帧,以便应用标准的非分布式算法。

在某种程度上,使用“hadoop dfs -copyTolocal”后跟本地文件系统操作的可行解决方案很简单,但是我正在寻找一种特别优雅的方法来加载我将纳入我的标准实践的数据。

理想解决方案的一些特征:

  1. 无需创建本地副本(谁喜欢清理?)
  2. 最少的系统调用数
  3. 几行Python代码

最佳答案

看起来 pydoop.hdfs 模块解决了这个问题,同时满足了一组很好的目标:

http://pydoop.sourceforge.net/docs/tutorial/hdfs_api.html

我无法对此进行评估,因为 pydoop 的编译要求非常严格,而且我的 Hadoop 版本有点过时。

关于python - 将 HDFS(Hadoop 文件系统)目录中的文件读入 Pandas 数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16598043/

相关文章:

python - 奇怪的 MySQL Python mod_wsgi Can't connect to MySQL server on 'localhost' (49) 问题

python - Python 中的单个正则表达式,带有用于交错文本的命名组

python - 公开基于 GraphQL 的 API

hadoop - 如何查看hadoop的堆使用情况?

python - 检查并排的两个 pandas 数据框的列之间的差异

datetime - 在 Hive 中将字符串转换为时间戳

hadoop - Talend for 大数据 hadoop 2.2.0

python - 将数据帧的行非 NA 值 "element-wise"与列表相乘

python - 将第一个文件加载到两个文件夹中并将它们加入 pandas

python - 通过多个正则表达式对 DataFrame 列进行排序