python - 如何用python在hadoop中保存文件

标签 python hadoop hadoopy

我正在尝试使用 python 2.7 在 Hadoop 中保存文件。我在网上搜索过。我得到了一些代码来在 Hadoop 中保存一个文件，但它在保存时占用了整个文件夹(文件夹中的所有文件都保存在 Hadoop 中)。但是我需要保存一个特定的文件。

这是在 Hadoop 中保存文件夹的链接: http://www.hadoopy.com/en/latest/tutorial.html#putting-data-on-hdfs

现在我需要的是在 Hadoop 中保存一个特定的文件，如 abc.txt。

这是我的代码:

import hadoopy
hdfs_path = 'hdfs://192.168.x.xxx:xxxx/video/py5'
def main():
   local_path = open('abc.txt').read()
   hadoopy.writetb(hdfs_path, local_path)


if __name__ == '__main__':
    main()

这里我得到需要多个值来解包

如有任何帮助，我们将不胜感激。

最佳答案

hadoopy.writetb 似乎期望一个双值可迭代作为它的第二个参数。尝试:

hadoopy.writetb(hdfs_path, [("abc.txt", open("abc.txt").read())])

关于python - 如何用python在hadoop中保存文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23828574/

上一篇：hadoop-mapreduce reducer-combiner 输入

下一篇：caching - 将一个大文件(~6 GB)从 S3 复制到 Elastic MapReduce 集群的每个节点

相关文章：

python - 返回列表中包含的子列表，固定大小

java - hadoop 2.7.2 多节点中的作业历史记录 webui-19888 在作业完成后不显示任何内容

hadoop - HDFS是否在Hadoop的键值存储之上实现？怎么样？

hadoop - Mapreduce 失败日志 Hadoop

hadoop - 如何在 Hadoop 中访问和操作 pdf 文件的数据？

python - 生成对的pythonic方式

python - 如何使用 Matplotlib 在 python 中定义和绘制 10*10 数组？

python - 正则表达式字符串替换: omit comma if backref is empty

sorting - Hadoop MapReduce Streaming 对多列进行排序