python - 如何使用 Python pickle 将文件转储到 Hadoop HDFS 目录？

我在包含我的 Python (2.7) 类的目录中的 VM 上。我正在尝试将我的类的一个实例 pickle 到我的 HDFS 中的一个目录。

我正在尝试按照以下方式做一些事情:

import pickle

my_obj = MyClass() # the class instance that I want to pickle

with open('hdfs://domain.example.com/path/to/directory/') as hdfs_loc:
    pickle.dump(my_obj, hdfs_loc)

根据我所做的研究，我认为类似于 snakebite可能会有所帮助...但是有人有更具体的建议吗？

最佳答案

如果您使用 PySpark，那么您可以使用 saveAsPickleFile 方法:

temp_rdd = sc.parallelize(my_obj)
temp_rdd.coalesce(1).saveAsPickleFile("/test/tmp/data/destination.pickle")

关于python - 如何使用 Python pickle 将文件转储到 Hadoop HDFS 目录？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45338212/

上一篇：hadoop - Sqoop Import to Hive 在某个点无限期挂起

下一篇：hadoop - Hive 可以处理二进制数据吗？

相关文章：

hadoop - 如何确定执行配置单元查询所需的作业总数

hadoop - sqoop是否会将临时数据溢出到磁盘

hadoop - Hadoop 的 Foreman 和 Hue 有什么区别？

map - 运行时异常 : java. lang.NoSuchMethodException : tfidf$Reduce. <init>()

python - Pandas GroupBy 列出一列列表中的值并查找它们的平均值

python - 如何在 Google App Engine 中包含 python-dateutil？

python - 编译py到pyc报错

python - 如何在训练 XGBoost 模型时使用 GPU？

hadoop - 如何以最少的停机时间/无停机时间将非HA HDFS群集重新配置为HA？

apache-spark - Sqoop命令-选项缺少参数:merge-key