我有一个项目需求。我正在使用 python 脚本来分析数据。最初,我使用 txt 文件作为该 python 脚本的输入。但随着数据的增长,我必须将存储平台切换到 Hadoop HDFS。如何向 python 脚本提供 HDFS 数据作为输入?有什么办法吗?提前致谢。
最佳答案
Hadoop 流 API:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc
您需要了解的所有信息都在这里: http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/
关于python - 我们可以将 Hadoop 与 Python 集成吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37936958/