python - 我们可以将 Hadoop 与 Python 集成吗?

标签 python hadoop hdfs bigdata

我有一个项目需求。我正在使用 python 脚本来分析数据。最初,我使用 txt 文件作为该 python 脚本的输入。但随着数据的增长,我必须将存储平台切换到 Hadoop HDFS。如何向 python 脚本提供 HDFS 数据作为输入?有什么办法吗?提前致谢。

最佳答案

Hadoop 流 API:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc

您需要了解的所有信息都在这里: http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/

关于python - 我们可以将 Hadoop 与 Python 集成吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37936958/

相关文章:

python - Django Rest Framework - 如何限制使用 Geolocation 返回的结果?

python - 为什么 multiprocessing.Process.join() 挂起?

hadoop - hdfs moveFromLocal 不会跨数据节点分发副本 block

shell - 通过使用 shell 脚本过滤修改日期,将文件从 hdfs 文件夹复制到另一个 hdfs 位置

python - 如何在 Python 中组合列表和字典?

python - 收集列表以查找两个列表 python 中的区别

hadoop - PIG - HBASE - HBaseStorage key 过滤器(gt,lt)

mysql - Sqoop 导入命令出错

apache-spark - 如何在没有 Hadoop 的情况下让 Spark 在 Windows 10 上运行?

java - SSL peer 错误关闭 - Alibaba OSS java SDK