python - 有关在Amazon EMR上使用mrjob运行Mapreduce程序的一些基本疑问

标签 python hadoop mapreduce elastic-map-reduce mrjob

我是mrjob的新手，我无法在Amazon EMR上运行该工作。我将按顺序编写它们。

我可以在本地计算机上运行mrjob。但是，当我在/home/ankit/.mrjob.conf和/etc/mrjob.conf中具有mrjob.conf时，该作业不会在本地计算机上执行。
这就是我得到的。 https://s3-ap-southeast-1.amazonaws.com/imagna.sample/local.txt

文档中“MR_CONF指定的位置”中的MRJOB_CONF是什么？

'base_tmp_directory'的用途是什么？另外，我是否需要在开始作业之前在S3中上载输入数据，否则它将在执行开始时从本地计算机加载？

如果我使用numpy，scikit等库，是否需要做一些 bootstrap ？如果是，怎么办？

这是我在EMR上执行运行作业的命令时得到的信息https://s3-ap-southeast-1.amazonaws.com/imagna.sample/emr.txt

有什么办法吗？

非常感谢。

最佳答案

您的网址无效(我收到“访问被拒绝”错误)。

mrjob.conf是一个配置文件。它可以位于多个位置，请参见http://pythonhosted.org/mrjob/configs-conf.html

只需在命令行上指定输入文件的路径，就可以使用本地计算机上的输入数据。 MRJob将为您上传数据到S3。如果指定s3:// ... URL，则MRJob将使用该S3路径中的数据。

要使用非标准软件包，请参见http://pythonhosted.org/mrjob/writing-and-running.html#custom-python-packages

您的网址无效(我收到“访问被拒绝”错误)。

关于python - 有关在Amazon EMR上使用mrjob运行Mapreduce程序的一些基本疑问，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13835308/

上一篇：hadoop - 在Amazon Elastic MapReduce和S3中读取参数文件

下一篇：docker - Docker在CentOS 7中突然停止了运作

相关文章：

python - Python中的CSV文件处理

javascript - 为什么我的大部分结果都是 nan

python - 容器正在运行超出物理内存的较大文件

hadoop - 无法使用 start-dfs.sh 启动守护进程

java - Combiner 逻辑是否始终与 Reducer 逻辑相同？

java - 包 org.apache.hadoop.ipc.protobuf 为空

java - 错误 : java. lang.NumberFormatException:对于输入字符串: "time"

python - 尝试使用 Pyinstaller 从 .py 脚本创建 .exe 时出现运行时错误

python - 如何使用织物进行 ForwardAgent 是？

python - 尝试在 Path 对象 Python 上使用/