python - 有关在Amazon EMR上使用mrjob运行Mapreduce程序的一些基本疑问

标签 python hadoop mapreduce elastic-map-reduce mrjob

我是mrjob的新手,我无法在Amazon EMR上运行该工作。我将按顺序编写它们。

  • 我可以在本地计算机上运行mrjob。但是,当我在/home/ankit/.mrjob.conf和/etc/mrjob.conf中具有mrjob.conf时,该作业不会在本地计算机上执行。
    这就是我得到的。 https://s3-ap-southeast-1.amazonaws.com/imagna.sample/local.txt
  • 文档中“MR_CONF指定的位置”中的MRJOB_CONF是什么?
  • 'base_tmp_directory'的用途是什么?另外,我是否需要在开始作业之前在S3中上载输入数据,否则它将在执行开始时从本地计算机加载?
  • 如果我使用numpy,scikit等库,是否需要做一些 bootstrap ?如果是,怎么办?
  • 这是我在EMR上执行运行作业的命令时得到的信息https://s3-ap-southeast-1.amazonaws.com/imagna.sample/emr.txt

  • 有什么办法吗?

    非常感谢。

    最佳答案

  • 您的网址无效(我收到“访问被拒绝”错误)。
  • mrjob.conf是一个配置文件。它可以位于多个位置,请参见http://pythonhosted.org/mrjob/configs-conf.html
  • 只需在命令行上指定输入文件的路径,就可以使用本地计算机上的输入数据。 MRJob将为您上传数据到S3。如果指定s3:// ... URL,则MRJob将使用该S3路径中的数据。
  • 要使用非标准软件包,请参见http://pythonhosted.org/mrjob/writing-and-running.html#custom-python-packages
  • 您的网址无效(我收到“访问被拒绝”错误)。
  • 关于python - 有关在Amazon EMR上使用mrjob运行Mapreduce程序的一些基本疑问,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13835308/

    相关文章:

    python - Python中的CSV文件处理

    javascript - 为什么我的大部分结果都是 nan

    python - 容器正在运行超出物理内存的较大文件

    hadoop - 无法使用 start-dfs.sh 启动守护进程

    java - Combiner 逻辑是否始终与 Reducer 逻辑相同?

    java - 包 org.apache.hadoop.ipc.protobuf 为空

    java - 错误 : java. lang.NumberFormatException:对于输入字符串: "time"

    python - 尝试使用 Pyinstaller 从 .py 脚本创建 .exe 时出现运行时错误

    python - 如何使用织物进行 ForwardAgent 是?

    python - 尝试在 Path 对象 Python 上使用/