hadoop - 如何在 jpmml 级联中传递 Hadoop 作业队列名称?

标签 hadoop cascading pmml

我正在尝试使用此项目中提供的 jpmml 级联库中的级联框架执行 pmml 模型 https://github.com/jpmml/jpmml-cascading

我已完成所有步骤,并能够使用 mvn clean install 命令生成 example-1.2-SNAPSHOT-job.jar

但是,当我使用以下命令执行同一个 jar 时:

hadoop jar example-1.2-SNAPSHOT-job.jar /tmp/cascading/model.pmml file:///tmp/cascading/input.csv file:///tmp/cascading/output

由于无权在默认DEFAULT 队列上提交作业,我正处于exceptions 之下我们的 hadoop 集群中的队列仅出于管理目的而被阻止,普通用户无法在不提供队列名称的情况下运行 hadoop 作业。

Exception:
16/01/06 04:41:37 ERROR ipc.FailoverRPC: FailoverProxy: Failing this Call: submitJob for error(RemoteException): org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): **User test cannot perform operation SUBMIT_JOB on queue default.**
 Please run "hadoop queue -showacls" command to find the queues you have access to .
    at org.apache.hadoop.mapred.ACLsManager.checkAccess(ACLsManager.java:179)
    at org.apache.hadoop.mapred.ACLsManager.checkAccess(ACLsManager.java:136)
    at org.apache.hadoop.mapred.ACLsManager.checkAccess(ACLsManager.java:113)
    at org.apache.hadoop.mapred.JobTracker.submitJob(JobTracker.java:4524)
    at sun.reflect.GeneratedMethodAccessor17.invoke(Unknown Source)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at org.apache.hadoop.ipc.WritableRpcEngine$Server$WritableRpcInvoker.call(WritableRpcEngine.java:481)
    at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:928)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2000)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1996)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1566)
    at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1994)

我看不到存储库中提供 hadoop 作业队列的位置。

谁能建议我如何传递 hadoop 作业队列名称?

注意:

  1. I have tried to pass the property mapred.job.queue.name passing the queue name but still job is showing same error through command line and in the code itself.

  2. I have also tried to run the job using oozie shell action node and passing the queue name there in application workflow but I believe that would be applicable for the oozie job only not the hadoop jobs which gets executed through shell action node.

最佳答案

您使用了错误的设置。您应该使用 Hadoop 2.x 的设置。

以下配置属性(存在于 mapred-site.xml 中)控制对作业队列的提交。

Hadoop 1.x

  • mapred.acls.enabled:是否应启用 ACL 检查以在执行队列操作时检查用户的权限。默认设置为 false

  • mapred.job.queue.name:作业提交到的队列。默认值为 default

Hadoop 2.x

  • mapreduce.cluster.acls.enabled:是否应启用 ACL 检查以在执行队列操作时检查用户的权限。默认设置为 false

  • mapreduce.job.queuename:作业提交到的队列。默认值为 default

您可以通过不同的方式设置这些值:

  • 在运行作业时,在命令行中使用 -D 选项传递。例如您可以将其作为 -Dmapreduce.job.queuename=default 传递。
  • 在作业的 Driver 中设置它 (Hadoop 2.x):

    Configuration conf = new Configuration();
    conf.set("mapreduce.job.queuename", "default");
    Job job = Job.getInstance(conf, "JobName");
    
  • 在集群的mapred-site.xml文件中设置。

关于hadoop - 如何在 jpmml 级联中传递 Hadoop 作业队列名称?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34632690/

相关文章:

r - 无法在 Red Hat 上安装 R pmml 包

oracle - Sqoop Oracle Hive错误

java - 我如何获得每个映射器和化简器的执行时间

c++ - 对于级联成员函数调用,为什么需要返回引用?为什么只有 this 指针还不够?

r - 将表示多项逻辑回归的 PMML 转换回 R 系数

python - 如何从 Logistic 回归系数构建 PMML

java - Java获取MapReduce的输入输出个数

python-2.7 - 将本地 IPython 笔记本连接到气隙集群上的 Spark

hadoop - hadoop作业中的org.apache.hadoop.fs.BlockMissingException

java - 使用级联框架运行hadoop程序时获取cascading.tap.hadoop.io.MultiInputSplit类未找到异常