java - 在hadoop java中解析json输入

标签 java hadoop

我的输入数据在 hdfs 中。我只是想做字数统计,但略有不同。 数据为json格式。 所以每行数据是:

{"author":"foo", "text": "hello"}
{"author":"foo123", "text": "hello world"}
{"author":"foo234", "text": "hello this world"}

我只想统计“文本”部分的字数。

我该怎么做?

到目前为止,我尝试了以下变体:

public static class TokenCounterMapper
    extends Mapper<Object, Text, Text, IntWritable> {
    private static final Log log = LogFactory.getLog(TokenCounterMapper.class);
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(Object key, Text value, Context context)
        throws IOException, InterruptedException {
        try {

            JSONObject jsn = new JSONObject(value.toString());

            //StringTokenizer itr = new StringTokenizer(value.toString());
            String text = (String) jsn.get("text");
            log.info("Logging data");
            log.info(text);
            StringTokenizer itr = new StringTokenizer(text);
            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        } catch (JSONException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
}

但是我收到了这个错误:

Error: java.lang.ClassNotFoundException: org.json.JSONException
    at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:306)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:247)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:247)
    at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:820)
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:865)
    at org.apache.hadoop.mapreduce.JobContext.getMapperClass(JobContext.java:199)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:719)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
    at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:396)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1093)
    at org.apache.hadoop.mapred.Child.main(Child.java:249)

最佳答案

您似乎忘记将 JSON 库嵌入到您的 Hadoop 作业 jar 中。 您可以在那里查看如何使用该库构建您的工作: http://tikalk.com/build-your-first-hadoop-project-maven

关于java - 在hadoop java中解析json输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16825821/

相关文章:

hadoop - Hive 上的自定义 Map Reduce 程序,规则是什么?输入和输出如何?

hadoop - 使用 ambari 读取后无法启动 NodeManager

c# - 在 Monodroid 中使用 Java 类文件

java - 'object' 标签的 GXT/GWT 小部件

java - 将 nvarchar 转换为 datetime 时出错

java - 将值从 Java 操作传递到 Oozie 工作流中的下一个 Java 操作

java - 如何让 hadoop 忽略\n 输入文件中的字符?

java - 与模块相比,在 Play Framework 2 中创建/使用插件有哪些优点/差异?

java - 是否可以配置 Dozer,以便默认情况下直接访问字段而不是通过 setter-/getter 方法

java - Hive 描述分区以显示分区 url