java - 如何在 Java 中使用 Spark 的 .newAPIHadoopFile()

我正在尝试在 spark 作业中读取 lzo 文件。
我的 spark 版本是 1.6.0 (spark-core_2.10-1.6.0-cdh5.7.1)。

这是我的java代码:

JavaSparkContext sc = new JavaSparkContext(new SparkConf().setAppName("ReadLzo"));
JavaPairRDD <NullWritable, Text> lines = sc.newAPIHadoopFile(args[0],LzoTextInputFormat.class,NullWritable.class,Text.class,new Configuration());

但是我得到一个编译时异常:

The method newAPIHadoopFile(String, Class, Class, Class, Configuration) in the type JavaSparkContext is not applicable for the arguments (String, Class, Class, Class, Configuration)

那么在 Java 中使用 JavaSparkContext.newAPIHadoopFile() 的正确方法是什么？

最佳答案

没有保证，但是 LzoTextInputFormat 扩展了 TextInputFormat，其 Key 是 LongWritable，value 是 Text。

确保您的导入语句也是正确的类型。特别是对于 Text

关于java - 如何在 Java 中使用 Spark 的 .newAPIHadoopFile()，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39272530/

上一篇：java - Accumulo MapReduce 作业因 java.io.EOFException 而失败，使用 AccumuloRowInputFormat

下一篇：rest - webHDFS API 在每次查询时返回异常

相关文章：

java - 重新转换 txt 文件(从 Windows 到 Unix)

java - 为什么我的字节数组中的 BufferedImage 返回 null？

java - 如何禁用 IntelliJ 中的 "Optional used as field or parameter type"警告？

java - Oozie:同一自定义 Java 操作的多个版本

php - Hive Server 2的PHP旧版客户端挂起

scala - 为什么 Spark ML ALS 算法打印 RMSE = NaN？

java - 这个线程能不能存活以及如何使用java.lang.Thread.join()方法

hadoop - Map side join 可以加入的最大路径数？

apache-spark - Spark 作业在 yarn 集群模式下失败

apache-spark - SPARK ML，朴素贝叶斯分类器 : high probability prediction for one class