如何使用 Spark Core API 读取 Parquet 文件?
我知道使用 Spark SQL 有一些方法可以读取 parquet 文件。但是我们不能在我们的项目中使用 Spark SQL。
我们是否必须在 JavaSparkContext
上使用 newAPIHadoopFile
方法来执行此操作?
我正在使用 Java 来实现 Spark Job。
最佳答案
使用下面的代码:
SparkSession spark = SparkSession.builder().master("yarn").appName("Application").enableHiveSupport().getOrCreate();
Dataset<Row> ds = spark.read().parquet(filename);
关于java - 如何使用 Spark Core API 读取 Parquet 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32350192/