java - 如何使用 Spark Core API 读取 Parquet 文件?

标签 java apache-spark parquet

如何使用 Spark Core API 读取 Parquet 文件?

我知道使用 Spark SQL 有一些方法可以读取 parquet 文件。但是我们不能在我们的项目中使用 Spark SQL。

我们是否必须在 JavaSparkContext 上使用 newAPIHadoopFile 方法来执行此操作?

我正在使用 Java 来实现 Spark Job。

最佳答案

使用下面的代码:

SparkSession spark = SparkSession.builder().master("yarn").appName("Application").enableHiveSupport().getOrCreate();
Dataset<Row> ds = spark.read().parquet(filename);

关于java - 如何使用 Spark Core API 读取 Parquet 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32350192/

相关文章:

scala - Spark 作为 Hive 的执行引擎

r - 从 R 中的 CSV 文件创建 Parquet 文件目录

java - 为什么在调用以接口(interface)作为构造函数参数的类时出现 'source not found' 错误?

java - Heroku java 服务器崩溃

python - 如何在 pyspark 的高基数分类列中有效地对低频计数级别进行分组?

apache-spark - 如何检查点RDD

hive - 读取 Parquet 文件时,配置单元不支持时间戳数据类型

gpu - BlazingSQL 和 dask 之间有什么关系?

Java和Spring实现事务功能

java - Spring @Transaction 不与 LocalContainerEntityManagerFactoryBean 一起使用