java - 如何使用 Spark Core API 读取 Parquet 文件？

如何使用 Spark Core API 读取 Parquet 文件？

我知道使用 Spark SQL 有一些方法可以读取 parquet 文件。但是我们不能在我们的项目中使用 Spark SQL。

我们是否必须在 JavaSparkContext 上使用 newAPIHadoopFile 方法来执行此操作？

我正在使用 Java 来实现 Spark Job。

最佳答案

使用下面的代码:

SparkSession spark = SparkSession.builder().master("yarn").appName("Application").enableHiveSupport().getOrCreate();
Dataset<Row> ds = spark.read().parquet(filename);

关于java - 如何使用 Spark Core API 读取 Parquet 文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32350192/

上一篇：java - Leiningen java-agents 不在 uberjar 中工作

下一篇：java - Tomcat 对外部目录中的静态内容使用 DefaultServlet

相关文章：

scala - Spark 作为 Hive 的执行引擎

r - 从 R 中的 CSV 文件创建 Parquet 文件目录

java - 为什么在调用以接口(interface)作为构造函数参数的类时出现 'source not found' 错误？

java - Heroku java 服务器崩溃

python - 如何在 pyspark 的高基数分类列中有效地对低频计数级别进行分组？

apache-spark - 如何检查点RDD

hive - 读取 Parquet 文件时，配置单元不支持时间戳数据类型

gpu - BlazingSQL 和 dask 之间有什么关系？

Java和Spring实现事务功能

java - Spring @Transaction 不与 LocalContainerEntityManagerFactoryBean 一起使用