apache-spark - 在 pyspark 中读取 Excel (.xlsx) 文件

我正在尝试从 PySpark 中的本地路径读取 .xlsx 文件。

我写了下面的代码:

from pyspark.shell import sqlContext
from pyspark.sql import SparkSession

spark = SparkSession.builder \
      .master('local') \
      .appName('Planning') \
      .enableHiveSupport() \
      .config('spark.executor.memory', '2g') \
      .getOrCreate()

df = sqlContext.read("C:\P_DATA\tyco_93_A.xlsx").show()

错误:

TypeError: 'DataFrameReader' object is not callable

最佳答案

您可以使用 Pandas 读取 .xlsx 文件，然后将其转换为 spark 数据帧。

from pyspark.sql import SparkSession
import pandas

spark = SparkSession.builder.appName("Test").getOrCreate()

pdf = pandas.read_excel('excelfile.xlsx', sheet_name='sheetname', inferSchema='true')
df = spark.createDataFrame(pdf)

df.show()

关于apache-spark - 在 pyspark 中读取 Excel (.xlsx) 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59854917/

上一篇：android - 如何从 AbstractSavedStateViewModelFactory 动态设置包

下一篇：php - 我无法使用 Composer 安装 Laravel(缺少 ext-zip 扩展名)

java - 如何使用 Spark 在 Java 中映射日志文件？

scala - 如何以orc格式在已创建的配置单元表中加载excel数据

excel - 如何读取多个 Excel 文件并将它们连接到一个 Apache Spark DataFrame 中？

python - 在 Pyspark 中过滤具有空数组的列

apache-spark - DStream 和 Map 中的 Spark Transform 之间的确切区别是什么？

python - Pyspark - 如何将 '4 hours' 多个窗口分组聚合

python - Databricks 群集未初始化 Azure 库，错误为 : module 'lib' has no attribute 'SSL_ST_INIT'

python - Spark : Load multiple files, 单独分析，合并结果，并保存

excel - 如何在 Scala/Spark 中从多个 DataFrame 创建包含多个工作表的 Excel 文件？