python - 使用多行选项和编码选项读取 CSV

标签 python azure pyspark apache-spark-sql databricks

在 azure Databricks 中,当我使用 multiline = 'true'encoding = 'SJIS' 读取 CSV 文件时,似乎编码选项被忽略。 如果我使用 multiline 选项 Spark 使用其默认的 encodingUTF-8, 但我的文件是 SJIS 格式。 有什么解决办法吗,任何帮助感激不尽。 这是我正在使用的代码,我正在使用 pyspark。

df= sqlContext.read.format('csv').options(header='true',inferSchema='false',delimiter='\t',encoding='SJIS',multiline='true').load('/mnt/Data/Data.tsv')

最佳答案

根据我的研究,当我们在Azure datatricks中读取csv文件时,它不支持多行选项。所以我建议您更新代码如下。

df= spark.read.format('csv').options(header='true',inferSchema='false',delimiter='\t',charset='SJIS').load('/FileStore/tables/test.csv')

enter image description here 更多详情请引用https://docs.databricks.com/data/data-sources/read-csv.htmlenter image description here

关于python - 使用多行选项和编码选项读取 CSV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58262846/

相关文章:

python - 如何使用 PyASN1 建模递归 ASN.1 规范?

python - “ImageDataGenerator”对象没有属性 'image_data_generator'

python - 搜索列中的特定值及其其余列中的相应数据

azure - 如何在Bot Framework Composer中实现CLU( session 语言理解)?

apache-spark - 无法理解 aggregateByKey 和 combineByKey 的工作原理

python - 覆盖以前提取的文件而不是创建新文件

python - 如何使用 Plotly 按钮更改多个数据集的绘图?

c# - 运行 Azure Web 应用程序时,是否需要将应用程序见解遥测添加到应用程序

pyspark - 查找两个日期之间的相对周数

apache-spark - spark.sql 与 SqlContext