在 azure Databricks 中,当我使用 multiline = 'true'
和 encoding = 'SJIS'
读取 CSV 文件时,似乎编码选项被忽略。
如果我使用 multiline
选项 Spark 使用其默认的 encoding
即 UTF-8
,
但我的文件是 SJIS
格式。
有什么解决办法吗,任何帮助感激不尽。
这是我正在使用的代码,我正在使用 pyspark。
df= sqlContext.read.format('csv').options(header='true',inferSchema='false',delimiter='\t',encoding='SJIS',multiline='true').load('/mnt/Data/Data.tsv')
最佳答案
根据我的研究,当我们在Azure datatricks中读取csv文件时,它不支持多行选项。所以我建议您更新代码如下。
df= spark.read.format('csv').options(header='true',inferSchema='false',delimiter='\t',charset='SJIS').load('/FileStore/tables/test.csv')
更多详情请引用https://docs.databricks.com/data/data-sources/read-csv.html 。
关于python - 使用多行选项和编码选项读取 CSV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58262846/