python - 使用多行选项和编码选项读取 CSV

标签 python azure pyspark apache-spark-sql databricks

在 azure Databricks 中，当我使用 multiline = 'true' 和 encoding = 'SJIS' 读取 CSV 文件时，似乎编码选项被忽略。如果我使用 multiline 选项 Spark 使用其默认的 encoding 即 UTF-8，但我的文件是 SJIS 格式。有什么解决办法吗，任何帮助感激不尽。这是我正在使用的代码，我正在使用 pyspark。

df= sqlContext.read.format('csv').options(header='true',inferSchema='false',delimiter='\t',encoding='SJIS',multiline='true').load('/mnt/Data/Data.tsv')

最佳答案

根据我的研究，当我们在Azure datatricks中读取csv文件时，它不支持多行选项。所以我建议您更新代码如下。

df= spark.read.format('csv').options(header='true',inferSchema='false',delimiter='\t',charset='SJIS').load('/FileStore/tables/test.csv')

关于python - 使用多行选项和编码选项读取 CSV，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58262846/

上一篇：python - Python 中 Lambda 表达式与本地函数的速度测试

下一篇：python - python服务器和 Node 服务器之间的通信

相关文章：

python - 如何使用 PyASN1 建模递归 ASN.1 规范？

python - “ImageDataGenerator”对象没有属性 'image_data_generator'

python - 搜索列中的特定值及其其余列中的相应数据

azure - 如何在Bot Framework Composer中实现CLU( session 语言理解)？

apache-spark - 无法理解 aggregateByKey 和 combineByKey 的工作原理

python - 覆盖以前提取的文件而不是创建新文件

python - 如何使用 Plotly 按钮更改多个数据集的绘图？

c# - 运行 Azure Web 应用程序时，是否需要将应用程序见解遥测添加到应用程序

pyspark - 查找两个日期之间的相对周数

apache-spark - spark.sql 与 SqlContext