我有一个类似于以下内容的 pyspark 数据框:
df = sql_context.createDataFrame([
Row(a=3, b=[4,5,6],c=[10,11,12], d='bar', e='utf friendly'),
Row(a=2, b=[1,2,3],c=[7,8,9], d='foo', e=u'ab\u0000the')
])
e
列的其中一个值包含 UTF 空字符 \u0000
。如果我尝试将此 df
加载到 postgresql 数据库中,我会收到以下错误:
ERROR: invalid byte sequence for encoding "UTF8": 0x00
这是有道理的。在将数据加载到 postgres 之前,如何有效地从 pyspark 数据框中删除空字符?
我曾尝试使用一些 pyspark.sql.functions
先清理数据,但没有成功。 encode
、decode
和 regex_replace
无效:
df.select(regexp_replace(col('e'), u'\u0000', ''))
df.select(encode(col('e'), 'UTF-8'))
df.select(decode(col('e'), 'UTF-8'))
理想情况下,我希望在不确切指定哪些列或违规字符是什么的情况下清理整个数据框,因为我不一定提前知道这些信息。
我正在使用带有 UTF8
编码的 postgres 9.4.9 数据库。
最佳答案
啊等等 - 我想我知道了。如果我这样做,它似乎有效:
null = u'\u0000'
new_df = df.withColumn('e', regexp_replace(df['e'], null, ''))
然后映射到所有字符串列:
string_columns = ['d','e']
new_df = df.select(
*(regexp_replace(col(c), null, '').alias(c) if c in string_columns else c for
c in df.columns)
)
关于python - Pyspark:从 pyspark 数据帧中删除 UTF 空字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41151915/