我有以下 Python 代码行:
trans = data.map(lambda line: line.strip().split())
产生 Unicode 字符串,例如:
u'Hello',u'word'
我想获得普通的 UTF-8 或 ASCII 字符串
'Hello','word'
我尝试将字符串转换为 UTF-8,例如
trans = data.map(lambda line: line.strip().split().encode("utf-8"))
或者
trans = data.map(lambda line: line.strip().split().encode('ascii','ignore'))
但这给出了一个错误:
AttributeError: 'list' object has no attribute 'encode'
谁能告诉我我怎么能做到这一点?
更新:
数据是scv文件,
反式是RDD
最佳答案
为什么不简单地编码和拆分:
data = sc.textFile("README.md")
trans = data.map(lambda x: x.encode("ascii", "ignore").split())
trans.first()
## ['#', 'Apache', 'Spark']
关于python-2.7 - 读取数据时如何删除unicode?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34479444/