我想使用 Python 使用 Hadoop 处理大量腌制数据。我想要做的是将我的数据表示为某个键(文件 ID),并将压缩的泡菜表示为大文件中的值。
如果我只是尝试将二进制代码作为 ascii 放入我想用 hadoop 处理的文件中,我会得到很多 '\t' 和 '\n' 值,它们会干扰 hadoop 文件的(键、值)结构。
我的问题是:如何使用 python 压缩一些数据并将其表示为 ascii 文件中的字符串,避免使用某些字符(例如 '\t' 和 '\n')?
或者也许我的方法本质上是无效的?
我真的很感激任何帮助!
最佳答案
您可以将腌制对象转换为 base64
使用 base64
模块。
关于python - 没有特定字符的压缩数据的 Ascii 表示,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12079226/