python - 如何将 dumbo 序列文件输入转换为制表符分隔的文本

标签 python text hadoop

我有输入,它可以是单个基元或基元列表或元组。

我想把它展平成一个列表,像这样:

def flatten(values):
    return list(values)

正常情况下会变平(someiterablethatis'tastring)

但是如果 values = '1234',我会得到 ['1', '2', '3', '4'],但我想要 ['1234']

如果 values = 1,我会得到 TypeError: 'int' object is not iterable,但我想要 [1]

有没有一种优雅的方式来做到这一点? 最后我真正想做的只是 '\t'.join(flatten(values))

编辑:让我更好地解释一下......

我希望使用 dumbo 将一个 hadoop 二进制序列文件转换为一个平面制表符分隔的文本文件。使用输出格式选项,-outputformat text

Dumbo 是围绕 hadoop 流的 python 包装器。简而言之,我需要编写映射器函数:

def 映射器(键,值) #做一些事情 产量 k, v

其中 k 是键第一部分的字符串,值是制表符分隔的字符串,包含键的其余部分和作为字符串的值。

例如:

input: (123, [1,2,3])
output: ('123', '1\t2\t\t3')

或更复杂:

input: ([123, 'abc'], [1,2,3])
output: ('123', 'abc\t1\t2\t\t3')

输入键或值可以是基元或基元列表/元组 我想要一个可以处理任何事情并返回值列表的“展平”函数。

对于输出值,我会做这样的事情 v = '\t'.join(list(str(s) for s in flatten(seq)))

最佳答案

听起来像你想要的itertools.chain() .不过,您需要对字符串进行特殊大小写处理,因为它们实际上只是字符的迭代。

更新:

如果您将其作为递归生成器来执行,这将是一个简单得多的问题。试试这个:

def flatten(*seq):
    for item in seq:
        if isinstance(item, basestring):
            yield item
        else:
            try:
                it = iter(item)
            except TypeError:
                yield item
                it = None
            if it is not None:
                for obj in flatten(it):
                    yield obj

这返回一个迭代器而不是一个列表,但它是惰性求值的,这可能正是您想要的。如果您真的需要一个列表,只需使用 list(flatten(seq)) 即可。

更新 2:

正如其他人指出的那样,如果您真正想要的是将其传递给 str.join(),那么您需要将所有元素转换为字符串。为此,您可以在上面的示例中将 yield foo 替换为 yield str(foo),或者只使用如下代码:

"\t".join(str(o) for o in flatten(seq))

关于python - 如何将 dumbo 序列文件输入转换为制表符分隔的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1625757/

相关文章:

python - 带 pass 语句的条件

javascript - jQuery 文本 html 操作,在大量文本中查找字符的出现,然后更改其颜色

python 文件操作(bash 脚本移植)

text - 如何调整可变高度文本属性 kivy?

Python 将单元格中的多个值拆分为多行

python - 如何在 Matplotlib 图中的一行中获得不同的颜色?

python - Selenium 打开弹出窗口[Python]

apache-spark - 避免在Spark Streaming中为空分区写入文件

scala - spark 文本文件加载文件而不是行

hadoop - HiveQL 中的 "ALTER TABLE IF EXISTS t1 RENAME TO t2"?