tokenize - Pig 中如何将字段转换为行?

标签 tokenize apache-pig

我想将 Pig 中的字段转换为行。

来自 input.txt

1 2 3 4 5 6 7 8 9

字段之间的分隔符是“\t”。

到输出.txt

1 2 3 4 ... 但我不能使用 TOKENIZER 因为字段的内容可能是一个句子。 请帮我。 非常感谢。

最佳答案

我认为alexeipab的回答是正确的方向。这是一个简单的例子:

> A = load 'input.txt';
> dump A
(0,1,2,3,4,5,6,7,8,9)
> B = foreach A generate FLATTEN(TOBAG(*));
> dump B
(0)
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)

关于tokenize - Pig 中如何将字段转换为行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11427889/

相关文章:

python - nltk word_tokenize : why do sentence tokenization before word tokenization?

unicode - Elasticsearch :为捷克字符配置icu_tokenizer

Python nltk 资源 u'tokenizers/punkt/english.pickle' 未找到 bu 它实际上存在

hadoop - 从Pig生成的CurrentTime()在Hive Datetime列中显示为NULL

hadoop - Apache Pig 错误消息指南

hadoop - Apache PIG - 加入后跟 NULL 中的投影结果

java - ERROR 1066 : Unable to open iterator for alias in certain fields, 但适用于其他人

python - 如何使用 NLTK 分词器去除标点符号?

java - 忽略带字符串分词器的括号?

python - 使 pig 嵌入 python 脚本和 pig cassandra 集成以与 oozie 一起工作