我正在尝试使用正则表达式 SerDe 从文本文件创建配置单元表。我开始很容易,只想将文本文档中的每个单词解析成一行。每行有一列,就是单词。
我使用的正则表达式是 ([a-zA-z]+)
这是我向 hive 发出的创建表命令的后半部分,
行格式 SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' WITH SERDEPROPERTIES ( "input.regex"= "([a-zA-Z]+)", "output.format.string"= "%1$s") 存储为文本文件;
目前该表几乎全部为NULL。
任何帮助都会很棒,谢谢!
最佳答案
反序列化输入时,RegExSerDe 期望输入行与提供的正则表达式完全匹配。 如果不匹配,则该行中的所有列都将为 NULL。
要从输入中拆分所有单词,您需要采用不同的方法,首先将输入按原样加载到表中。 然后对输入进行空格拆分并将其分解,以便获得单个单词。您可能想要进行一些额外的匹配和过滤以删除不需要的标点符号。
CREATE TABLE input (text STRING);
LOAD DATA LOCAL INPATH 'input.txt' INTO TABLE input;
SELECT word FROM input LATERAL VIEW explode(split(text, ' ')) words AS word;
关于regex - Hive with Regex SerDe 拆分行,每个单词成为一列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10308162/