hadoop - 读取 PIG 中的文件,其中 delemeter 包含数据

标签 hadoop apache-pig

我想使用 PIG 读取 CSV 文件,我该怎么办?我使用了 load n pigstorage(',') 但它无法正确读取 CSV 文件,因为它在数据中遇到逗号 (,) 时会将其分割。如果数据中也有逗号,我现在应该如何给出 delimeter ?

最佳答案

通常无法区分数据中的逗号和作为分隔符的逗号。 您需要转义“数据”中的逗号以及可以识别转义逗号的自定义加载函数(对于 Pig)。

看这里:
http://ofps.oreilly.com/titles/9781449302641/load_and_store_funcs.html
http://pig.apache.org/docs/r0.7.0/udf.html#Load%2FStore+Functions

关于hadoop - 读取 PIG 中的文件,其中 delemeter 包含数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9126887/

相关文章:

hadoop - 任务计数器和作业计数器的区别

hadoop - 有什么方法可以限制Hbase中的列数

hadoop - 使用 hive 的合并语句将增量数据合并到外部表中

hadoop - 增加 pig 的映射器

java - hadoop mapreduce teragen FAIL_CONTAINER_CLEANUP

scala - 无法启动 spark-shell,因为它会在 hadoop 集群配置上产生错误,但是,在没有 hadoop 集群的情况下工作正常

hadoop - 如何在不打入Enter键的情况下在Pig grunt shell中输入两个命令?

java - 如何使用java代码设置amazon ami的hadoop配置

hadoop - 使用 'merge' 加入 PIG

python - Apache Pig 和用户定义的函数