hadoop - 在Apache Pig中加载csv文件时出错

标签 hadoop apache-pig

我试图在hdfs模式下的apache pig中使用以下命令加载数据:
测试=使用PigStorage('，')as(ID:long，Country:chararray，Carrier:float，ClickDate:chararray，Device:chararray，OS:chararray，UserIp:chararray，PublisherId: float ，advertiserCampaignId:float，欺诈:float)；

它给出如下错误:
2017-12-12 13:49:10,347 [main]错误org.apache.pig.tools.grunt.Grunt-错误1200:输入'/'不匹配，期望QUOTEDSTRING
日志文件中的详细信息:/home/matlab/Documents/pig_1513066708530.log

令人惊讶的是，我的数据集没有13列。

最佳答案

文件路径应该用引号''到LOAD

使用PigStorage('，')as(ID:long，Country:chararray，Carrier:float，ClickDate:chararray，Device:chararray，OS:chararray，UserIp:chararray，test = LOAD'/user/swap/done2.csv' PublisherId:float，advertiserCampaignId:float，Fraud:float);

关于hadoop - 在Apache Pig中加载csv文件时出错，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47768156/

上一篇：获取 YARN 运行应用程序使用的容器和 vcore 数量的 Python 命令

下一篇：mongodb - docker-compose在mongodb中创建用户

相关文章：

json - Pig脚本/命令过滤特定字符串上的文件

java - EMR 上的 MapReduce 不联系 RMProxy，并陷入等待资源管理器的状态？

hadoop - 执行sqoop时发生错误-合并

hadoop - 运行带 Spark 的 yarn 不适用于 Java 8

hadoop - 用于文件写入的 Spark 分区非常慢

map - 将键值元组包转换为在 Apache Pig 中映射

hadoop - 在 Hadoop Hive Pig 场景中需要专家帮助

hadoop - 使用 Java 运行 EmbeddedPig 时，Pig 脚本中的 ORDER BY 作业失败

java - 海量多道程序和只读文件访问

hadoop - Druid hadoop批处理主管:无法将类型id 'index.hadoop'解析为SupervisorSpec的子项