hadoop - IBM BigSheets问题

标签 hadoop apache-pig biginsights

我将文件直接从HDFS(Pig脚本的输出文件)以及本地硬盘上的原始数据加载到大表时出现错误。
我观察到,每当我加载文件并发出行数以查看是否所有数据都已加载到bigsheets中时,我看到的行数就会减少。
我检查过文件是否一致且正确(以/ t或逗号分隔的字段)。
我的文件大小约为2GB,并且我使用了* .csv / * .tsv格式。

同样在某些情况下,当我厌倦了直接从Windows操作系统加载文件时,文件有时会成功地以行计数与数据中实际行数匹配的方式成功加载,然后有时行数会更少。

即使有时在第一次使用一个新文件时,它也会给出正确的结果,但是如果下次我执行相同的操作,则会丢失某些行。

请分享您的大工作表经验,解决所有未加载整个数据的问题,等等。

最佳答案

您最初加载到BigSheets中的数据只是一个子集。您必须运行工作表才能将其获取完整的数据集。

http://www-01.ibm.com/support/knowledgecenter/SSPT3X_3.0.0/com.ibm.swg.im.infosphere.biginsights.analyze.doc/doc/t0057547.html?lang=en

关于hadoop - IBM BigSheets问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27637256/

相关文章:

hadoop - Pig on local 模式与 pig-without hadoop.jar 的区别

hadoop - Apache Pig 错误 -- 无法追踪

biginsights - 通过 Java API/Python 访问 gpfs​​ 文件

hadoop - Hive 中的过滤数组

hadoop - Hive 理解表创建

java - 在 hadoop 中运行作业 - 错误

hadoop - Hadoop:ClassNotFoundException

hadoop - Pig Mapreduce 计算连续的字母

linux - Ambari BigInsights Kafka 未启动