hadoop - IBM BigSheets问题

我将文件直接从HDFS(Pig脚本的输出文件)以及本地硬盘上的原始数据加载到大表时出现错误。
我观察到，每当我加载文件并发出行数以查看是否所有数据都已加载到bigsheets中时，我看到的行数就会减少。
我检查过文件是否一致且正确(以/ t或逗号分隔的字段)。
我的文件大小约为2GB，并且我使用了* .csv / * .tsv格式。

同样在某些情况下，当我厌倦了直接从Windows操作系统加载文件时，文件有时会成功地以行计数与数据中实际行数匹配的方式成功加载，然后有时行数会更少。

即使有时在第一次使用一个新文件时，它也会给出正确的结果，但是如果下次我执行相同的操作，则会丢失某些行。

请分享您的大工作表经验，解决所有未加载整个数据的问题，等等。

最佳答案

您最初加载到BigSheets中的数据只是一个子集。您必须运行工作表才能将其获取完整的数据集。

http://www-01.ibm.com/support/knowledgecenter/SSPT3X_3.0.0/com.ibm.swg.im.infosphere.biginsights.analyze.doc/doc/t0057547.html?lang=en

关于hadoop - IBM BigSheets问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27637256/

hadoop - IBM BigSheets问题

上一篇：hadoop - 在map-reduce任务之间共享全局数组

下一篇：hadoop - hbase mapreduce文件未找到异常