hadoop - 将Sqoop增量导入作为逐 block 方式使用

标签 hadoop import hive cloudera sqoop

是否真的有可能通过sqoop增量导入来导入逐块数据?

Say I have a table with rowid 1,2,3..... N (here N is 100) and now I want to import it as chunk. Like
1st import: 1,2,3.... 20
2nd import: 21,22,23.....40
last import: 81,82,83....100

我已经阅读了有关增量导入的sqoop作业的信息,也了解了--last-value参数,但不知道如何传递块大小。对于上面的示例,此处的块大小为20。

最佳答案

最后,我编写了一个脚本,该脚本将在每次成功运行sqoop后使用新的where子句修改参数文件。我正在通过Oozie协调员来运行。我想使用--boundary-query但它不适用于块。这就是为什么我必须这样做。可在以下位置找到此解决方法的详细信息:

http://tmusabbir.blogspot.com/2013/05/chunk-data-import-incremental-import-in.html

关于hadoop - 将Sqoop增量导入作为逐 block 方式使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16444935/

相关文章:

Hadoop 从 Cloudera 中删除挂载点文件夹

hadoop - 将文件从本地文件复制到hdfs时出现错误消息

java - 如何使用map reduce获得前两个元素?

Python 包 "No module named..."

hadoop - Zeppelin 的 Hive 解释器抛出空指针异常

hadoop - Hadoop previous.checkpoint位置

eclipse - 在已从 Eclipse 导入的 Android Studio 中构建库项目

python - 如何将多个 Python 源文件连接成一个文件?

python - 强制Hive表中的每一行使用一个映射器

hive - 在线程 "main"java.lang.NoSuchFieldError : type 中运行 Hive-0.9.0 异常时出错