羊群
在这里,我有一个客户问题。我想将表从sql server(RDBMS)到我的hdfs(hadoop群集)。但是服务器位于不同的位置。
1)哪种是访问服务的最佳方式,但数据量很大。
2)连接一台服务器是可以的,我们在全局有很多服务器,我们必须从这些服务器获取数据。
3)我们可以与sqoop远程连接以将数据获取到HDFS吗?
最佳答案
您的问题尚不清楚,但是可以,您可以使用sqoop将服务器中的数据导入HDFS。导入数据时需要指定连接参数:
sqoop import --connect <JDBC connection string> --table <tablename> --username <username> --password <password>
如果需要从多个服务器进行多次导入,建议您尝试使用Oozie来自动执行这些导入。您可以找到实现该here的教程。
关于hadoop - 访问远程服务器获取数据并将其放入hdfs,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21001023/