java - 在 hadoop mapreduce 应用程序中访问来自其他文件系统的文件以及 hdfs 文件

标签 java hadoop

我知道我们可以从普通的 Java 应用程序调用 map-reduce 作业。现在,我的 map-reduce 作业必须处理 hdfs 上的文件以及其他文件系统上的文件。在 hadoop 中,我们是否可以在访问其他文件系统的文件的同时,同时使用 hdfs 上的文件。这可能吗?

所以基本上我的意图是我有一个大文件,我想把它放在 HDFS 中进行并行计算,然后将这个文件的 block 与一些其他文件(我不想放在 HDFS 中,因为它们需要)进行比较一次作为全长文件访问。

最佳答案

应该可以像其他任务一样从 mapper/reducer 任务访问非 HDFS 文件系统。需要注意的一件事是,如果有 1K 映射器,并且每个映射器都会尝试打开非 HDFS 文件,这可能会导致瓶颈,具体取决于外部文件系统的类型。这同样适用于从数据库中提取数据的映射器。

关于java - 在 hadoop mapreduce 应用程序中访问来自其他文件系统的文件以及 hdfs 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13183966/

相关文章:

java - 在 Spring MVC 应用程序中启用 Spring Security

Hadoop - 重启datanode和tasktracker

hadoop - 对多个作业使用相同的 JavaSparkContext 以防止在 spark 驱动程序初始化时使用时间

apache-spark - 如何知道我的数据有偏差?

java - 线程中的某些代码不重复

java - ervlet-api.jar) - jar 未加载。请参阅 Servlet 规范 2.3,第 9.7.2 节。违规类 : javax/servlet/Servlet. 类

java - org.xml.sax.SAXException : No deserializer for {http://www. w3.org/2001/XMLSchema}anyType 在 Java 中使用 Axis

java:systemd-notify 中不一致的看门狗超时

hadoop - Sqoop 停留在进度的 5%

java - 在 Google Compute Engine 上成功安装 Oryx?