java - 应该使用mapper类的哪个方法来读取分布式缓存中的文件

标签 java hadoop

您想要填充关联数组以执行映射端连接。你已经决定 将这些信息放在一个文本文件中,将该文件放入 DistributedCache 并在您的 处理任何记录之前的映射器。 确定应该使用 Mapper 中的哪个方法来实现读取文件的代码,以及 填充关联数组?

映射或配置??

最佳答案

我相信您正在寻找 setup() 方法。

http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapreduce/Mapper.html#setup%28org.apache.hadoop.mapreduce.Mapper.Context%29

它在每个映射器任务的初始化时被调用一次。因此,如果在 map 任务开始通过 map 方法读取键/值对之前您想做任何事情(例如,在您的问题中,从分布式缓存中读取文件并用信息填充一些成员变量),那么就是这样做的地方。

关于java - 应该使用mapper类的哪个方法来读取分布式缓存中的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20833426/

相关文章:

azure - 如何使用 webhdfs API 访问 Azure datalake

java - 从包含对象作为值的哈希表创建 listView 适配器

Hadoop - 使用 MultipleInputs 加入可能会跳过 Reducer

python - 将数据从 pyspark 写入 ElasticSearch

java - 是否可以在运行时在java中获取String的引用名称?

python - 删除表语句中的 Hive ParseException

database - 在单个作业中从多个数据库读取-hadoop

java - 在 MyEclipse 2017 中首次构建 --> maven 构建中有错误

java - 如何检测bundle是否完全加载到osgi容器中?

java - jruby从 super java类调用方法