我的本地文件系统上存储了大约 2000 万个文件,每个文件 5k 代表一条推文。
存储如下:
/home/username/tweets/$tag/$year/$month/$day/$tweetid.txt
Example1 : /home/username/tweets/SCP/2014/04/11/9989443342233.txt
Example1 : /home/username/tweets/WDR/2014/02/08/5890321764568.txt
那么是否可以编写一个MapReducejava程序,根据标签将某个标签下的所有推文移动到HDFS中的单个目录中。
有类似的例子吗?
最佳答案
如https://blog.cloudera.com/blog/2009/02/the-small-files-problem/中所示,
先制作序列文件,然后上传到HDFS。
关于java - 使用java将巨大的本地文件移动到HDFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23009683/