java - 使用java将巨大的本地文件移动到HDFS

我的本地文件系统上存储了大约 2000 万个文件，每个文件 5k 代表一条推文。

存储如下:

/home/username/tweets/$tag/$year/$month/$day/$tweetid.txt

Example1 : /home/username/tweets/SCP/2014/04/11/9989443342233.txt

Example1 : /home/username/tweets/WDR/2014/02/08/5890321764568.txt

那么是否可以编写一个MapReducejava程序，根据标签将某个标签下的所有推文移动到HDFS中的单个目录中。

有类似的例子吗？

最佳答案

如https://blog.cloudera.com/blog/2009/02/the-small-files-problem/中所示,

先制作序列文件，然后上传到HDFS。

关于java - 使用java将巨大的本地文件移动到HDFS，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23009683/

上一篇：java - 从功能内部运行 cucumber 功能？

下一篇：java - 使用 Spinner 从 assets 文件夹中访问文件

java - Mapreduce wordcount 作业中未找到类异常

hadoop - 在 Hadoop 上执行更新操作

java - 多个目录作为 hadoop map reduce 中的输入格式

hadoop - Apache Kafka 是否将消息内部存储在 HDFS 或其他文件系统中

hadoop - 在 hadoop 中更改目录的复制因子

java - 使用java或kotlin在libs中搜索aar文件名

java - 当我用 Mahout 运行 k-Means 时，总是显示这个提示

hadoop - 使用 pig 计算并查找 Hadoop 中的最大数量

java - Android:与远程服务器通信的最佳方式是什么？