java - 使用java将巨大的本地文件移动到HDFS

标签 java hadoop hdfs

我的本​​地文件系统上存储了大约 2000 万个文件,每个文件 5k 代表一条推文。

存储如下:

/home/username/tweets/$tag/$year/$month/$day/$tweetid.txt

Example1 : /home/username/tweets/SCP/2014/04/11/9989443342233.txt

Example1 : /home/username/tweets/WDR/2014/02/08/5890321764568.txt

那么是否可以编写一个MapReducejava程序,根据标签将某个标签下的所有推文移动到HDFS中的单个目录中。

有类似的例子吗?

最佳答案

https://blog.cloudera.com/blog/2009/02/the-small-files-problem/中所示,

先制作序列文件,然后上传到HDFS。

关于java - 使用java将巨大的本地文件移动到HDFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23009683/

相关文章:

java - 扫描仪在使用 next() 或 nextFoo() 后跳过 nextLine()?

java - Mapreduce wordcount 作业中未找到类异常

hadoop - 在 Hadoop 上执行更新操作

java - 多个目录作为 hadoop map reduce 中的输入格式

hadoop - Apache Kafka 是否将消息内部存储在 HDFS 或其他文件系统中

hadoop - 在 hadoop 中更改目录的复制因子

java - 使用java或kotlin在libs中搜索aar文件名

java - 当我用 Mahout 运行 k-Means 时,总是显示这个提示

hadoop - 使用 pig 计算并查找 Hadoop 中的最大数量

java - Android:与远程服务器通信的最佳方式是什么?