python - 如何将百万歌曲数据集等大数据集加载到 BigData HDFS 或 Hbase 或 Hive 中？

标签 python hadoop hive hbase bigdata

我已经下载了一个大约2GB的百万歌曲数据集的子集。但是，数据被分解为文件夹和子文件夹。在子文件夹中，它们都是几个“H5 文件”格式。我知道它可以使用 Python 读取。但我不知道如何提取并加载到 HDFS 中，以便我可以在 Pig 中运行一些数据分析。我是否将它们提取为 CSV 并加载到 Hbase 或 Hive？如果有人能指出我正确的资源，那将会有所帮助。

最佳答案

如果它已经在 CSV 或 linux 文件系统上的任何格式中，PIG 可以理解，只需执行 hadoop fs -copyFromLocal 即可

如果您想在 HDFS 上使用 Python 读取/处理原始 H5 文件格式，请查看 hadoop-streaming (map/reduce)

Python 可以在一个不错的 linux 系统上处理 2GB - 不确定你是否需要 hadoop。

关于python - 如何将百万歌曲数据集等大数据集加载到 BigData HDFS 或 Hbase 或 Hive 中？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33043704/

上一篇：使用 order by 在 Pig 中排序

下一篇：java - Hadoop mapreduce-java.io.IOException : Job failed

相关文章：

unix - hive 和UNIX脚本

python - 如何在python中批量加载数据到hbase

hadoop - 在 hive 中的字符串中的某些字符后提取文本

Hive (1.1.0) - 在将数据加载到具有动态分区的 RC 表时获取小文件

python - 从打印它返回的对象中禁用 Python return 语句

Python 瓶请求和 unicode

python - f 字符串不支持行连接吗？

python - 如何在列表中查找特定长度的重复序列？

hadoop - PIG : Unable to open iterator for alias AliasName. 标量在输出中有多于一行

hadoop - 用MicroStrategy连接没有身份验证的Apache配置单元