我已经下载了一个大约2GB的百万歌曲数据集的子集。但是,数据被分解为文件夹和子文件夹。在子文件夹中,它们都是几个“H5 文件”格式。我知道它可以使用 Python 读取。但我不知道如何提取并加载到 HDFS 中,以便我可以在 Pig 中运行一些数据分析。 我是否将它们提取为 CSV 并加载到 Hbase 或 Hive?如果有人能指出我正确的资源,那将会有所帮助。
最佳答案
如果它已经在 CSV 或 linux 文件系统上的任何格式中,PIG 可以理解,只需执行 hadoop fs -copyFromLocal 即可
如果您想在 HDFS 上使用 Python 读取/处理原始 H5 文件格式,请查看 hadoop-streaming (map/reduce)
Python 可以在一个不错的 linux 系统上处理 2GB - 不确定你是否需要 hadoop。
关于python - 如何将百万歌曲数据集等大数据集加载到 BigData HDFS 或 Hbase 或 Hive 中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33043704/