我正在尝试使用Python和Spark编写图像分类算法,我正在关注this教程,该教程取材于官方数据砖documentation,在本地运行时效果很好。
我现在的问题是,在群集上转移算法时,我必须以.jpg
格式从HDFS上的两个文件夹中加载图像,而在示例中找不到以本地方式创建数据框的方法。
我正在寻找此代码的替代品:
from sparkdl import readImages
jobs_df = readImages(img_dir + "/jobs").withColumn("label", lit(1))
最佳答案
它应该与从本地读取文件几乎相同。
下面是该库的实现。它在内部使用binaryFiles api加载二进制文件。 API文档(binaryFiles)表示它也支持Hadoop文件系统。
rdd = sc.binaryFiles(path, minPartitions=numPartitions).repartition(numPartitions)
希望这可以帮助。
关于python - HDFS的图像数据帧用于图像分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47874622/