最近我在装有 Win10 操作系统的 PC 上试用了 Google 的 Inception 图像分类器。基本上我经历了这个tutorial/manual .
简而言之,这些步骤是:
我的问题是我想在 Hadoop 环境中做同样的事情,不幸的是我不知道该怎么做,因为我是 Hadoop 的新手。我试图用谷歌搜索这个主题,但没有找到任何有用的结果。
我的 Hadoop 集群包含 4 个带有 Hadoop、Hive 和 Spark 的 Raspberry Pi。如果我是对的,至少有两种方法可以在 Hadoop 上进行再培训:
与第一选择一起,我想这些步骤可能是这些:
(Python 预装在 NOOB 上)
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper org.apache.hadoop.mapred.lib.IdentityMapper \
-reducer /bin/wc
-file (a python file which executes **)
** = $python tensorflow/examples/image_retraining/retrain.py \
--bottleneck_dir=/tf_files/bottlenecks \
--how_many_training_steps 500 \
--model_dir=/tf_files/inception \
--output_graph=/tf_files/retrained_graph.pb \
--output_labels=/tf_files/retrained_labels.txt \
--image_dir /tf_files/(myImages)
采用第二种方式...我不知道
如果有人可以提供一些建议,详细的步骤或只是告诉我一些方向,我将不胜感激。
最佳答案
您需要为 HDFS 配置环境。您还可以使用 docker 文件在 docker 中运行您的程序:https://github.com/tensorflow/ecosystem/blob/master/docker/Dockerfile.hdfs .您可能需要将您的训练计划复制到图像中。
然后,将数据复制到 HDFS 后,只需指定 "hdfs://namenode/file/path"
作为您的模型输入。 TensorFlow 的 gfile 模块可以识别 HDFS URI。
关于python - 如何在 Hadoop 环境中重新训练 Inception 图像分类器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40610958/