windows - apache mahout ALS 可以在没有 hadoop 的情况下工作吗?

标签 windows hadoop mahout

我尝试使用 ParallelALSFactorizationJob,但它在这里崩溃了:

线程“main”中的异常 java.lang.NullPointerException 在 java.lang.ProcessBuilder.start(ProcessBuilder.java:1012) 在 org.apache.hadoop.util.Shell.runCommand(Shell.java:445) 在 org.apache.hadoop.util.Shell.run(Shell.java:418) 在 org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:650) 在 org.apache.hadoop.util.Shell.execCommand(Shell.java:739)

命令行帮助提到使用文件系统,但它似乎需要 hadoop。我如何在 Windows 上运行它,mahout.cmd 文件已损坏:

"===============弃用警告===============" “自 Mahout 0.10.0 起,新驱动程序不再支持此脚本” “支持 Mahout 的 bash 脚本,如果有人想为此贡献修复” “将不胜感激。”

那么这可能吗(ALS + Windows - hadoop)?

最佳答案

Mahout 是一个社区驱动的项目,其社区非常强大。

"Apache Mahout is one of the first and most prominent Big Data machine learning platforms. It implements machine learning algorithms on top of distributed processing platforms such as Hadoop and Spark."

-Tiwary, C. (2015)。 Learning Apache Mahout .

Apache Spark 是一种开源的内存中通用计算系统,可在类似 Windows 和 Unix 的系统上运行。 Spark 不是类似 Hadoop 的基于磁盘的计算,而是使用集群内存将所有数据上传到内存中,并且可以重复查询这些数据。

"As Spark is gaining popularity among data scientists, the Mahout community is also quickly working on making Mahout algorithms function on Spark's execution engine to speed up its calculation 10 to 100 times faster. Mahout provides several important building blocks to create recommendations using Spark."

-Gupta, A (2015)。 Learning Apache Mahout Classification .

(这最后一本书还提供了分步指南使用 Mahout 的 Spark shell(他们不使用 Windows,但不清楚他们是否使用 Hadoop)。有关更多信息关于该主题,请参阅 https://mahout.apache.org/users/sparkbindings/play-with-shell.html 的实现部分。)

除此之外,您还可以使用 Spark 构建推荐引擎,例如 Spark MLlib 中可用的数据帧、RDD、管道和转换和

in Spark, (...) the Alternating Least Squares (ALS) method is used for generating model-based collaborative filtering.

-Gorakala, S. (2016)。 Building Recommendation Engines .

此时,在回答您的问题之前还有一个问题需要回答:can we run Spark without Hadoop? .

所以,,可以在 Windows 上使用 Spark(没有 Hadoop)使用 ALS 方法。

关于windows - apache mahout ALS 可以在没有 hadoop 的情况下工作吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52940761/

相关文章:

hadoop - AWS Athena 在分区加载后创建缩进并将值移动到错误的列中

java - Apache Mahout K-means 聚类简介

php - 无法从远程计算机上的 mysql 工作台连接到 phpmyadmin 或数据库

csv - 使用Apache Pig将数据加载到Hbase表时,如何排除csv或文本文件中某行中没有数据(仅空白)的列?

java - 无法删除或更改特定文件

hadoop - 在Windows 10上运行Spark进度给错误找不到wintuls.exe

python - 我的 boto elastic mapreduce jar 作业流程参数有什么问题?

machine-learning - 运行协同过滤的 mahout 示例 : where are the results?

windows - 在 Windows 上使用 Chromium 查看 PDF

c++ - shell_notifyicon : an attempt was made to reference a token that does not exist, 没有显示图标