windows - Spark 文件系统观察程序无法在 Windows 上运行

标签 windows ubuntu apache-spark filesystemwatcher

两人测试Apache Spark在他们的电脑上...

Spark Download

我们下载了适用于 Hadoop 2.6 的 Spark prebuild 版本,转到文件夹 /spark-1.6.2-bin-hadoop2.6/ ,创建了一个“tmp”目录,然后运行:

$ bin/run-example org.apache.spark.examples.streaming.HdfsWordCount tmp

我添加了任意文件content1content2dssdgdg到那个“tmp”目录。
-------------------------------------------
Time: 1467921704000 ms
-------------------------------------------
(content1,1)
(content2dssdgdg,1)

-------------------------------------------
Time: 1467921706000 ms

Spark 在我的 Ubuntu 15.10 笔记本电脑上检测到具有上述终端输出的这些文件,但在我同事的 Windows 7 Enterprise 笔记本电脑上却没有。

Spark 的文件系统观察程序不能在 Windows 上运行吗?

最佳答案

约翰,我建议对托管在 https://github.com/karthikj1/Hadoop-2.7.1-Windows-64-binaries 的 64 位 Windows 7 使用 hadoop 编译的二进制文件。 .要使用这个 hadoop 版本,您需要使用为用户提供的 hadoop 预先构建的 spark 版本。确保按照 https://spark.apache.org/docs/latest/hadoop-provided.html 中所述设置 SPARK_DIST_CLASSPATH .还将 %HADOOP_HOME%\lib\native 放在 PATH 上。设置完成后,您需要按照 https://wiki.apache.org/hadoop/Hadoop2OnWindows 中提到的步骤 3.1、3.3、3.4 和 3.5 进行操作。启动本地 HDFS。在运行 HdfsWordCount 时,您需要将 hdfs:///tmp 作为目录路径参数传递。一切顺利。

关于windows - Spark 文件系统观察程序无法在 Windows 上运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38254405/

相关文章:

node.js - 在 Webstorm 2017.1.3/Ubuntu 16.04 LTS 中安装 npm 包

linux - 向应用程序发送按键

r - 在 Ubuntu 20.04 上安装 R

scala - 在 Spark 中分解结构列时出错

c++ - 我的构造函数方法不接受参数 (directX/windows)

c - 如何使用 MSVC 在 Windows 上针对 "cdylib"Rust lib 编译+链接一个简单的 hello_world.c

windows - 对于COM服务器和注册表项重定向,是否需要做文件路径重定向转换?

sql-server - 如何使用 INSERT INTO OPENROWSET 导出到 Excel 而无需成为目标服务器上的管理员

apache-spark - Spark off堆内存通过缓存扩展

apache-spark - Spark-SQL 慢查询性能