hadoop - 如何从 Spark 中查看底层 Hadoop 文件系统

我是这样启动 Spark 的:

spark-shell --master local[10]

我正在尝试查看底层 Hadoop 安装上的文件。

我想做这样的事情:

hdfs ls

我该怎么做？

最佳答案

只需从 sys.process 包中导入类，您就可以从 scala(spark 默认自带)执行任何底层系统/操作系统命令(如 hdfs dfs -ls 甚至纯 shell/DOS 命令)。参见下面的例子

Linux

import sys.process._
val oldcksum = "cksum oldfile.txt" !!
val newcksum = "cksum newfile.txt" !!
val hdpFiles = "hdfs dfs -ls" !!

window

import sys.process._    # This will let underlying OS commands to be executed.
val oldhash = "certUtil -hashFile PATH_TO_FILE" !!#CertUtil is a windows command

如果您计划在 Spark 中读取和写入 HDFS，您需要首先集成 spark 和 hadoop。 http://spark.apache.org/docs/latest/configuration.html#inheriting-hadoop-cluster-configuration

关于hadoop - 如何从 Spark 中查看底层 Hadoop 文件系统，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40530550/

上一篇：java - 使用 FileUtil API 在同一个 hdfs 中复制文件需要太多时间

下一篇：hadoop - 根据文件大小滚动时，水槽需要时间将数据复制到 hdfs

相关文章：

apache-spark - Spark 流式微批处理

apache-kafka - 使用连接接收器 HDFS 连接器包含来自 Kafka 消息的 key

windows - 在 32 位处理器的 Windows 7 上安装 Hadoop？

hadoop - 当映射器输出大部分排序时最小化随机播放

java - EMR - 在 Hadoop(和 YARN)中使用自定义日志记录附加程序

apache-spark - 为什么加载 Cobol Copybook 文件失败并显示 "ClassNotFoundException: java.time.temporal.TemporalAccessor"？

apache-spark - 使用 Spark Streaming 和机器学习实时预测在线数据

hadoop - 通过管道将多个文件传输到 HDFS

hadoop - 为什么 "hadoop fs -mkdir"会因权限被拒绝而失败？

maven - 指定 Maven 存储库 URL 来解决依赖关系？