hadoop - Spark : Silently execute sc. wholeTextFiles

标签 hadoop apache-spark

我正在使用 input = sc.wholeTextFiles(hdfs://path/*) 在 Spark 中加载大约 200k 个文本文件然后我运行 println(input.count) 事实证明，我的 spark shell 输出了大量文本(这是每个文件的路径)，过了一会儿它就挂起而没有返回我的结果。

我相信这可能是由于 wholeTextFiles 输出的文本量所致。你知道有什么方法可以静默运行这个命令吗？还是有更好的解决方法？

谢谢!

最佳答案

您的文件有多大？来自 wholeTextFiles API :

Small files are preferred, large files are also allowable, but may cause bad performance.

在 conf/log4j.properties 中，您可以抑制过多的日志记录，如下所示:

# Set everything to be logged to the console
log4j.rootCategory=ERROR, console

这样，您将只返回 res 到 repl，就像在 Scala(语言)repl 中一样。

以下是您可以使用的所有其他日志级别:log4j API .

关于hadoop - Spark : Silently execute sc. wholeTextFiles，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27839454/

上一篇：hadoop - Hive QL - 在另一个表中使用键的子集行

下一篇：Hadoop 作业抛出 ConnectException 访问端口 8021

相关文章：

mysql - 使用 sqoop 将 mysql 查询导入到 hbase

python - Pyspark 将列表列转换为嵌套结构列

hadoop - 如何为hadoop 1.2.1集群配置主/从计算机

hadoop - 在 sparksql 中设置 textinputformat.record.delimiter

Hadoop Spark (Mapr) - AddFile 是如何工作的

python - pyspark : How to apply to a dataframe value another value depending on date in another dataframe

scala - 生产中的 Spark Structured Streaming 检查点使用

apache-spark - Spark 将输出写入固定宽度

java - 从 Apache Spark SQL 中的用户定义聚合函数 (UDAF) 返回多个数组

hadoop - 在 Pig 中按两列聚合数据分组