我正在使用 input = sc.wholeTextFiles(hdfs://path/*)
在 Spark 中加载大约 200k 个文本文件
然后我运行 println(input.count)
事实证明,我的 spark shell 输出了大量文本(这是每个文件的路径),过了一会儿它就挂起而没有返回我的结果。
我相信这可能是由于 wholeTextFiles
输出的文本量所致。你知道有什么方法可以静默运行这个命令吗?还是有更好的解决方法?
谢谢!
最佳答案
您的文件有多大?
来自 wholeTextFiles
API :
Small files are preferred, large files are also allowable, but may cause bad performance.
在 conf/log4j.properties
中,您可以抑制过多的日志记录,如下所示:
# Set everything to be logged to the console
log4j.rootCategory=ERROR, console
这样,您将只返回 res
到 repl,就像在 Scala(语言)repl 中一样。
以下是您可以使用的所有其他日志级别:log4j API .
关于hadoop - Spark : Silently execute sc. wholeTextFiles,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27839454/