csv - 不完整的 HDFS URI,没有主机

标签 csv pyspark hdfs

我正在尝试通过 PySpark 从 HDFS 读取一个 csv 文件。 我正在使用以下代码:

path='hdfs://XX.XX.XX.XX:X000'

myrdd=sc.textFile(path)

可以正常读取文件。但是,稍后当我尝试将其转换为数据框时出现以下错误:

Py4JJavaError:调用 o423.partitions 时出错。 : java.io.IOException: 不完整的 HDFS URI,没有主机:hdfs://XX.XX.XX.XX:X000

我用来创建数据框的代码是:

from pyspark import Row
instance=Row('feature1', 'feature2')
ins=myrdd.map(lambda r: instance(*r))
df = hc.createDataFrame(ins)
df.collect()

只是提一下,如果我稍微更改一个实际不存在的文件的路径,假文件仍然可以以某种方式读取,这让我觉得真实文件有问题但我不完全当然可以。这可能是配置问题吗?

最佳答案

在我的实例中,我必须提供完整路径,即

val file = sc.textFile("hdfs://localhost:9000/user/$username/input/file.csv")

关于csv - 不完整的 HDFS URI,没有主机,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48950289/

相关文章:

excel - 将元数据添加到 CSV 文件中以指示 Excel 应如何打开

c# - 使用 Filehelpers 处理 DelimitedRecord 中的换行符

python - pandas:read_csv仅排除某些行

hadoop - CentOS 7 上的 Spark 和 IPython

apache-spark - 通过Log4j记录HDFS上的Spark驱动程序和执行程序日志

hadoop - 我可以在ozie中将py spark作为shell工作运行吗?

powershell - 如何使用 PowerShell 检查 csv 列中的空行

python - Pyspark:如何处理 python 用户定义函数中的空值

python - 在条件列表上使用逻辑AND的PySpark DataFrame过滤器-Numpy All Equivalent

java - 在 Windows 上的 Hadoop 2.6.0 上运行 Map reduce 时出错