我正在使用配置单元和 python udf。我定义了一个 sql 文件,我在其中添加了 python udf 并调用它。到目前为止一切顺利,我可以使用我的 python 函数处理我的查询结果。 但是,此时,我必须在我的 python udf 中使用外部 .txt 文件。我将该文件上传到我的集群(与 .sql 和 .py 文件相同的目录),我还使用以下命令将其添加到我的 .sql 文件中:
ADD FILE /home/ra/stopWords.txt;
当我在我的 python udf 中这样调用这个文件时:
file = open("/home/ra/stopWords.txt", "r")
我遇到了几个错误。我不知道如何添加嵌套文件并在配置单元中使用它们。
有什么想法吗?
最佳答案
所有添加的文件都位于UDF脚本的当前工作目录(./
)。
如果您使用 ADD FILE/dir1/dir2/dir3/myfile.txt
添加单个文件,其路径将为
./myfile.txt
如果您使用 ADD FILE/dir1/dir2
添加一个目录,该文件的路径将为
./dir2/dir3/myfile.txt
关于python - 在 Python UDF 中访问外部文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45112390/