运行 R 3.2.0、R Studio 0.99.441、Windows 7 32 位、XML 包 3.98-1.2
我正在尝试使用 XML 包和 xmlTreeParse 从下面的站点读取 XML 文件,但一直出现错误。
https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml
> fileURL <- "https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml"
> doc <- xmlTreeParse(fileURL, useInternal = TRUE)
Error: XML content does not seem to be XML: 'https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml'
我也试过 download.file() 和 xmlTreeParse
download.file(fileURL, destfile = "data.xml")
doc <- xmlTreeParse("data.xml", useInternalNodes = TRUE)
当我执行此操作时,不会立即出现错误,但变量“doc”没有结构,我不确定如何从这一点开始阅读它。
最佳答案
从 https
中删除 s
:
fileURL <- "http://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml"
fileURL <- sub('https', 'http', fileURL)
doc <- htmlParse(fileURL)
关于xml - 无法从 https ://site 读取 XML 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30714184/