我想做什么xml2::xml_text()
或 rvest::html_text()
做但保留标签而不是替换例如<br>
与 \n
.目标是例如抓取网页,提取我想要的节点,并将纯 HTML 存储在一个变量中,很像 write_html()
将它存储在一个文件中。
我怎样才能做到这一点?
最佳答案
具有讽刺意味的是,事实证明 as.character()
工作得很好。
所以:
library(rvest)
html <- read_html("http://stackoverflow.com")
res <– html %>%
html_node("h1") %>%
as.character()
> res
[1] "<h1 class=\"-title\">Learn, Share, Build</h1>"
这是我当前用例中所需的输出。
另一方面,为了比较是否需要剥离标签:
res <- html %>%
html_node("h1") %>%
html_text()
> res
[1] "Learn, Share, Build"
关于R {xml_node} 到纯文本同时保留标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52338052/