R {xml_node} 到纯文本同时保留标签?

标签 r rvest xml2

我想做什么xml2::xml_text()rvest::html_text()做但保留标签而不是替换例如<br>\n .目标是例如抓取网页,提取我想要的节点,并将纯 HTML 存储在一个变量中,很像 write_html()将它存储在一个文件中。

我怎样才能做到这一点?

最佳答案

具有讽刺意味的是,事实证明 as.character()工作得很好。

所以:

library(rvest)
html <- read_html("http://stackoverflow.com")

res <– html %>%
         html_node("h1") %>%
         as.character()

> res

[1] "<h1 class=\"-title\">Learn, Share, Build</h1>"

这是我当前用例中所需的输出。

另一方面,为了比较是否需要剥离标签:
res <- html %>%
         html_node("h1") %>%
         html_text()

> res
[1] "Learn, Share, Build"

关于R {xml_node} 到纯文本同时保留标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52338052/

相关文章:

r - 访问 R data.frame 中倒数第二个值的最佳方法是什么?

r - 数字向量和 data.table 中的索引

r - 如何创建车辆沿路线从 A 移动到 B 的动画?

r - 将数据与 R xml2 中的单个 XML 节点集隔离

r - 使用带有 xml2 的管道运算符编写 XML

r - 名称不符合 XML 命名空间

read.table 和解析 R 中的 float 据

html - R 解析网页中的不完整文本(HTML)

r - 如何用rvest过滤掉节点?

html - 使用 R 提取 html 文本 - 无法访问某些节点