html - 将 HTML/XML PDF 文件格式读入 R

标签 html r xml

我正在尝试通过将 pdf 作为 HTML/XML 文件读入 R 来解析它。我知道我可以使用 pdftools 包阅读它。但是,如果我将链接当作 HTML/XML 文件来阅读,我将无法访问其中的数据。

library(xml2)
library(XML)
html_string="https://mchb.hrsa.gov/whusa11/hstat/hsrmh/downloads/pdf/233ml.pdf"
ht <-read_html(html_string)
nodes<-xml_find_all(ht, ".//body")


> ht
{xml_document}
<html>
 [1] <body><p>%PDF-1.6\r%\xe2ãÏÓ\r\n83 0 obj\r&lt;&gt;stream\r\nhÞ\u009cTË\u008eÓ@äSú'»çÑ3\u0096V+EA\\"V«$·\u ...
 [2] <html><p>\u009d@a ö¯\u0088Î÷Ü\\&amp;ÔÈýÐâÿZO^"j[FoQ)ÒÇq\n\u009b\u008dx\u0085\u008eß±µ\u009bõo\t­\u008f6¢ ...

> ht[1]
  $node
  <pointer: 0x00000000047901a0>

我也尝试了以下功能

xmlTreeParse
xmlToList
xmlParse

如何访问里面的xml文档内容字符串?我正在努力使它们成为我可以操纵的对象。

最佳答案

使用 pdfx 的可能解决方案

# download file to your home dir
download.file("https://mchb.hrsa.gov/whusa11/hstat/hsrmh/downloads/pdf/233ml.pdf","233ml.pdf")

# get packages
library(remotes)
remotes::install_github("sckott/extractr")
library(extractr)

#parse
pdfx(file="233ml.pdf", what="parsed")

关于html - 将 HTML/XML PDF 文件格式读入 R,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56083496/

相关文章:

javascript - 使 <a> 标签悬停改变鼠标样式

r - 检测两个序列之间的差异

ios - 如何使用 RestKit 映射 XML textContent?

javascript - 哪些本地数据库可用于 Javascript?

java - 使用 XStream 和 JsonHierarchicalStreamDriver 输出值,如何舍入 double ?

html - 我怎样才能有一个下拉框,您可以在其中选择一些内容,并将 HTML &lt;title&gt; 标记设置为下拉菜单设置的内容?

javascript - knockout.js css 绑定(bind) - 如何添加焦点等元素状态?

javascript - onmouseout 事件未能触发并更改值

r - 如何从R中的数据框中删除负值

r - 如何更改 R 中 ggplot2 中 geom_text 的字体颜色?