r - 在 pdf、单个表、r 中解析跨多个页面的表

标签 r pdf

如何解析 pdf 文档中已拆分为多个页面的数据(表格)here放入 R 中的单个表中?

我已经尝试过的代码 - 我仍然想知道它是如何完成的,因为我不擅长解析文本文件。

请帮忙?

最佳答案

使用以下代码,您现在只需分隔数据框 df 的列(您可以使用 Excel 来实现):

library(pdftools)
library(tidyverse)

text <- pdf_text("consolidated transfer orders.pdf")

df <- map_dfr(1:length(text),
        ~ str_extract_all(text[.x],"(?<=\\n\\s{1,3})\\d+\\s+(.*)") %>%
          unlist() %>% data.frame())

关于r - 在 pdf、单个表、r 中解析跨多个页面的表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69614885/

相关文章:

R似乎忽略了下划线之后的变量名部分

html - 将 PDF 显示为 HTML 表单

php - 调用文件时 PDF 不下载

php - 如何使用php下载pdf文件

javascript - 寻找 HTML5/Javascript PDF 页面翻转器

r - 计算 R 中连续分布的 Anderson-Darling 检验统计量

r - 如何添加 geom_text 或 geom_label 以及相对于 geom_point 大小的位置?

r - dplyr:substr 的向量化

r - R 中的函数重新排序和排序值

image - 如何从 pdf 文件中提取 'clusters' 图像?