excel - 从 PDF 和 Excel 中抓取数据

标签 excel pdf screen-scraping

我正在做一些数据抓取,我正在从 3 种类型的文件中抓取数据。

1-HTML
2- PDF
3-Excel(xls)

对于 HTML,我很满意,我正在使用 HTML Agility。

对于 PDF 和 Excel,我需要任何人的建议。

提前致谢。

最佳答案

关于 Excel。如果您在 MS 环境中,您可以执行 Office Automation 或使用 OLEDB。在 Java 环境中查看 Apache POI。

编辑:关于Java中的PDF尝试Apache PDFBox 。还可以使用 IKVM 在 .NET 中工作

关于excel - 从 PDF 和 Excel 中抓取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3147803/

相关文章:

c++ - 即时将 .txt 文件转换为 .pdf 文件?

html - 无法在 "pdf-viewer"中显示 blob url => Angular 10 中的 "ng2-pdf-viewer"

python - BeautifulSoup 3.1.0.1 和 Python 2.5.2 的 UnicodeEncodeError

php cURL 操作在 120308 毫秒后超时,接收到 -1 字节中的 X

Excel:作为 COUNTIFS 语句的一部分,查找列表中与另一个列表匹配的所有值

vba - 保护 Excel 工作簿(使用 VBA)免于与不同数据重复使用

python - 使用 Pandas 代码创建独立文件

vba - 使用 VBA 获取图表名称

javascript - 在 Electron 中打开pdf文件

OpenGL/D3D : How do I get a screen grab of a game running full screen in Windows?