我正在做一些数据抓取,我正在从 3 种类型的文件中抓取数据。
1-HTML
2- PDF
3-Excel(xls)
对于 HTML,我很满意,我正在使用 HTML Agility。
对于 PDF 和 Excel,我需要任何人的建议。
提前致谢。
最佳答案
关于 Excel。如果您在 MS 环境中,您可以执行 Office Automation 或使用 OLEDB。在 Java 环境中查看 Apache POI。
编辑:关于Java中的PDF尝试Apache PDFBox 。还可以使用 IKVM 在 .NET 中工作
关于excel - 从 PDF 和 Excel 中抓取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3147803/