java - 在 java 上从 url 解析 pdf。我可以使用 jsoup 吗?

标签 java pdf jsoup pdf-parsing

我有网址:http://pasca.undiksha.ac.id/e-journal/index.php/jurnal_bahasa/article/view/500 (它不是直接访问 pdf,而是指向 pdf 文件。我想解析这个 pdf 文件并获取 pdf 文本。我尝试使用 jsoup:`

String url = "http://pasca.undiksha.ac.id/e-journal/index.php/jurnal_ep/article/download/380/172";
File in = new File(url);
Document doc = Jsoup.parse(in, "UTF-8");
System.out.println(doc.toString());`

输出是:

java.io.FileNotFoundException: http:\pasca.undiksha.ac.id\e-journal\index.php\jurnal_ep\article\download\380\172 (The filename, directory name, or volume label syntax is incorrect)
        at java.io.FileInputStream.open(Native Method)
        at java.io.FileInputStream.<init>(FileInputStream.java:138)
        at org.jsoup.helper.DataUtil.load(DataUtil.java:36)
        at org.jsoup.Jsoup.parse(Jsoup.java:103)

有人知道吗?谢谢

最佳答案

使用 URLConnection 连接 pdf 使用 :

阅读内容
URL url = 
new URL( "http://pasca.undiksha.ac.id/e-journal/index.php/jurnal_bahasa/article/view/500" );

URLConnection connection = url.openConnection();

input = connection.getInputStream();

Document doc = Jsoup.parse(in, "UTF-8");
System.out.println(doc.toString());

关于java - 在 java 上从 url 解析 pdf。我可以使用 jsoup 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14578302/

相关文章:

java - Spring JSR 303验证在编辑/添加时访问其他字段值

ios - 从 UIWebView 创建 PDF 文件

java - Jsoup 抓取嵌入标签

java - 如何从 Deeplearning4J 的 org.datavec.audio.Spectrogram 生成频谱图图像?

java - Android java线程 sleep 示例

java - JPA查询返回实体列表

java - 如何修改jsoup中的html文件内容?

pdf - 无法在 Safari 上下载 pdf blob url

javascript - 包含 pdf 文件的页面显示 5 分钟后重定向到另一个页面

java - 使用正则表达式从 HTML 属性中提取数字