java - 如何从网页中提取所有文本?

标签 java html dom web jsoup

我正在使用 JSoup 库提取网页中的文本。以下是我的代码

 Document doc;

try {
 URL url = new URL(text);


 doc = Jsoup.parse(url, 70000);

 Elements paragraphs = doc.select("p");
 for(Element p : paragraphs)
 {

    textField.append(p.text());
    textField.append("\n");
 }
} 
catch (Exception ex)
{

   ex.printStackTrace();

} 

在这里,我只能从“p”标签获取文本。但我需要页面中的所有文本。我该怎么做?这可能是通过循环节点来实现的,但我刚刚开始使用 JSoup

最佳答案

试试这个:

String text = Jsoup.parse(new URL("https://www.google.com"), 10000).text();
System.out.println(text);

这里10000的单位是毫秒,指的是超时。

关于java - 如何从网页中提取所有文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19267188/

相关文章:

javascript - 在 DOM 中搜索不区分大小写的字符串

java - 在服务类中调用时服务类不更新数据库

java - 大型 ByteBuffer 的 BufferedReader?

java - 在Java中使用cmd复制文件的问题

java - 图像在最小化窗口时丢失

javascript - jQuery 选择器现在遇到了我想删除以下跨度

Android 设备将文本换行到屏幕宽度

html - 输入范围值的指数增长

javascript - 在尝试选择注入(inject)了 appendChild() 的节点时,如何防止 Range.selectNode() 选择过多的 DOM?

javascript - 使用 setAttribute() 附加新属性?