java - 如何从网页中提取所有文本？

我正在使用 JSoup 库提取网页中的文本。以下是我的代码

 Document doc;

try {
 URL url = new URL(text);


 doc = Jsoup.parse(url, 70000);

 Elements paragraphs = doc.select("p");
 for(Element p : paragraphs)
 {

    textField.append(p.text());
    textField.append("\n");
 }
} 
catch (Exception ex)
{

   ex.printStackTrace();

}

在这里，我只能从“p”标签获取文本。但我需要页面中的所有文本。我该怎么做？这可能是通过循环节点来实现的，但我刚刚开始使用 JSoup。

最佳答案

试试这个:

String text = Jsoup.parse(new URL("https://www.google.com"), 10000).text();
System.out.println(text);

这里10000的单位是毫秒，指的是超时。

关于java - 如何从网页中提取所有文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19267188/

上一篇：java - 使用不同的格式/模式解析迄今为止的字符串

下一篇：Java 字符串正则表达式

相关文章：

javascript - 在 DOM 中搜索不区分大小写的字符串

java - 在服务类中调用时服务类不更新数据库

java - 大型 ByteBuffer 的 BufferedReader？

java - 在Java中使用cmd复制文件的问题

java - 图像在最小化窗口时丢失

javascript - jQuery 选择器现在遇到了我想删除以下跨度

Android 设备将文本换行到屏幕宽度

html - 输入范围值的指数增长

javascript - 在尝试选择注入(inject)了 appendChild() 的节点时，如何防止 Range.selectNode() 选择过多的 DOM？

javascript - 使用 setAttribute() 附加新属性？