Java Jsoup : Retrieve only the article

标签 java jsoup extract

正在尝试检索文章的文本。我想选择

中的所有文本
<p>... </p>

我做到了。

但我只想从文章正文中检索文本,而不是整个页面

Document article = Jsoup.connect("html doc").get();
Elements paragraphs = article.select("p");

上面的代码从页面中获取整个文本。我只想要

之间的文字
<article itemprop= "articleBody">...</article>

如果这很难理解,我很抱歉,我尝试制定 尽我所能提问。

最佳答案

Elements#text() 将返回所有组合段落的纯文本内容(有关更多详细信息,请参见此处 https://jsoup.org/apidocs/org/jsoup/select/Elements.html)

关于Java Jsoup : Retrieve only the article,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38747371/

相关文章:

C++:在点后提取字符串

linux - 如何删除所有字段 3 重复行

java - 在netty中使用TextWebsocketFrame在不同的TextAreas中写入不同的消息

java - JSoup 格式错误的 URL 异常

java - 用JSOUP解析HTML文档,无法选择表格节点?

java - Jsoup Html解析查询

java - 通用捕获声明

java - 坚持尝试将随机对象用于我的 Java 计算机编程入门作业

java - Spark : subtract values in same DataSet row

installation - 如何仅提取 JDK 安装程序的内容