我如何找到并提取具有类名的 html 标记。但是,就我而言,我不会知道整个类名,只知道一个词。例如在下面的html文件中,我想提取类="by line vcard top-line"
的cite标签,但我只知道该类包含vcard?我正在使用 jsoup。
<div class="credit">
<div class="credit-text">
<cite class="byline vcard top-line">
By Taylor Hill | Takepart.com
<abbr>July 28, 2015 3:27 PM</abbr>
</cite>
<span class="bottom-line">
<a href="http://www.takepart.com/" data ylk=ltxt:TakePartcom;">
<span class="provider-name">TakePart.com</span></a>
</span>
</div>
</div>
</div>
最佳答案
我只是快速浏览了一下 jsoup(我第一次听说),看起来您可以通过 getElementsByClass(String className) 方法根据其类找到所需的元素
所以在你的情况下你会使用: getElementsByClass("变量")
那只会给你元素。要获取其内容,您似乎必须调用 html() 方法。
所以你的代码看起来或多或少像这样:
Elements links = content.getElementsByClass("var");
for (Element link : links) {
String linkHtmlContents = link.html();
}
http://jsoup.org/cookbook/extracting-data/dom-navigation
我相信您可以通过 JQuery 通过调用 vcard 类上的 html() 函数来实现相同的目的。如:
$(".vcard").html()
这应该会返回第一个匹配元素的 HTML 内容,因此您可以在循环内执行此操作以获取每个元素,或者使用 text() 函数获取所有元素的内容。
关于java - 如何在类名中提取带有特定单词的 HTML 标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31713801/