java - 只获取html中的href内容和src内容

标签 java android regex

我想知道如何从 html 内容中仅提取 hrefsrc 内容。 我尝试了正则表达式,但失败了。

这是我想要从中获取 hrefsrc 内容的文本:

<a href="http://rdmobile.fr/blog/mobile-la-pub-consomme-plus-que-les-applications-elles-memes/"><img align="left" hspace="5" width="150" height="150" src="http://rdmobile.fr/blog/wp-content/uploads/2012/03/angry-birds-150x150.jpg" class="alignleft tfe wp-post-image" alt="angry-birds" title="angry-birds" /></a>Si vous aussi vous vous étonnez de voir votre batterie fondre comme neige au soleil dès lors que jouez à Angry Birds, rassurez-vous, c’est normal. Des chercheurs de l&#8217;université de Purdue se sont intéressés aux publicités destinées majoritairement aux applications gratuites, et oui, comment les développeurs mangent-ils autrement ? Plus sérieusement, cette étude, publiée sur le [...]

我想提取这样的数据。

引用内容:http://rdmobile.fr/blog/mobile-la-pub-consomme-plus-que-les-applications-elles-memes/ 源内容:http://rdmobile.fr/blog/wp-content/uploads/2012/03/angry-birds-150x150.jpg

谁能帮我解决这个问题,我也喜欢学习基本的正则表达式。

谢谢, 伊苏鲁

最佳答案

JSoup 这样的 DOM 解析器 非常适合此类问题,并且允许与文档直接交互并使用 CSS 样式选择器:

Document document = Jsoup.connect(url).get();
Elements elementsWithSrcAttributes = document.select("[src]");
Elements elementsWithHrefAttributes = document.select("[href]");

for (Element element: elementsWithSrcAttributes) {
    System.out.println("src content: " + element.attr("src"));
}

for (Element element: elementsWithHrefAttributes) {
    System.out.println("href content: " + element.attr("href"));
}

关于java - 只获取html中的href内容和src内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15948714/

相关文章:

java - Android - 如何将五个变量值传递给后台线程并从中接收五个值?

regex - 根据部分匹配替换整个字符串

正则表达式匹配不以模式结尾的字符串?

java - 使用javax.swing.ImageIcon显示我保存在目录中的jpg

Java 终结 : How can I free non-GC resource even if there's mistake

android - 逐帧动画java.lang.OutOfMemoryError : bitmap size exceeds VM budget

java - 数据类 Kotlin 到 Java 类

jquery - 改进了使用正则表达式替换的性能

java - java中自定义对象类按其字段进行多重排序

java - 带 || 的递归返回语句在里面