java - 搜索并保存 html 代码中的指定链接

标签 java string search image bufferedreader

</div><div class="tr">
  </div><div class="bl">
  </div><div class="br">
  </div>  <img src="http://blablabla.com/medium/blablabla.jpg" />
</div></a>
          </div><div class="meta">
<h3 class="action">
<span>
    <a href="/abc">ABC</a>
  </span> a picture
</h3>

我将网站的 HTML 源代码保存到字符串中，如下所示:

  public static BufferedReader read(String url) throws Exception
  {
    return new BufferedReader(
        new InputStreamReader(
            new URL(url).openStream()));
  }

在这段代码中，我想将所有图像网址保存在一个带有连接\n的新字符串中，该字符串内部有/medium/，或者使带有连接\n的字符串中的所有图像链接更容易。流程应该怎样？提前致谢

最佳答案

您可以使用JSoup，而不是尝试自己解析HTML内容。获取图像标签并执行简单的 String.contains 来获取您正在查找的图像标签。

Document doc = Jsoup.connect("http://www.blah.com/foo.html");
for (Element e : doc.select("img")) {
    String imageSrc = e.attr("src");
    if (imageSrc.contains("/medium/")) {
     ...
    }
}

还有avoid using regex to parse HTML 。

关于java - 搜索并保存 html 代码中的指定链接，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14076614/

上一篇：java - 模拟游戏 - 检查代理是否被阻止

下一篇：java - Android 为什么我的 adfonic 插页式广告只出现一秒钟然后就消失了

相关文章：

java - 在java中提取两个字符串之间的字符串

Java:PriorityQueue 初始化

regex - 使用正则表达式从字符串获取数字

java - AWS : Feature flag configurations must be accessed via AWS AppConfig Data's GetLatestConfiguration API

python - 如何从字符串中删除特定字符

php - 查看变量是否等于列表 php 中的任何其他变量

search - 文档管理系统推荐

algorithm - 线性搜索和二分搜索有什么区别？

java - 将一个节点插入到已排序的整数链表中，以便该列表仍然与下一个的最终成员保持排序

java - 如何使用 Apache POI 在数据透视表中添加列字段