java - 如何使用 Java 从 html 源代码中解析特定信息

标签 java html regex parsing web-scraping

我知道我的问题有很多主题,但我找不到有用的解决方案来回答我的问题。我可以连接到网站并用 Java 逐行阅读,现在这是我的问题。我想从 html 页面解析特定信息。此页面包括 5 天的天气预报。例如预测标签的日期是这样的;

//date of forecast
< th id="ctl00_mpBody_thmGun1" class="arkaTrh">19 April< /th >

//Min weather:
< td id="ctl00_mpBody_thmMin1" class="minS">8< /td>

//Max weather
 < td id="ctl00_mpBody_thmMax1" class="maxS">17< /td>

second day and others tags continue like this,
< th id="ctl00_mpBody_thmGun2" class="arkaTrh">20 April< /th >
.
.
.

根据这些标签,我需要解析4月19日、17日和8日。

最佳答案

看在上帝的份上,请勿使用正则表达式。我不知道这必须在 SO 上重复多少次。你最终会陷入痛苦的世界。使用解析器,java 中有可用的负载。以下是其中一些:

Jericho

Dom4j

htmlparser

但是还有几十个。只需谷歌“html 解析器 java”或“java dom 解析器”或其他东西。请。

关于java - 如何使用 Java 从 html 源代码中解析特定信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5707280/

相关文章:

html - 由于父容器 DIV 背景属性,CSS 过渡不起作用

javascript - 使用 JavaScript 调整 SWF 的大小

html - 灵活的旋转居中 SVG

python 重新正则表达式

java - 双冒号运算符不适用于 Java

java - 使用java在MSCRM中执行Fetchxml

java - 当该字符串中有空格时,是否可以按字符串获取枚举?

php - 使用php从文本文件中删除文本

javascript - 与整个单词(包括重音字符)匹配的正则表达式

java - 为什么在java中简单计算的值会给出错误的结果?会溢出吗?