java - 抓取本地存储的 HTML 文件的数据

标签 java html web-scraping jsoup

我的 HTML 看起来像这样:

    <table  cellspacing='0' border='0' width='100%'>
    <col align='left' />
    <tr>
    <td align='left'><font color='#FF0000'>Programming</font></td>
    </tr>
    </table>
    <table  cellspacing='0' border='0' width='100%'>
    <col align='left' />
    <col align='right' />
    <tr>
    <td align='left'><font color='#000000'>A1000</font></td>
    <td align='right'><font color='#008000'>D.Rogers</font></td>
    </tr>
    </table>

它是本地存储的。我试图弄清楚如何抓取“Programming”、“A1000”和“D.Rogers”的数据。我如何使用 Java 和 Jsoup 来做到这一点?

最佳答案

基于帖子中的示例:

String localHtml=" <table cellspacing=\'0\' border=\'0\' width=\'100%\'>\n"+
        " <col align=\'left\' />\n"+
        " <tr>\n"+
        " <td align=\'left\'><font color=\'#FF0000\'>Programming</font></td>\n"+
        " </tr>\n"+
        " </table>\n"+
        " <table cellspacing=\'0\' border=\'0\' width=\'100%\'>\n"+
        " <col align=\'left\' />\n"+
        " <col align=\'right\' />\n"+
        " <tr>\n"+
        " <td align=\'left\'><font color=\'#000000\'>A1000</font></td>\n"+
        " <td align=\'right\'><font color=\'#008000\'>D.Rogers</font></td>\n"+
        " </tr>\n"+
        " </table>";

Document doc = Jsoup.parse(localHtml);

System.out.println(doc.select("font[color=#FF0000]").text());
System.out.println(doc.select("font[color=#000000]").text());
System.out.println(doc.select("font[color=#008000]").text());

输出

Programming
A1000
D.Rogers

关于java - 抓取本地存储的 HTML 文件的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36303495/

相关文章:

python - 如何在选择器中使用部分文本而不是精确文本?

java - Sonar 不扫描 *.java 文件

html - 如何修复显示 :inline-block on IE6?

html - <img> 变量计数的内联样式类

python - 网页抓取 : finding element after a DOM Tree change

r - R : how to scrape tables after specific Title 中的 Tabulizer 包

java - RMI 服务器使用错误的 IP 地址

java - 使用 Lucene 空间搜索/DateRangePrefixTree 进行日期范围查询?

java - 如何在Java中解析JSON

html - 英雄页脚不在页面底部