Python:为什么 Xpath 似乎只处理这棵树中的第一个元素?

标签 python html xpath

假设我有这个:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<HTML LANG="ja">
<HEAD>
<META http-equiv="Content-Type" content="text/html; charset=Shift_JIS">
<META name="GENERATOR" content="snanail Version 2.18">
<TITLE>-www.example.org-</TITLE>

<STYLE type="text/css">
<!--
H1.TITLE {
font-size : 10 pt;
font-family : "Arial";
color : #FFFFFF;
}
-->
</STYLE>

</HEAD>
<BODY>
<CENTER>
<TABLE BORDER="0" CELLSPACING="1" CELLPADDING="6" ALIGN="CENTER">
<TR>
  <TD WIDTH="100">
    <TABLE ALIGN="CENTER" CELLPADDING="4" CELLSPACING="1">
      <TR>
        <TD HEIGHT="100" WIDTH= "68" ALIGN="CENTER" VALIGN="MIDDLE">
          <A HREF="001.html" TARGET="_blank"><IMG SRC="001_thumb.png" WIDTH="56" HEIGHT="80" ALT="001_thumb.png" BORDER="0"></A>
        </TD>
      </TR>
      <TR>
        <TD HEIGHT="40" ALIGN="CENTER" VALIGN="MIDDLE">
          <FONT SIZE="2" COLOR="#FFFFFF">001.jpg</FONT><BR>
          <FONT SIZE="2" COLOR="#FFFFFF">300 x 300 (806 KB)</FONT><BR>
        </TD>
      </TR>
    </TABLE>
  </TD>
  <TD WIDTH="100">
    <TABLE ALIGN="CENTER" CELLPADDING="4" CELLSPACING="1">
      <TR>
        <TD HEIGHT="100" WIDTH= "68" ALIGN="CENTER" VALIGN="MIDDLE">
          <A HREF="002.html" TARGET="_blank"><IMG SRC="002_thumb.png" WIDTH="56" HEIGHT="80" ALT="002_thumb.png" BORDER="0"></A>
        </TD>
      </TR>
      <TR>
        <TD HEIGHT="40" ALIGN="CENTER" VALIGN="MIDDLE">
          <FONT SIZE="2" COLOR="#FFFFFF">002.jpg</FONT><BR>
          <FONT SIZE="2" COLOR="#FFFFFF">300 x 300 (627 KB)</FONT><BR>
        </TD>
      </TR>
    </TABLE>
  </TD>
</TR>
</TABLE>
</CENTER>
</HTML>

我想找到页面中的所有 url,然后:

tree = lxml.html.parse('example.html')
links = tree.xpath('//a/@href')

但我只得到第一个 (001.html)。这是为什么?在使用 getroot() 后,我尝试手动迭代树而且似乎只有第一个 url 的第一个表是可见的。我不明白。

编辑:我用我发布的示例再次测试它确实有效,经过一些测试,似乎我移除了头部,它有效......也许其中的某些东西破坏了解析器?我不知道。我想解决这个问题的最好方法是搜索文件并删除 <head> 之间的任何内容。和 </head> ?因为解析没有按预期工作,所以我无法解析它。所以我在示例中添加了 head 以使其中断。

最佳答案

使用示例 html 文件和此脚本:

from lxml import etree

parser = etree.HTMLParser(encoding='utf8')
tree = etree.parse('source.html', parser)
print tree.xpath('//a/@href')

给予:

['001.html', '002.html']

关于Python:为什么 Xpath 似乎只处理这棵树中的第一个元素?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7922135/

相关文章:

当时间转换为 timedelta64 时,Python matplotlib.pyplot 正在绘制不同的图形

python - 避免与 factory_boy 工厂重复

javascript - jQuery:鼠标悬停在背景 div "through"上是前景工具提示吗?

xpath - Xpath/xQuery的月份差异

html - 在iOS的hpple库中对Xpath查询使用通配符

c# - 当类名未知时如何获取元素?

python - 逐元素添加一维和二维 numpy 数组

javascript - 如何根据内容调整 Flickity 轮播的高度?

javascript - jQuery load(),加载不正确。我该如何解决这个问题?

Python 正则表达式用空格代替连字符