我在使用标准 Python 库中的 ElementTree 模块解析简单 HTML 时遇到一些问题。这是我的源代码:
from urllib.request import urlopen
from xml.etree.ElementTree import ElementTree
import sys
def main():
site = urlopen("http://1gabba.in/genre/hardstyle")
try:
html = site.read().decode('utf-8')
xml = ElementTree(html)
print(xml)
print(xml.findall("a"))
except:
print(sys.exc_info())
if __name__ == '__main__':
main()
如果失败,我会在控制台上得到以下输出:
<xml.etree.ElementTree.ElementTree object at 0x00000000027D14E0>
(<class 'AttributeError'>, AttributeError("'str' object has no attribute 'findall'",), <traceback object at 0x0000000002910B88>)
所以当我们查看documentation时,xml确实是一个ElementTree对象。我们将看到 ElementTree 类有一个 findall 函数。额外的事情:xml.find("a") 工作正常,但它返回一个 int 而不是 Element 实例。
有人可以帮我吗?我有什么误解吗?
最佳答案
将 ElementTree(html)
替换为 ElementTree.fromstring(html)
,并将导入语句更改为 from xml.etree import ElementTree
.
这里的问题是 ElementTree 构造函数不需要字符串作为其输入 - 它需要一个 Element
对象。函数 xml.etree.ElementTree.fromstring() 是从字符串构建 ElementTree 的最简单方法。
鉴于您正在解析 HTML(不一定是有效的 XML),我猜测 XML 解析器并不是您真正想要的此任务。您可能想看看:
关于python - urllib 与 elementtree 结合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9672448/