我是 Python 初学者,我想从网站读取信息并获取一些数据作为文本框中的输出(我使用 EasyGUI)。我发现它可以获取 URL 的 HTML 源,但现在我想使用 HTML 输出,我知道如何使用 XML,我想这对于 HTML 来说有点相同。有什么方法可以使用元素和属性吗?
filehandle = urllib.urlopen('URL')
for lines in filehandle.readlines():
print lines
filehandle.close()
提前致谢
最佳答案
正如建议的,Beautiful soup 是一个可以帮助你的库。 http://www.crummy.com/software/BeautifulSoup/bs3/download/2.x/documentation.html ,显示了一个简单的示例。
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(filehandle.read())
titleTag = soup.html.head.title
Python 也有一个内置的解析器。 http://docs.python.org/library/htmlparser.html
BeautifulSoup 非常擅长处理损坏的 html。
关于Python:从 URL 读取 HTML 源并将日期获取到程序中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9758500/