我想用 python 解析 html 代码,并且已经尝试过 beautiful soup 和 pyquery 了。问题是这些解析器修改了原始代码,例如插入一些标签等。是否有任何解析器不会更改代码?
<小时/>我尝试了 HTMLParser
但没有成功! :(
它不会修改代码,只是告诉我标签放置在哪里。但它无法解析 mail.live.com 等网页
知道如何像浏览器一样解析网页吗?
最佳答案
您可以使用 BeautifulSoup 仅提取文本而不修改标签。它在他们的文档中。
关于python html 解析器不修改实际标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13859124/