python html 解析器不修改实际标记?

标签 python html parsing

我想用 python 解析 html 代码,并且已经尝试过 beautiful soup 和 pyquery 了。问题是这些解析器修改了原始代码,例如插入一些标签等。是否有任何解析器不会更改代码?

<小时/>

我尝试了 HTMLParser 但没有成功! :( 它不会修改代码,只是告诉我标签放置在哪里。但它无法解析 mail.live.com 等网页 知道如何像浏览器一样解析网页吗?

最佳答案

您可以使用 BeautifulSoup 仅提取文本而不修改标签。它在他们的文档中。

同样的问题: How to extract text from beautiful soup

关于python html 解析器不修改实际标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13859124/

相关文章:

Python 3.6.3 Idle 正在终止当前 session

javascript - 自动排序和调整图片库中的图像

javascript - 在Javascript中,如何从下拉列表和表单中总结数组中的所有值?

python - Django:如何使用自定义模板制作表单?

python - 将公式写入Excel时出现Python错误

python - 列出字典中的值,其中值是列表

javascript - 在第一和第二范围内递增 1 个值的按钮 - JavaScript

parsing - Go中如何高效方便的解析一条简单的消息?

python - 在python中解析wget日志文件

java - 如何使用字符串标记器和缓冲区。