python - 使用 lxml 解析 HTML 中的段落

标签 python lxml

我是 lxml 的新手,想提取 <p>PARAGRAPHS</p><li>PARAGRAPHS</li>从给定的 url 并将它们用于进一步的步骤。

我遵循了 post 中的示例,并尝试了以下代码但没有成功:

html = lxml.html('http://www.google.com/intl/en/about/corporate/index.html')
url = 'http://www.google.com/intl/en/about/corporate/index.html'
print html.parse.xpath('//p/text()')

我试图查看 lxml.html 中的示例, 但没有找到任何使用 url 的示例。

您能告诉我应该使用什么方法吗?谢谢。

最佳答案

import lxml.html

htmltree = lxml.html.parse('http://www.google.com/intl/en/about/corporate/index.html')

print htmltree.xpath('//p/text()')

关于python - 使用 lxml 解析 HTML 中的段落,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7785463/

相关文章:

python - PyOpenGL - 获取绘制图像的深度图

Python:在 lxml.cssselect 中使用的 CSS 选择器

python - 为什么 python 字符串和元组是不可变的?

python - a = 打开 ("file", "r"); a.readline() 输出没有\n

python - TypeError : must be string or buffer, not int:执行 sqlAlchemy 查询时

Python lxml,在输出 HTML 之前移除父元素(使用 fragment_fromstring)

python - 使用 python 提取 CSS 样式声明

python - Python 交叉模块中的全局变量

python - 以 UTF-8 格式从 lxml 错误日志中打印消息

python - 我正在尝试从需要登录的网站中抓取 HTML,但没有获取任何数据