我是 lxml 的新手,想提取 <p>PARAGRAPHS</p>
和 <li>PARAGRAPHS</li>
从给定的 url 并将它们用于进一步的步骤。
我遵循了 post 中的示例,并尝试了以下代码但没有成功:
html = lxml.html('http://www.google.com/intl/en/about/corporate/index.html')
url = 'http://www.google.com/intl/en/about/corporate/index.html'
print html.parse.xpath('//p/text()')
我试图查看 lxml.html 中的示例, 但没有找到任何使用 url 的示例。
您能告诉我应该使用什么方法吗?谢谢。
最佳答案
import lxml.html
htmltree = lxml.html.parse('http://www.google.com/intl/en/about/corporate/index.html')
print htmltree.xpath('//p/text()')
关于python - 使用 lxml 解析 HTML 中的段落,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7785463/