我到处搜索,我找到的最多的是 doc.xpath('//element[@class="classname"]'),但是无论我尝试什么,这都不起作用。
我正在使用的代码
import lxml.html
def check():
data = urlopen('url').read();
return str(data);
doc = lxml.html.document_fromstring(check())
el = doc.xpath("//div[@class='test']")
print(el)
它只是打印一个空列表。
编辑:
多么奇怪。我使用谷歌作为测试页面,它在那里工作正常,但它在我使用的页面上不起作用(youtube)
这是我正在使用的确切代码。
import lxml.html
from urllib.request import urlopen
import sys
def check():
data = urlopen('http://www.youtube.com/user/TopGear').read(); #TopGear as a test
return data.decode('utf-8', 'ignore');
doc = lxml.html.document_fromstring(check())
el = doc.xpath("//div[@class='channel']")
print(el)
最佳答案
您用于测试的 TopGear 页面没有任何 <div class="channel">
元素。但这有效(例如):
el = doc.xpath("//div[@class='channel-title-container']")
或这个:
el = doc.xpath("//div[@class='a yb xr']")
找
<div>
带有 class
的元素包含字符串 channel
的属性,你可以使用el = doc.xpath("//div[contains(@class, 'channel')]")
关于class - 使用lxml查找带有类的html元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8226490/