我正试图从这个 page 中删除 Href .
有两种类型的产品。突出显示的那些和未突出显示的那些。我想要后者。 与这些产品关联的 CSS 类不相同。这就是我尝试使用它们的原因。
我只是在这里尝试输出 li
我暂时感兴趣。
from bs4 import BeautifulSoup
import urllib.request
from collections import *
from statistics import mean
list_url=[]
url = 'http://m.zooplus.co.uk/shop/pet_food/royal_canin_food/rc_size_dog'
response = urllib.request.urlopen(url)
html = response.read()
soup = BeautifulSoup(html,"html.parser")
product_list = soup.find_all("li", {"class":"list-item"})
for elem in product_list:
print("////////////////BEGIN//////////")
print(elem)
print("///////////////END/////////////")
输出:
<li class="list-item highlighted">
那是我不想要的那种产品。
还有:
<li class="list-item ">
这就是我想要的产品。
在<li class="list-item ">
上有漂亮的汤一样的外观和一个 <li class="list-item highlighted">
?
我错过了什么?
为瑜珈编辑:
from bs4 import BeautifulSoup
import urllib.request
from collections import *
from statistics import mean
list_url=[]
url = 'http://m.zooplus.co.uk/shop/pet_food/royal_canin_food/rc_size_dog'
response = urllib.request.urlopen(url)
html = response.read()
soup = BeautifulSoup(html,"html.parser")
product_list = soup.find_all("li", {"class":"list-item","id": lambda L: L !="special"})
for elem in product_list:
print("////////////////BEGIN//////////")
print(elem)
print("///////////////END/////////////")
最佳答案
这个有效:
from bs4 import BeautifulSoup
import urllib.request
from collections import *
from statistics import mean
import time
import re
list_url=[]
url = 'http://m.zooplus.co.uk/shop/pet_food/royal_canin_food/rc_size_dog'
response = urllib.request.urlopen(url)
html = response.read()
soup = BeautifulSoup(html,"html.parser")
rows = soup.find_all('li',{'class':re.compile('list-item.*')})
for row in rows:
cls=row.attrs.get("class")
if not ("highlighted" in cls):
print(row.text)
关于css - Beautiful Soup 无法区分 CSS 类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34944274/