我正在使用 beautifulsoup 构建一个 webscraper。有些网站有 javascript 内容,并且不使用 urllib3 加载,因此我为它们使用 selenium。但是 selenium 响应时间太长,我需要构建一个更高效的 webscraper,因为我需要对多个网站使用相同的通用抓取工具。因此我在想是否有某种方法可以找出网站是否有 js 内容,然后我会使用 selenium,否则我会使用更快的 urllib
from selenium import webdriver
from bs4 import BeautifulSoup
import time
browser = webdriver.Chrome()
strt=time.time()
y=browser.get("https://www.amazon.jobs/en/locations/bangalore-india")
#time.sleep(10)
html = browser.page_source
soup = BeautifulSoup(html,'lxml')
li=soup.find_all('ul')
print(li)
print('load time='+str(time.time()-strt))
最佳答案
这是使用 selenium 进行的简单检查
jsSize = (len(driver.find_elements_by_xpath("/html/head/script")))
if jsSize>0:
print("Page contains javascript")
关于javascript - 如何检查网站是否有 javascript?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56734547/