使用 Selenium 进行 Python 网页抓取 - 通过 href 链接进行迭代

标签 python selenium web-scraping webdriverwait

我正在尝试编写一个脚本,使用selenium下载许多包含不同NHL球员信息的文件;游戏日志。我想为下表中的每个玩家下载一个文件:https://www.naturalstattrick.com/playerteams.php?fromseason=20142015&thruseason=20162017&stype=2&sit=all&score=all&stdoi=std&rate=y&team=ALL&pos=S&loc=B&toi=0.1&gpfilt=none&fd=&td=&tgp=410&lines=single

进入该网站后,我想单击表格中所有玩家的姓名。当通过 href 链接单击玩家的姓名时,将打开一个新窗口。顶部有几个下拉菜单。我想选择“速率”而不是“计数”,并选择“游戏日志”而不是“玩家摘要”,然后单击“提交”。最后,我想点击底部的CSV(全部)来下载CSV文件。

这是我当前的代码:

from selenium import webdriver
import csv
from selenium.webdriver.support.ui import Select
from datetime import date, timedelta
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait 
from selenium.webdriver.support import expected_conditions as EC

 chromedriver =("C:/Users/Michel/Desktop/python/package/chromedriver_win32/chromedriver.exe")
 driver = webdriver.Chrome(chromedriver)

driver.get("https://www.naturalstattrick.com/playerteams.php?fromseason=20142015&thruseason=20162017&stype=2&sit=all&score=all&stdoi=std&rate=y&team=ALL&pos=S&loc=B&toi=0.1&gpfilt=none&fd=&td=&tgp=410&lines=single")
table = driver.find_element_by_xpath("//table[@class='indreg dataTable no-footer DTFC_Cloned']")
for row in table.find_elements_by_xpath("//tr[@role='row']")
    links = driver.find_element_by_xpath('//a[@href]')
    links.click()
    select = Select(driver.find_element_by_name('rate'))
    select.select_by_value("y")
    select1 = Select(driver.find_element_by_name('v'))
    select1.select_by_value("g")
    select2 = Select(driver.find_element_by_type('submit'))
    select2.select_by_value("submit")
    WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.XPATH , '//div[@class="dt-button button-csv button-htm15"]')))
    CSVall = driver.find_element_by_xpath('//div[@class="dt-button button-csv button-htm15"]')
    CSVall.click()
driver.close()

我尝试更改不同的内容,但总是收到错误。哪里有问题 ?

此外,我认为我应该添加一行来等待网站加载,因为它需要几秒钟;在“driver.get”之后。我不知道在这种情况下结束等待的预期条件是什么。

谢谢

最佳答案

您可以从第一页获取玩家 ID,并将其与表示“速率”和“游戏日志”选择的字符串一起连接到新 URL 的 queryString 部分,而不是继续单击选择。当然你可以整理以下内容。

from selenium import webdriver
from selenium.webdriver.support.ui import Select
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait 
from selenium.webdriver.support import expected_conditions as EC

def getPlayerId(url):
    id = url.split('playerid=')[1] 
    id = id.split('&')[0]
    return id

def makeNewURL(playerId):
    return 'https://www.naturalstattrick.com/playerreport.php?fromseason=20142015&thruseason=20162017&stype=2&sit=all&stdoi=oi&rate=y&v=g&playerid=' + playerId

#chromedriver =("C:/Users/Michel/Desktop/python/package/chromedriver_win32/chromedriver.exe")
driver = webdriver.Chrome()

driver.get("https://www.naturalstattrick.com/playerteams.php?fromseason=20142015&thruseason=20162017&stype=2&sit=all&score=all&stdoi=std&rate=y&team=ALL&pos=S&loc=B&toi=0.1&gpfilt=none&fd=&td=&tgp=410&lines=single")

links = driver.find_elements_by_css_selector('table.indreg.dataTable.no-footer.DTFC_Cloned [href*=playerid]')
newLinks = []

for link in links:
    newLinks.append(link.get_attribute('href'))

for link in newLinks:
    playerId = getPlayerId(link)
    link = makeNewURL(playerId)
    driver.get(link)
    WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.XPATH , '//a[@class="dt-button buttons-csv buttons-html5"][2]')))
    CSVall = driver.find_element_by_xpath('//a[@class="dt-button buttons-csv buttons-html5"][2]')
    CSVall.click()

关于使用 Selenium 进行 Python 网页抓取 - 通过 href 链接进行迭代,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53311334/

相关文章:

firefox - Selenium in -browserSessionReuse 模式启动一个新的浏览器

java - Jsoup Java 抓取股票代码

python - 使用 Mechanize 选择表单名称

python - 将文本中的值替换为 python 字典中的整数值并求其总和

python - 在列表列表中搜索字符串

python - 给定一个 N 边方阵,有没有办法在不使用循环或 if 条件的情况下找到单元格的环值?

python - PyOpenGL Texture_3D 和 Numpy 不渲染

java - 组织.openqa.selenium.StaleElementReferenceException : WebElement is stale

java - Until 方法不抛出 timeoutException

javascript - 在不使用服务器的情况下 react 网页抓取