python - 即使显式等待已经存在,也无法摆脱硬编码延迟

标签 python python-3.x selenium selenium-webdriver web-scraping

我用 python 结合 selenium 编写了一些代码来解析来自 quora.com 的不同问题。我的刮刀此时正在做它的工作。问题是我在这里使用了硬编码延迟来让抓取器工作,即使已经定义了显式等待。由于该页面是无限滚动的页面,因此我尝试将滚动过程限制为有限的数量。现在我有两个问题:

  1. 为什么 wait.until(EC.staleness_of(page)) 在我的抓取工具中不起作用。现在已被注释掉。
  2. 如果我使用其他内容而不是 page = wait.until(EC.visibility_of_element_ located((By.CLASS_NAME, "question_link"))) 抓取工具会抛出错误:can't焦点元素

顺便说一句,我不想​​选择 page = driver.find_element_by_tag_name('body') 这个选项。

这是我到目前为止所写的内容:

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()
driver.get("https://www.quora.com/topic/C-programming-language")
wait = WebDriverWait(driver, 10)

page = wait.until(EC.visibility_of_element_located((By.CLASS_NAME, "question_link")))
for scroll in range(10):
    page.send_keys(Keys.PAGE_DOWN)
    time.sleep(2)
    # wait.until(EC.staleness_of(page))

for item in wait.until(EC.visibility_of_all_elements_located((By.CLASS_NAME, "rendered_qtext"))):
    print(item.text)

driver.quit()

最佳答案

您可以尝试下面的代码来获取尽可能多的 XHR,然后解析页面:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException

driver = webdriver.Chrome()
driver.get("https://www.quora.com/topic/C-programming-language")
wait = WebDriverWait(driver, 10)

page = wait.until(EC.visibility_of_element_located((By.CLASS_NAME, "question_link")))
links_counter = len(wait.until(EC.visibility_of_all_elements_located((By.CLASS_NAME, "question_link"))))
while True:
    page.send_keys(Keys.END)
    try:
        wait.until(lambda driver: len(driver.find_elements_by_class_name("question_link")) > links_counter)
        links_counter = len(driver.find_elements_by_class_name("question_link"))
    except TimeoutException:
        break


for item in wait.until(EC.visibility_of_all_elements_located((By.CLASS_NAME, "rendered_qtext"))):
    print(item.text)

driver.quit()

在这里,我们向下滚动页面并等待最多 10 秒以加载更多链接,如果链接数量保持不变,则中断 while 循环

至于你的问题:

  1. wait.until(EC.staleness_of(page)) 不起作用,因为当您向下滚动页面时,您不会获得新的 DOM - 您只需创建 XHR 即可添加更多链接进入现有的 DOM,因此第一个链接(页面)在这种情况下不会过时

  2. (我对此不太有信心,但是......)我想你只能将 key 发送到可以聚焦的节点(用户可以手动设置焦点),例如链接、输入字段、文本区域、按钮...,但不包括内容划分 (div)、段落 (p) 等

关于python - 即使显式等待已经存在,也无法摆脱硬编码延迟,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47856783/

相关文章:

python - 使用 Python Requests 库上传大型 XML 文件

python - 在保留注释的同时修改 python AST

python - Unicode编码错误: handling special characters

python-2.7 - 使用 scrapy 从 Flipkart 上抓取数据

java - Maven 运行 testNG 套件两次

python - Biopython SeqIO 到 Pandas 数据框

python - 如何在python中接受以#开头的字符串?

python-3.x - Docker-compose 在 python 文件中使用服务名称访问容器?

python-3.x - 为什么 github api 给我的 repo 星数较低?

python - 使用python和selenium在搜索框中输入文本