python - 在 Python 中的 Web 浏览器中打开和处理 URL 的最快方法

标签 python python-3.x selenium-webdriver web-scraping beautifulsoup

使用 Selenium 包我试图在浏览器中打开一个 URL。浏览器可以是 FirefoxGoogle。给定的 URL 被重定向到其他一些 URL 并且浏览器必须等待它直到它的 URL 被更改。这是我正在使用的代码:

import time
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
starttime = time.time()
browser = webdriver.Firefox(executable_path='\\somepath\\chromedriver.exe')
browser.get("http://patft.uspto.gov/netacgi/nph-Parser?patentnumber=3,930,293")
wait = WebDriverWait(browser, 5)
wait.until(lambda driver: browser.current_url !=patent )
url = browser.current_url
r = requests.get(url)
soup = BeautifulSoup(r.text, 'lxml')

for tag in soup.find_all(text=re.compile('Current U.S. Class:')):
    table = tag.findParent('table')
    result = table.find('tr').text
    browser.close()
    print(result)  # Current U.S. Class: 29/428 
    print(time.time() - starttime)

但这会花费太多时间(例如 18 到 20 秒),而且我有大量这些 URL 数据集需要处理。有没有更快的方法来完成这项任务?

最佳答案

查看原始 URL 的响应,它只包含一个指向新 URL 的 HTML 重定向:

<HTML>
<HEAD>
<TITLE>Single Document</TITLE>
<META HTTP-EQUIV="REFRESH" CONTENT="1;URL=/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=%2Fnetahtml%2FPTO%2Fsrchnum.htm&r=1&f=G&l=50&s1=3,930,293.PN.&OS=PN/3,930,293&RS=PN/3,930,293">
</HEAD>
</HTML>

假设响应始终具有相同的格式/内容,您可以使用 RegEx 轻松地从该响应中捕获子 URL,如下所示:

re.search('CONTENT="1;URL=(.+)"', r.text).group(1)

那就去吧。这一切现在都可以通过请求完成,因此您无需等待 Selenium!


这是使用上述技巧后的代码:

import time, requests, re
from bs4 import BeautifulSoup
start_time = time.time()
root_url = "http://patft.uspto.gov"
r = requests.get(root_url + "/netacgi/nph-Parser?patentnumber=3,930,293")
r = requests.get(root_url + re.search('CONTENT="1;URL=(.+)"', r.text).group(1))

soup = BeautifulSoup(r.text, 'lxml')

for tag in soup.find_all(string='Current U.S. Class:'):
    table = tag.findParent('table')
    result = table.find('tr').text
    print(result)
    print(time.time() - start_time)

输出:

Current U.S. Class: 29/428; 28/284; 28/297; 8/155 
2.2239434719085693

关于python - 在 Python 中的 Web 浏览器中打开和处理 URL 的最快方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49378655/

相关文章:

python - 正确理解 pexpect 的异步

c# - 使用 CSS 定位标题文本

javascript - 如何使 Selenium 忽略/跳过或覆盖 window.close()

python - 与 Django 一起同步读取分段上传

Python 创建 zip 文件

python - 使用python减去一个文件中一列中的2个数字

python - 打印列表中超过 5 个字符的每个项目的前三个字符

java - Selenium:在组合框中选择一个项目

python - Bash 或 Python : How to download a single specified file from Github?

python - 动态地向现有导入模块添加功能