python - 在 AWS Lambda 上运行 Selenium 时出现问题

标签 python selenium aws-lambda

我目前正在尝试实现一个抓取工具,每天两次检查某些 PDF 是否更改名称。不幸的是,它需要网站操作才能找到 pdf,因此我认为最好的解决方案是 Selenium 和 AWS Lambda 的组合。

首先,我关注 this教程。我已经完成了本教程,但遇到了来自 Lambda 的错误:

START RequestId: 18637c6d-ea75-40ee-8789-374654700b99 Version: $LATEST
Starting google.com
Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home
: WebDriverException
Traceback (most recent call last):
  File "/var/task/lambda_function.py", line 46, in lambda_handler
    driver = webdriver.Chrome(chrome_options=chrome_options)
  File "/var/task/selenium/webdriver/chrome/webdriver.py", line 68, in __init__
    self.service.start()
  File "/var/task/selenium/webdriver/common/service.py", line 83, in start
    os.path.basename(self.path), self.start_error_message)
selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home

其他人也遇到过此错误,作者通过链接到this“解决”了该错误。堆栈溢出页。我已经尝试过查看它,但所有答案都与在桌面上使用 headless Chrome 有关,而不是与AWS lambda有关。

我尝试过一些更改,但没有成功。

1) 将 chromedriver 和 headless-chromium 更改为 .exe 文件
2) 更改这行代码以包含executable_path

driver = webdriver.Chrome(chrome_options=chrome_options, executable_path=os.getcwd() + "/bin/chromedriver.exe")

任何使 selenium 和 aws lambda 协同工作的帮助将不胜感激。

最佳答案

我遇到了同样的问题,这是由于二进制文件位于无法执行它们的位置。添加一个函数来移动它们,然后从该位置读取它们来修复它。请参阅下面的示例,我在研究此错误时刚刚开始工作。 (对于困惑的代码表示歉意。)

import time
import os
from selenium import webdriver
from fake_useragent import UserAgent

import subprocess
import shutil
import time

BIN_DIR = "/tmp/bin"
CURR_BIN_DIR = os.getcwd() + "/bin"

def _init_bin(executable_name):
    start = time.clock()
    if not os.path.exists(BIN_DIR):
        print("Creating bin folder")
        os.makedirs(BIN_DIR)
    print("Copying binaries for " + executable_name + " in /tmp/bin")
    currfile = os.path.join(CURR_BIN_DIR, executable_name)
    newfile = os.path.join(BIN_DIR, executable_name)
    shutil.copy2(currfile, newfile)
    print("Giving new binaries permissions for lambda")
    os.chmod(newfile, 0o775)
    elapsed = time.clock() - start
    print(executable_name + " ready in " + str(elapsed) + "s.")

def handler(event, context):

    _init_bin("headless-chromium")
    _init_bin("chromedriver")

    chrome_options = webdriver.ChromeOptions()

    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')
    chrome_options.add_argument('--window-size=1280x1696')
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--hide-scrollbars')
    chrome_options.add_argument('--enable-logging')
    chrome_options.add_argument('--log-level=0')
    chrome_options.add_argument('--v=99')
    chrome_options.add_argument('--single-process')
    chrome_options.add_argument('--ignore-certificate-errors')

    chrome_options.binary_location = "/tmp/bin/headless-chromium"
    driver = webdriver.Chrome("/tmp/bin/chromedriver", chrome_options=chrome_options)
    driver.get('https://en.wikipedia.org/wiki/Special:Random')
    line = driver.find_element_by_class_name('firstHeading').text
    print(line)
    driver.quit()

    return line

关于python - 在 AWS Lambda 上运行 Selenium 时出现问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56082021/

相关文章:

python:在子列表中定位元素

python - 将数据从 redis 哈希转储到 postgresql 表的更快方法

python selenium - 找不到元素时会花费很多时间

javascript - 无服务器:通过调用方法触发并忘记不能按预期工作

javascript - 当用户在 this.emit (":ask",语音)之后没有向 Alexa 输入任何内容时,我该如何解释?

python - 如何在变量更改时触发另一个对象中的函数。 Python

python - 为什么dict类型的变量内容不能pickle?

java - Selenium GRID 测试执行

Python与selenium webscraping无法找到元素

amazon-web-services - 我希望我的 lambda 代码能够将文件直接上传到不同账户的 Amazon S3 存储桶中