python - Scrapy中间件设置

标签 python web-scraping web-crawler scrapy

我正在尝试使用 scrapy 访问公共(public)代理来获取一些数据。当我尝试运行代码时出现以下错误:

ImportError: Error loading object 'craiglist.middlewares.ProxyMiddleware': No module named middlewares

我使用以下代码创建了 middlewares.py 文件:

import base64
# Start your middleware class
class ProxyMiddleware(object):
    # overwrite process request
    def process_request(self, request, spider):
        # Set the location of the proxy
        request.meta['proxy'] = "http://124.200.36.150:8118"

设置.py:

DOWNLOADER_MIDDLEWARES = {
    'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110,
    'craiglist.middlewares.ProxyMiddleware': 100,
}

欢迎任何帮助。

最佳答案

通过此设置,您需要将 middlewares.py 向上移动一级到 craiglist 包中。

关于python - Scrapy中间件设置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30268590/

相关文章:

java - 运行 Apache Nutch 2.2.1

python - 无法使用请求解析特定页面之后的链接

node.js - 网页抓取认证 Node js

python - 在 Python 中实现存储库模式?

python - 如何将一个 csv (txt) 文件中的记录与另一个 csv (txt) 文件中的记录进行比较,并根据它们的比较计算出一个数字?

python - Selenium Python - 访问搜索结果的下一页

python - Scrapy:自定义回调不起作用

node.js - 使用nodejs对非结构化html进行爬虫

python - Python 中的 GString

python - PyQt QtWebKit loadFinished 未调用