python - Scrapy中间件设置

标签 python web-scraping web-crawler scrapy

我正在尝试使用 scrapy 访问公共(public)代理来获取一些数据。当我尝试运行代码时出现以下错误:

ImportError: Error loading object 'craiglist.middlewares.ProxyMiddleware': No module named middlewares

我使用以下代码创建了 middlewares.py 文件:

import base64
# Start your middleware class
class ProxyMiddleware(object):
    # overwrite process request
    def process_request(self, request, spider):
        # Set the location of the proxy
        request.meta['proxy'] = "http://124.200.36.150:8118"

设置.py:

DOWNLOADER_MIDDLEWARES = {
    'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110,
    'craiglist.middlewares.ProxyMiddleware': 100,
}

欢迎任何帮助。

最佳答案

通过此设置，您需要将 middlewares.py 向上移动一级到 craiglist 包中。

关于python - Scrapy中间件设置，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30268590/

上一篇：python - 如何抑制 "invalid value encountered in double_scalars"消息？

下一篇：python - 使用 tkinter 文本小部件创建日志框

相关文章：

java - 运行 Apache Nutch 2.2.1

python - 无法使用请求解析特定页面之后的链接

node.js - 网页抓取认证 Node js

python - 在 Python 中实现存储库模式？

python - 如何将一个 csv (txt) 文件中的记录与另一个 csv (txt) 文件中的记录进行比较，并根据它们的比较计算出一个数字？

python - Selenium Python - 访问搜索结果的下一页

python - Scrapy:自定义回调不起作用

node.js - 使用nodejs对非结构化html进行爬虫

python - Python 中的 GString

python - PyQt QtWebKit loadFinished 未调用