python - Scrapy 导入 100mb 的 XML 提要 - 内存错误

标签 python linux performance memory scrapy

我正在使用 scrapy 在 Amazon EC2 实例上抓取 100mb 的 XML 提要。但是我被卡住了,因为当它运行时它会谈论内存错误。与我合作的编码员建议将 100mb 的文件分解成更易于管理的 block ,但我相信一定有更好的方法来做到这一点。

日志:

File "/usr/local/lib/python2.7/dist-packages/scrapy/utils/iterators.py", line 22, in xmliter
        text = body_or_str(obj)
      File "/usr/local/lib/python2.7/dist-packages/scrapy/utils/response.py", line 22, in body_or_str
        return obj.body_as_unicode() if unicode else obj.body
      File "/usr/local/lib/python2.7/dist-packages/scrapy/http/response/text.py", line 62, in body_as_unicode
        self._cached_ubody = html_to_unicode(charset, self.body)[1]
      File "/usr/local/lib/python2.7/dist-packages/w3lib/encoding.py", line 173, in html_to_unicode
        return enc, to_unicode(html_body_str, enc)
      File "/usr/local/lib/python2.7/dist-packages/w3lib/encoding.py", line 118, in to_unicode
        return data_str.decode(encoding, 'w3lib_replace')
      File "/usr/lib/python2.7/encodings/cp1252.py", line 15, in decode
        return codecs.charmap_decode(input,errors,decoding_table)
    exceptions.MemoryError: 

2013-08-08 17:53:29+0000 [site] INFO: Closing spider (finished)
2013-08-08 17:53:29+0000 [site] INFO: Dumping Scrapy stats:
    {'downloader/request_bytes': 241,
     'downloader/request_count': 1,
     'downloader/request_method_count/GET': 1,
     'downloader/response_bytes': 103257370,
     'downloader/response_count': 1,
     'downloader/response_status_count/200': 1,
     'finish_reason': 'finished',
     'finish_time': datetime.datetime(2013, 8, 8, 17, 53, 29, 166687),
     'log_count/DEBUG': 7,
     'log_count/ERROR': 1,
     'log_count/INFO': 4,
     'response_received_count': 1,
     'scheduler/dequeued': 1,
     'scheduler/dequeued/memory': 1,
     'scheduler/enqueued': 1,
     'scheduler/enqueued/memory': 1,
     'spider_exceptions/MemoryError': 1,
     'start_time': datetime.datetime(2013, 8, 8, 17, 53, 26, 375069)}
2013-08-08 17:53:29+0000 [site] INFO: Spider closed (finished)

我的问题是,我能做些什么来处理那个 100mb 的文件而不会遇到内存问题?

最佳答案

scrapy 总是尝试将您的整个输入数据解码为 Unicode。在典型的宽 Unicode 构建中,这意味着 100MB 的 HTML 页面将扩展到 400MB。

那么,您如何解决这个问题呢?

  • 使用更大的(64 位)EC2 实例。
  • 使用不需要像 scrapy 那样解码整个输入数据的不同库。
  • 使用 Python 3.3 或 Python 2.x 的窄 Unicode 版本,这样您的 Unicode 最终只有 100MB 或 200MB,而不是 400MB。
  • 以 block 的形式读取和处理数据。

关于python - Scrapy 导入 100mb 的 XML 提要 - 内存错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18136933/

相关文章:

python - 在 python 中仅使用 for 循环模拟 while 循环

linux - 使用 Linux 内核 call_usermodehelper 在用户模式下运行用户空间进程

android - [错误 : Failed to find 'ANDROID_HOME' environment variable. 尝试手动设置

performance - 您如何推断基准测试数据的波动?

c# - 将变量作为设置传递给类一次还是多次传递? C#

Python 和 Powers 数学

python - 如何在这个模块 odoo 中生成报告我已经做了这么多?

python - Pygame:一个方 block 使其他方 block 弹跳

c - mmap : Operation not permitted

iphone - 遍历 NSDictionary 的键/值,是 enumerateKeysAndObjectsUsingBlock 比循环键和调用 objectForkey 更有效 :?