我正在使用scrapy框架使用mongodb存储网页的原始HTML数据。一天的网络抓取就填满了 25GB 磁盘空间。有没有办法以压缩格式存储原始数据。
最佳答案
没有内置任何压缩功能。某些操作系统提供磁盘/文件压缩,但如果您想要更多控制,我建议您使用适用于您所使用的任何编程语言的库来压缩它,并手动控制压缩。
例如,NodeJs 为此提供了简单便捷的方法:http://nodejs.org/api/zlib.html#zlib_examples
3.0更新
如果您选择切换到 3.0 附带的新存储引擎 WiredTiger,您可以在几种压缩类型之间进行选择,如文档 here 所示。 。当然,您需要测试生产工作负载中的这一变化,以确定额外的 CPU 利用率是否值得所接受的压缩。
关于mongodb - 以压缩格式存储mongodb数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18014541/