我正在用 Python 编写一个网络爬虫,它将大量页面的 HTML 代码存储在 MySQL 数据库中。在开始处理数据之前,我想确保我的存储和处理方法是最佳的。我愿意:
最大限度地减少数据库中使用的存储空间 - 可能通过缩小 HTML 代码、霍夫曼编码或某种其他形式的压缩来实现。我想保持全文搜索字段的可能性 - 我不知道像霍夫曼编码这样的压缩算法是否允许这样做。
尽量减少编码和存储大量行所需的处理器使用量。
有没有人对此问题或类似问题有任何建议或经验?鉴于 Python 将需要大量 HTTP 请求和正则表达式以及任何最佳压缩,Python 是否是执行此操作的最佳语言?
最佳答案
如果您不介意 HTML 对 MySQL 不透明,您可以使用 COMPRESS函数来存储数据和UNCOMPRESS检索它。您将无法在 WHERE 子句中使用 HTML 内容(例如使用 LIKE)。
关于mysql - 在 MySQL 中存储大量文本的最节省空间的方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8109848/