mysql - 在 MySQL 中存储大量文本的最节省空间的方法是什么?

标签 mysql sql text full-text-search huffman-code

我正在用 Python 编写一个网络爬虫,它将大量页面的 HTML 代码存储在 MySQL 数据库中。在开始处理数据之前,我想确保我的存储和处理方法是最佳的。我愿意:

  • 最大限度地减少数据库中使用的存储空间 - 可能通过缩小 HTML 代码、霍夫曼编码或某种其他形式的压缩来实现。我想保持全文搜索字段的可能性 - 我不知道像霍夫曼编码这样的压缩算法是否允许这样做。

  • 尽量减少编码和存储大量行所需的处理器使用量。

有没有人对此问题或类似问题有任何建议或经验?鉴于 Python 将需要大量 HTTP 请求和正则表达式以及任何最佳压缩,Python 是否是执行此操作的最佳语言?

最佳答案

如果您不介意 HTML 对 MySQL 不透明,您可以使用 COMPRESS函数来存储数据和UNCOMPRESS检索它。您将无法在 WHERE 子句中使用 HTML 内容(例如使用 LIKE)。

关于mysql - 在 MySQL 中存储大量文本的最节省空间的方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8109848/

相关文章:

MYSQL 如果有其他表不显示第一个表

sql - 如何处理返回超过1个值的子查询

mysql - 在mysql中的单个查询中获取行数

C++ 从另一个 Win32 应用程序获取 GDI 原始文本

python - 无法将文章插入 MySQL Python

php - 为什么我的 PDO 对象返回对象(PDO)[2]

MYSQL:在多行选择中使用 COUNT 和 SUM 函数的问题

mysql - 我怎样才能找到比率?

c# - 从另一个应用程序获取 TreeView 的节点文本

javascript - 更改文本框输入的背景颜色在为空时不起作用