mysql - 存储 HTML 文件

我们有大约 6000 万个压缩格式的网页。我们想单独解压缩和处理这些文件。

这是我的问题!

首先，如果我将它们解压缩到文件系统中，FS 是否可以处理如此多的文件。我的文件系统是ext4。 (我有 4 个不同的文件系统，所以我可以在它们之间划分数据，例如每个文件系统 15 M 页)

其次，将这些文件存储到关系数据库中是否是更好的选择？假设清理 html 文本的所有麻烦都在将它们插入数据库之前完成。

谢谢，

最佳答案

如果将它们提取到一个目录中，您可能会超过该文件夹中分配的最大索引。如果将它们提取到多个目录中，您会更好。

6000 万绝对是一个相当大的数目，如果你打算对它们进行任何索引或搜索，那么数据库将是你最好的选择，你可以使用 lucene 之类的东西对文件进行索引这一切取决于您要对提取的文件之后执行的操作。

我目前在一个大型用户站点上有一个类似的图像问题，我解决这个问题的方法是给每个图像一个 GUID，并为 guid 中的每个字节分配它到不同的目录，然后下一个字节一个子目录(减少到 8 个字节)如果我的填充率上升，我将创建更多的子目录来补偿，这也意味着我可以将它分布在不同的网络存储盒中。

关于mysql - 存储 HTML 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11527322/