我们有大约 6000 万个压缩格式的网页。我们想单独解压缩和处理这些文件。
这是我的问题!
首先,如果我将它们解压缩到文件系统中,FS 是否可以处理如此多的文件。我的文件系统是ext4。 (我有 4 个不同的文件系统,所以我可以在它们之间划分数据,例如每个文件系统 15 M 页)
其次,将这些文件存储到关系数据库中是否是更好的选择?假设清理 html 文本的所有麻烦都在将它们插入数据库之前完成。
谢谢,
最佳答案
如果将它们提取到一个目录中,您可能会超过该文件夹中分配的最大索引。如果将它们提取到多个目录中,您会更好。
6000 万绝对是一个相当大的数目,如果你打算对它们进行任何索引或搜索,那么数据库将是你最好的选择,你可以使用 lucene
之类的东西对文件进行索引这一切取决于您要对提取的文件之后 执行的操作。
我目前在一个大型用户站点上有一个类似的图像问题,我解决这个问题的方法是给每个图像一个 GUID,并为 guid 中的每个字节分配它到不同的目录,然后下一个字节一个子目录(减少到 8 个字节)如果我的填充率上升,我将创建更多的子目录来补偿,这也意味着我可以将它分布在不同的网络存储盒中。
关于mysql - 存储 HTML 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11527322/