linux - grep 但可索引?

标签 linux grep

我有超过 200mb 的源代码文件需要不断查找(我是一个非常大的团队的一员)。我注意到 grep 不会创建索引,因此每次查找都需要遍历整个源代码数据库。

是否有类似于 grep 的具有索引功能的命令行实用程序?

最佳答案

下面的解决方案相当简单。他们没有涵盖很多极端情况:

  • 搜索行首 ^
  • 包含\n 或 : 的文件名将失败
  • 包含空格的文件名将失败(尽管可以使用 GNU Parallel 而不是 xargs 来修复)
  • 搜索与另一个文件的路径匹配的字符串将是次优的

这些解决方案的优点在于它们非常易于实现。

方案一:一个大文件

事实:查找非常慢,读取一个大文件通常更快。

考虑到这些事实,我们的想法是简单地创建一个包含所有文件及其所有内容的索引——每行前面加上文件名和行号:

索引目录:

find . -type f -print0 | xargs -0 grep -Han . > .index

使用索引:

grep foo .index

解决方案 2:一个大的压缩文件

事实:硬盘速度很慢。寻找是非常缓慢的。多核 CPU 是正常的。

因此,读取压缩文件并即时解压缩它可能比读取未压缩文件更快 - 特别是如果您有足够的 RAM 来缓存压缩文件但不足以缓存未压缩文件。

索引目录:

find . -type f -print0 | xargs -0 grep -Han . | pbzip2 > .index

使用索引:

pbzcat .index | grep foo

解决方案 3:使用索引寻找潜在候选人

生成索引可能很耗时,您可能不希望对目录中的每一次更改都这样做。

为了加快速度,只使用索引来识别可能匹配的文件名,并通过这些(希望数量有限的)文件进行实际的 grep。这将发现不再匹配的文件,但不会发现匹配的新文件。

需要 sort -u 来避免多次 grep 同一个文件。

索引目录:

find . -type f -print0 | xargs -0 grep -Han . | pbzip2 > .index

使用索引:

pbzcat .index | grep foo | sed s/:.*// | sort -u | xargs grep foo

解决方案 4:附加到索引

重新创建完整索引可能会非常慢。如果大部分目录保持不变,您可以简单地将新更改的文件附加到索引。该索引将再次仅用于定位潜在的候选者,因此如果文件不再匹配,将在 grep 遍历实际文件时发现它。

索引目录:

find . -type f -print0 | xargs -0 grep -Han . | pbzip2 > .index

附加到索引:

find . -type f -newer .index -print0 | xargs -0 grep -Han . | pbzip2 >> .index

使用索引:

pbzcat .index | grep foo | sed s/:.*// | sort -u | xargs grep foo

如果使用 pzstd 而不是 pbzip2/pbzcat,速度会更快。

方案五:使用git

git grep 可以 grep 通过 git 存储库。但它似乎做了很多查找,并且在我的系统上比解决方案 4 慢 4 倍。

好的部分是 .git 索引比 .index.bz2 小。

索引目录:

git init
git add .

附加到索引:

git add .

使用索引:

git grep foo

方案六:优化git

Git 将其数据放入许多小文件中。这导致寻求。但是你可以让 git 将小文件压缩成几个更大的文件:

git gc --aggressive

这需要一段时间,但它可以非常有效地在几个文件中打包索引。

现在您可以:

find .git  -type f | xargs cat >/dev/null
git grep foo

git 会在索引中进行大量查找,但是通过先运行 cat,您可以将整个索引放入 RAM。

添加到索引和方案5一样,但是时不时的运行git gc来避免很多小文件,git gc --aggressive来保存更多的磁盘空间,当系统空闲时。

如果您删除文件,

git 将不会释放磁盘空间。因此,如果您删除大量数据,请删除 .git 并执行 git init; git add . 再次。

关于linux - grep 但可索引?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7734596/

相关文章:

linux - 如何使用 bash 检查字符串是否是有效的 mailq mailid?

grep 由两个关键行分隔的文本 block

string - grep 查找文件中的一行,然后删除该行

linux - 比较两个文件并在匹配的单词后打印 N 行

linux - 使用 unzip -c 并执行多个 greps 时如何捕获文件名

c++ - 我可以使用 nullptr 作为 Linux 系统调用参数吗?

linux - Docker 镜像和容器存储在哪个文件(或路径)中?

regex - 如何匹配这样的重复模式?

c++ - 为什么这个串行/调制解调器代码会弄乱我的终端显示?

linux - O_SYNC 写入何时在页面缓存(mmap 文件)中可见?