git commit 触发器阻止字节顺序标记

标签 git awk sed

我在 Windows 上,有时使用记事本编辑文件,记事本喜欢将 BOM 放在文件的开头(EF BB BF)。在 diff 中很容易忽略这一点,然后将具有这样 BOM 的 Python 文件提交给 Git,我发现它在 Mac 上不起作用。

我想创建一个提交触发器,在提交之前删除 BOM。或者至少拒绝提交。

我想出的最好的是我在“预提交”中放入的脚本。它会删除任何 BOM,但仅在提交之后,所以我必须进行第二次提交。

#!/bin/sh
git diff --cached --diff-filter=ACMR --name-only -z *.py | xargs -0 -n 1 sh -c '
    for FILE; do
        sed -b -i -e "1s/^\xEF\xBB\xBF//" "$FILE"
    done
' sh

我尝试像这样使用命令和“q”,因此如果匹配,退出代码将为 1,但它不起作用。
#!/bin/sh
git diff --cached --diff-filter=ACMR --name-only -z *.py | xargs -0 -n 1 sh -c '
    for FILE; do
        sed -b -i -e "1 /^\xEF\xBB\xBF/ {s/^\xEF\xBB\xBF//;q1};q0" "$FILE"
    done
' sh

有人可以帮忙解决吗?

最佳答案

你在正确的轨道上。

预提交 Hook 的一个很好的一般规则是不要修改索引内容(即“不要更改提交或工作目录,甚至不要尝试”),而只是让提交失败,所以你的第二个代码块可能更接近 - 但您仍在修改文件。如果你愿意,你可以这样做,你甚至可以 git add如果你真的想要,他们也可以。这通常不是一个好主意:它往往太令人惊讶,并且它会通过精心制作的版本故意与工作目录版本不同(例如,由 git add -p 生成)会做出意想不到的事情。

您在这里还有两个选择:您可以只检查新的和修改过的文件(这是您的 --diff-filter 的用途);或者您可以检查索引中的每个文件。如果您想允许任何现有的(但未修改的)文件保留现有的 Unicode-BOM,您肯定需要 new-and-modified-only 方法,所以让我们坚持下去。我会保留 *.py同样,但我们希望保护它不受 shell 的影响,以便它使用 git 的名称以 .py 结尾的文件的想法,而不是外壳的。特别是,这意味着如果某些 .py文件存在于索引中——因此将被提交,如果提交继续——但不在工作目录中,它们将被检查。

我们可以通过添加 --no-renames 来稍微简化 diff 过滤器。到 diff命令以便 R状态不能发生。我们也知道 C应该不会发生,因为我们没有提供任何 -C--find-copies-harder选项。因此,我们从:

git diff --cached --no-renames --diff-filter=AM --name-only -- '*.py'

我已取出 -z : -z如果我们可以使用 xargs -0 就好了,但我打算一次读取一个文件名,因为这些命令中的大多数实际上一次只能处理一个文件。 (也可以使用 xargs 来做到这一点,但如果您的文件名中没有一个包含换行符,没有它我们也可以。) --将 diff 选项与路径分开(这似乎不是必需的,但请参阅下面的评论;无论如何,这通常是个好主意)。

这会生成要检查的文件列表,所以现在让我们检查(但不编辑)它们。如果您使用的是 Windows,则可能需要修改以下内容以使用您拥有的任何有限工具;因为我总是在 Linux 或 Unix 机器上,所以我使用 head -1获取第一行,grep检查 BOM:
#! /bin/sh
git diff --cached --no-renames --diff-filter=AM --name-only -- '*.py' |
(status=0; while IFS= read path; do
    if git show ":$path" | head -1 | grep $'^\xEF\xBB\xBF' >/dev/null; then
        echo "Error: file '$path' starts with Unicode BOM.'"
        status=1
    fi
done
exit $status)

以下是各种技巧:
  • 我们设置IFS在读取过程中什么都没有,以允许其他类型的空白。 (对于使用 -z 并因此也处理换行符的方法,请参阅下面的 Etan Reisner's comments。)
  • 我们使用 git show ":$path"提取索引中文件的版本。这可能(例如 git add -p )与工作目录中文件的版本不同。
  • 我们使用 head -1丢弃除第一行之外的所有内容。
  • 我们使用 grep检查 BOM,我们使用 shell 字符串扩展 ($'...'),grep 的输出指向 /dev/null这样它就不会出现( grep -q 也有效,但前提是该特定 grep 支持 -q )。
  • 我们继续检查所有列出的文件,即使有些文件有 BOM。
  • 要使用管道解决 shell 的子 shell 操作(cmd | while ... 在子 shell 中运行 while),我们在显式(带括号的)子 shell 中设置状态并以该状态退出该子 shell。这会将子 shell 的状态(如果没有 BOM 则成功,如果有则失败)传播到主 shell,在那里它可以成为 git 钩子(Hook)的结果。

  • 注意:以上内容并未作为完整的钩子(Hook)进行测试(尽管我相信它是正确的)。

    关于git commit 触发器阻止字节顺序标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31443291/

    相关文章:

    regex - bash 正则表达式 在一行中进行多个匹配

    unix - awk/sed : replace all fields if any field matches a pattern

    git - 为 TFS-GIT 存储库运行时 TFS 构建失败

    git - zsh shell 无法识别 git HEAD^

    javascript - git提交错误的文件名首字母大写

    windows - Windows 中的 Grep 和 Awk 表达式错误中的无效字符

    regex - 替换数字对之间的分隔符

    Git:在日期范围内更改的平均行数和总行数

    python - Linux结合两个不同的文本文件

    unix - 如何使用 AWK 根据两个文件之间的公共(public)字段删除一个文件中的重复行?