regex - Bash:从 HTTP 响应中删除 header

如果我有一些包含 HTTP header 和正文的文本，例如:

HTTP/1.1 200 OK
Cache-Control: public, max-age=38
Content-Type: text/html; charset=utf-8
Expires: Fri, 22 Nov 2013 06:15:01 GMT
Last-Modified: Fri, 22 Nov 2013 06:14:01 GMT
Vary: *
X-Frame-Options: SAMEORIGIN
Date: Fri, 22 Nov 2013 06:14:22 GMT

<!DOCTYPE html>
<html>
<head>
    <title>My website</title>
</head>
<body>

Hello world!

</body>
</html>

并且此文本是从命令通过管道输入的，我如何删除标题以仅保留正文？

(在标题中，\r\n 用作换行符。\r\n\r\n 标记标题的结尾和正文的开头。)

这是我尝试过的(... 表示任何命令，例如 cat 或 curl 将输出一些 HTTP header 和正文到标准输出):

种子

我的第一个想法是用 sed 进行替换, 以删除第一次出现 \r\n\r\n 之前的所有内容:

... | sed 's|^.*?\r\n\r\n||'

但这行不通，主要是因为sed仅对个别行进行操作，因此不能对 \r 进行操作或 \n . (此外，它不支持 ? 非贪婪运算符。)

搜索

我也想到了用grep积极回顾\r\n\r\n :

... | grep -oP '(?<=\r\n\r\n).*'

但这也行不通(主要是因为 grep 仅在个别行上运行)。

pcregrep有一个多行模式( -M )，但是 pcregrep通常不可用(在 Ubuntu 12.04、Mac OS X 10.7 等中默认情况下未安装)，我想要一个不需要任何非标准工具的解决方案。

perl

然后我想到用 perl 进行替换, 使用 /s修饰符使得 .匹配换行符:

... | perl -pe 's/^.*?\r\n\r\n//s'

我认为这更接近可行的解决方案。但是，我认为 Perl 的输入记录分隔符 ( $/ ) 是 \n默认，需要改成\r\n ，所以 .可以匹配\r\n . -0选项可用于设置 $/到单个字符，而不是多个字符。我试过这个，但我认为它不正确:

... | perl -pe '$/ = "\r\n"; s/^.*?\r\n\r\n//s'

另外，我认为^匹配“行首”，但需要匹配“文件开头”。

偏移量和子串

我想到了获取 \r\n\r\n 的偏移量使用:

BodyOffset=$(expr index "$MyHttpText" "\r\n\r\n")

然后使用以下方法将正文提取为子字符串:

HttpBody=${MyHttpText:BodyOffset}

不幸的是，Mac OS X 版本expr不支持 index .另外，如果可能的话，我想要一个不需要创建变量的解决方案。

参数替换

我的另一个想法是使用参数替换，其中 #表示“从 $MyHttpText 中删除与 *\r\n\r\n 前端匹配的 $MyHttpText 的最短部分”:

HttpBody=${MyHttpText#*\r\n\r\n}

但我不确定如何在命令的管道序列中使用它，而且我还是更喜欢不需要变量的解决方案。

最佳答案

sed可以这样做:

sed '1,/^$/d' data.txt

此命令删除从第 1 行开始到第一次出现空行 (^$) 结束的所有内容。如果您将 \n 作为换行符，则此方法有效。如果你有 \r\n 作为换行符，你可以使用 dos2unix 和 unix2dos 来回转换它们，或者你可以添加\r 字符到 sed正则表达式:

sed '1,/^\r$/d' data.txt

但是，最后一行只有在你将 \r\n 作为换行符时才有效，要使其适用于两种类型的换行符，你可以使用:

sed '1,/^\r\{0,1\}$/d' data.txt

这里我们正在寻找一个包含 0 个或 1 个 \r 字符的空行。

关于regex - Bash:从 HTTP 响应中删除 header ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20179623/

regex - Bash:从 HTTP 响应中删除 header

种子

搜索

perl

偏移量和子串

参数替换

上一篇：bash - 如何在vim中执行命令？

下一篇：bash - 每天获取您的谷歌位置历史记录