如果我有一些包含 HTTP header 和正文的文本,例如:
HTTP/1.1 200 OK
Cache-Control: public, max-age=38
Content-Type: text/html; charset=utf-8
Expires: Fri, 22 Nov 2013 06:15:01 GMT
Last-Modified: Fri, 22 Nov 2013 06:14:01 GMT
Vary: *
X-Frame-Options: SAMEORIGIN
Date: Fri, 22 Nov 2013 06:14:22 GMT
<!DOCTYPE html>
<html>
<head>
<title>My website</title>
</head>
<body>
Hello world!
</body>
</html>
并且此文本是从命令通过管道输入的,我如何删除标题以仅保留正文?
(在标题中,\r\n
用作换行符。\r\n\r\n
标记标题的结尾和正文的开头。)
这是我尝试过的(...
表示任何命令,例如 cat
或 curl
将输出一些 HTTP header 和正文到标准输出):
种子
我的第一个想法是用 sed
进行替换, 以删除第一次出现 \r\n\r\n
之前的所有内容:
... | sed 's|^.*?\r\n\r\n||'
但这行不通,主要是因为sed
仅对个别行进行操作,因此不能对 \r
进行操作或 \n
. (此外,它不支持 ?
非贪婪运算符。)
搜索
我也想到了用grep
积极回顾\r\n\r\n
:
... | grep -oP '(?<=\r\n\r\n).*'
但这也行不通(主要是因为 grep
仅在个别行上运行)。
pcregrep
有一个多行模式( -M
),但是 pcregrep
通常不可用(在 Ubuntu 12.04、Mac OS X 10.7 等中默认情况下未安装),我想要一个不需要任何非标准工具的解决方案。
perl
然后我想到用 perl
进行替换, 使用 /s
修饰符使得 .
匹配换行符:
... | perl -pe 's/^.*?\r\n\r\n//s'
我认为这更接近可行的解决方案。但是,我认为 Perl 的输入记录分隔符 ( $/
) 是 \n
默认,需要改成\r\n
,所以 .
可以匹配\r\n
. -0
选项可用于设置 $/
到单个字符,而不是多个字符。我试过这个,但我认为它不正确:
... | perl -pe '$/ = "\r\n"; s/^.*?\r\n\r\n//s'
另外,我认为^
匹配“行首”,但需要匹配“文件开头”。
偏移量和子串
我想到了获取 \r\n\r\n
的偏移量使用:
BodyOffset=$(expr index "$MyHttpText" "\r\n\r\n")
然后使用以下方法将正文提取为子字符串:
HttpBody=${MyHttpText:BodyOffset}
不幸的是,Mac OS X 版本expr
不支持 index
.另外,如果可能的话,我想要一个不需要创建变量的解决方案。
参数替换
我的另一个想法是使用参数替换,其中 #
表示“从 $MyHttpText
中删除与 *\r\n\r\n
前端匹配的 $MyHttpText
的最短部分”:
HttpBody=${MyHttpText#*\r\n\r\n}
但我不确定如何在命令的管道序列中使用它,而且我还是更喜欢不需要变量的解决方案。
最佳答案
sed可以这样做:
sed '1,/^$/d' data.txt
此命令删除从第 1 行开始到第一次出现空行 (^$
) 结束的所有内容。如果您将 \n
作为换行符,则此方法有效。如果你有 \r\n
作为换行符,你可以使用 dos2unix
和 unix2dos
来回转换它们,或者你可以添加\r
字符到 sed正则表达式:
sed '1,/^\r$/d' data.txt
但是,最后一行只有在你将 \r\n
作为换行符时才有效,要使其适用于两种类型的换行符,你可以使用:
sed '1,/^\r\{0,1\}$/d' data.txt
这里我们正在寻找一个包含 0 个或 1 个 \r
字符的空行。
关于regex - Bash:从 HTTP 响应中删除 header ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20179623/