regex - Bash:从 HTTP 响应中删除 header

标签 regex perl bash sed grep

如果我有一些包含 HTTP header 和正文的文本,例如:

HTTP/1.1 200 OK
Cache-Control: public, max-age=38
Content-Type: text/html; charset=utf-8
Expires: Fri, 22 Nov 2013 06:15:01 GMT
Last-Modified: Fri, 22 Nov 2013 06:14:01 GMT
Vary: *
X-Frame-Options: SAMEORIGIN
Date: Fri, 22 Nov 2013 06:14:22 GMT

<!DOCTYPE html>
<html>
<head>
    <title>My website</title>
</head>
<body>

Hello world!

</body>
</html>

并且此文本是从命令通过管道输入的,我如何删除标题以仅保留正文?

(在标题中,\r\n 用作换行符。\r\n\r\n 标记标题的结尾和正文的开头。)

这是我尝试过的(... 表示任何命令,例如 catcurl 将输出一些 HTTP header 和正文到标准输出):

种子

我的第一个想法是用 sed 进行替换, 以删除第一次出现 \r\n\r\n 之前的所有内容:

... | sed 's|^.*?\r\n\r\n||'

但这行不通,主要是因为sed仅对个别行进行操作,因此不能对 \r 进行操作或 \n . (此外,它不支持 ? 非贪婪运算符。)

搜索

我也想到了用grep积极回顾\r\n\r\n :

... | grep -oP '(?<=\r\n\r\n).*'

但这也行不通(主要是因为 grep 仅在个别行上运行)。

pcregrep有一个多行模式( -M ),但是 pcregrep通常不可用(在 Ubuntu 12.04、Mac OS X 10.7 等中默认情况下未安装),我想要一个不需要任何非标准工具的解决方案。

perl

然后我想到用 perl 进行替换, 使用 /s修饰符使得 .匹配换行符:

... | perl -pe 's/^.*?\r\n\r\n//s'

我认为这更接近可行的解决方案。但是,我认为 Perl 的输入记录分隔符 ( $/ ) 是 \n默认,需要改成\r\n ,所以 .可以匹配\r\n . -0选项可用于设置 $/到单个字符,而不是多个字符。我试过这个,但我认为它不正确:

... | perl -pe '$/ = "\r\n"; s/^.*?\r\n\r\n//s'

另外,我认为^匹配“行首”,但需要匹配“文件开头”。

偏移量和子串

我想到了获取 \r\n\r\n 的偏移量使用:

BodyOffset=$(expr index "$MyHttpText" "\r\n\r\n")

然后使用以下方法将正文提取为子字符串:

HttpBody=${MyHttpText:BodyOffset}

不幸的是,Mac OS X 版本expr不支持 index .另外,如果可能的话,我想要一个不需要创建变量的解决方案。

参数替换

我的另一个想法是使用参数替换,其中 #表示“从 $MyHttpText 中删除与 *\r\n\r\n 前端匹配的 $MyHttpText 的最短部分”:

HttpBody=${MyHttpText#*\r\n\r\n}

但我不确定如何在命令的管道序列中使用它,而且我还是更喜欢不需要变量的解决方案。

最佳答案

可以这样做:

sed '1,/^$/d' data.txt

此命令删除从第 1 行开始到第一次出现空行 (^$) 结束的所有内容。如果您将 \n 作为换行符,则此方法有效。如果你有 \r\n 作为换行符,你可以使用 dos2unixunix2dos 来回转换它们,或者你可以添加\r 字符到 正则表达式:

sed '1,/^\r$/d' data.txt

但是,最后一行只有在你将 \r\n 作为换行符时才有效,要使其适用于两种类型的换行符,你可以使用:

sed '1,/^\r\{0,1\}$/d' data.txt

这里我们正在寻找一个包含 0 个或 1 个 \r 字符的空行。

关于regex - Bash:从 HTTP 响应中删除 header ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20179623/

相关文章:

C++11 regex::icase 不一致行为

linux - Bash - 格式化值

linux - 调用二进制文件的整个路径时无法执行该文件

perl - 如何修复 anaconda 中的 Perl 未安装 bioperl 的问题? `Bailing out the installation for BioPerl-1.007002.`

perl - 尝试使用 MAIL::IMAPClient 通过 IMAP 解析电子邮件中的文本和 html,但文本隐藏在部分和多部分中

windows - 如何将当前cygwin目录转换成windows格式

regex - 使用 sed 的大写到小写

regex - OpenOffice.org:正则表达式 - 跳过第一个匹配项

Java 正则表达式解析任意数量的 Markdown 样式链接

python - R 中的预测时间分析(数据挖掘算法)