linux - 对链接中包含 "="的所有 Url 的大 URL 列表进行排序并删除特定域

标签 linux bash sorting

我正在尝试对一个非常大的 Url 列表进行排序。列表包含 12 个 Mio 网址。每行 1 个 Url。 我想在新文件中过滤所有带有“=”(example.com/a.php?aaa=aaa)的网址。 之后,我很乐意从 Google、Bing、Facebook 等中删除 Urls。

我该如何解决这个问题?我正在使用 Linux 终端。

最佳答案

grep = urls.dat > urls-eq.dat
grep -v = urls.dat | egrep -v -i '\<(google|facebook|bing)\.(com|net)(/|$)' > urls-filtered.dat

关于linux - 对链接中包含 "="的所有 Url 的大 URL 列表进行排序并删除特定域,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41578202/

相关文章:

scala - 我怎么能省略这个 Nil Case

python - 将一行插入 NumPy 数组

python - 如何创建根据组大小排序的多索引数据框?

python - 当我在 Bash 中有一系列命令时,如何重定向标准输入/标准输出?

linux - 如何找出文本文件中的行尾?

linux - 带/不带引号和单引号/双引号的 bash 字符串

php - 从另一个 cron 作业创建 cron 作业

linux - 在 Linux/bash 下拆分文件及其行

sql-server - 如何编写 bash 和 sql 文件来设置 postgres 用户?

linux - 如何添加一行或用 awk 或 sed 替换第一行