linux - 如何从下载的网页中提取信息?

标签 linux bash scripting grep wget

我必须从数千个网页中按系统顺序提取诸如大学名称、联系电话、电子邮件 ID 等信息。有没有脚本可以做到这一点?

完整场景:我使用 wget 下载了包含各个大学信息的网页。每所大学大约有 5000 个网页,其中包含有关它们的信息,但我只对它们的名称、电子邮件 ID、网站和联系电话感兴趣。我需要将提取的信息按系统顺序保存在合适的文件中。 如何提取信息?我该如何使用 grep 来做到这一点?有更好的方法吗?哪些脚本可用于提取信息? PS:我使用Ubuntu和Kali linux。我是新手。需要专家的帮助。

最佳答案

我假设您将所有文件都放在一个目录中,“cd”到该目录并且:

grep -i -e "Name" -e "email" -e "http" ./*

当你看到结果时,并改进它。这将写入您的屏幕,最后添加:

>> my_collected_things.txt

将其放入文件中。

关于linux - 如何从下载的网页中提取信息?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27089860/

相关文章:

java - .sh 文件未按 java 预期工作

performance - 从文件中选择随机行在 BASH 中花费的时间太长

转换 Bash 函数来计算 n!到C?

php - 在通过 HTML 上传的 CSV 上运行 Python 脚本

javascript - 在没有浏览器的情况下执行 JavaScript?

linux - 如何使用linux命令行计算某些网页上的图像加载时间?

linux 路径不工作

linux - 在 Xorg 下获取插入符号(输入文本光标)的 X/Y 位置?

linux - 我如何使用 grep/awk 或任何脚本方法来聚合时间输入行(例如按秒)

linux - 仅在 bash 脚本中检查可执行文件时计算文件夹和可执行文件?