linux - 如何从下载的网页中提取信息？

我必须从数千个网页中按系统顺序提取诸如大学名称、联系电话、电子邮件 ID 等信息。有没有脚本可以做到这一点？

完整场景:我使用 wget 下载了包含各个大学信息的网页。每所大学大约有 5000 个网页，其中包含有关它们的信息，但我只对它们的名称、电子邮件 ID、网站和联系电话感兴趣。我需要将提取的信息按系统顺序保存在合适的文件中。如何提取信息？我该如何使用 grep 来做到这一点？有更好的方法吗？哪些脚本可用于提取信息？ PS:我使用Ubuntu和Kali linux。我是新手。需要专家的帮助。

最佳答案

我假设您将所有文件都放在一个目录中，“cd”到该目录并且:

grep -i -e "Name" -e "email" -e "http" ./*

当你看到结果时，并改进它。这将写入您的屏幕，最后添加:

>> my_collected_things.txt

将其放入文件中。

关于linux - 如何从下载的网页中提取信息？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27089860/

上一篇：linux - R 代码的可执行文件

下一篇：linux - linux ubuntu 和 redhat 的内核例程

相关文章：

java - .sh 文件未按 java 预期工作

performance - 从文件中选择随机行在 BASH 中花费的时间太长

转换 Bash 函数来计算 n!到C？

php - 在通过 HTML 上传的 CSV 上运行 Python 脚本

javascript - 在没有浏览器的情况下执行 JavaScript？

linux - 如何使用linux命令行计算某些网页上的图像加载时间？

linux 路径不工作

linux - 在 Xorg 下获取插入符号(输入文本光标)的 X/Y 位置？

linux - 我如何使用 grep/awk 或任何脚本方法来聚合时间输入行(例如按秒)

linux - 仅在 bash 脚本中检查可执行文件时计算文件夹和可执行文件？