我必须从数千个网页中按系统顺序提取诸如大学名称、联系电话、电子邮件 ID 等信息。有没有脚本可以做到这一点?
完整场景:我使用 wget 下载了包含各个大学信息的网页。每所大学大约有 5000 个网页,其中包含有关它们的信息,但我只对它们的名称、电子邮件 ID、网站和联系电话感兴趣。我需要将提取的信息按系统顺序保存在合适的文件中。 如何提取信息?我该如何使用 grep 来做到这一点?有更好的方法吗?哪些脚本可用于提取信息? PS:我使用Ubuntu和Kali linux。我是新手。需要专家的帮助。
最佳答案
我假设您将所有文件都放在一个目录中,“cd”到该目录并且:
grep -i -e "Name" -e "email" -e "http" ./*
当你看到结果时,并改进它。这将写入您的屏幕,最后添加:
>> my_collected_things.txt
将其放入文件中。
关于linux - 如何从下载的网页中提取信息?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27089860/