我有一个文件,每行都有一些 URL。我需要提取标签中存在的“关键字”,即如果有“关键字”的元标记,那么我想为其获取“内容”值。 示例:如果网页具有此元标记:
<meta name="keywords" content="wikipedia,encyclopedia">
然后对于该 URL,我希望提取“wikipedia,encyclopedia”。
一种方法是使用“wget”下载网页,然后使用一些标准的 HTML 解析器对其进行解析。
我想知道是否有更好的方法可以在不下载整个网页的情况下执行此操作。
最佳答案
不——你必须下载整个页面..或者在收到一些数据后中断下载(这更糟糕,更复杂,因为据我所知,它不能用 wget 完成,你将不得不编写你的代码自己的 wget)。
关于html - 使用 wget 提取元标记属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6484577/