html - 使用 wget 提取元标记属性

标签 html

我有一个文件,每行都有一些 URL。我需要提取标签中存在的“关键字”,即如果有“关键字”的元标记,那么我想为其获取“内容”值。 示例:如果网页具有此元标记:

<meta name="keywords" content="wikipedia,encyclopedia">

然后对于该 URL,我希望提取“wikipedia,encyclopedia”。

一种方法是使用“wget”下载网页,然后使用一些标准的 HTML 解析器对其进行解析。

我想知道是否有更好的方法可以在不下载整个网页的情况下执行此操作。

最佳答案

不——你必须下载整个页面..或者在收到一些数据后中断下载(这更糟糕,更复杂,因为据我所知,它不能用 wget 完成,你将不得不编写你的代码自己的 wget)。

关于html - 使用 wget 提取元标记属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6484577/

相关文章:

html - 数据图标在 Safari 中不起作用

javascript - Angular2 Pipe 用于更改特定字符的内联样式

html - 如何在不允许多选的情况下在 HTML 中创建列表框?

php & mysql 表单数据未插入数据库

jQuery/CSS - 如何设置元素在另一个元素中首次出现的样式?

html - div 元素不向左浮动

javascript - Highcharts 未定义

html - 使用 HTML/CSS 的框但在右上角打开?

javascript - SO标签编辑器计算输入宽度

html - 还有比 <table> 更好的布局吗?