我正在尝试使用 HtmlAgilityPack 从页面中提取所有链接,这些链接包含在声明为 <div class='content'>
的 div 中。但是,当我使用下面的代码时,我只是获得了整个页面上的所有链接。这对我来说真的没有意义,因为我是从我之前选择的子节点调用 SelectNodes(在调试器中查看时只显示来自该特定 div 的 HTML)。所以,就像每次我调用 SelectNodes 时都回到根节点一样。我使用的代码如下:
HtmlWeb hw = new HtmlWeb();
HtmlDocument doc = hw.Load(@"http://example.com");
HtmlNode node = doc.DocumentNode.SelectSingleNode("//div[@class='content']");
foreach(HtmlNode link in node.SelectNodes("//a[@href]"))
{
Console.WriteLine(link.Value);
}
这是预期的行为吗?如果是这样,我如何让它按照我的预期进行?
最佳答案
这会起作用:
node.SelectNodes("a[@href]")
此外,您可以在单个选择器中完成:
doc.DocumentNode.SelectSingleNode("//div[@class='content']//a[@href]")
另外,请注意 link.Value
没有为 HtmlNode
定义,因此您的代码无法编译。
关于c# - 使用 HtmlAgilityPack 仅选择特定 DIV 中的项目,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2875347/