我有以下 HTML
(..)
<tbody>
<tr>
<td class="name"> Test1 </td>
<td class="data"> Data </td>
<td class="data2"> Data 2 </td>
</tr>
<tr>
<td class="name"> Test2 </td>
<td class="data"> Data2 </td>
<td class="data2"> Data 2 </td>
</tr>
</tbody>
(..)
我掌握的信息是名称 => 所以“Test1”和“Test2”。我想知道的是如何根据我拥有的名称获取“data”和“data2”中的数据。
目前我正在使用:
var data =
from
tr in doc.DocumentNode.Descendants("tr")
from
td in tr.ChildNodes.Where(x => x.Attributes["class"].Value == "name")
where
td.InnerText == "Test1"
select tr;
但是当我尝试查看 data
{"Object reference not set to an instance of an object."}
最佳答案
至于您的尝试,您的代码有两个问题:
ChildNodes
很奇怪——它还返回空白文本节点,这些节点没有class
属性(当然不能有属性)。- 正如 James Walford 评论的那样,文本周围的空格很重要,您可能需要修剪它们。
通过这两个更正,以下工作:
var data =
from tr in doc.DocumentNode.Descendants("tr")
from td in tr.Descendants("td").Where(x => x.Attributes["class"].Value == "name")
where td.InnerText.Trim() == "Test1"
select tr;
关于c# - 使用 HTML Agility Pack 和 Linq 解析 html,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4616790/