c# - 使用 HTML Agility Pack 和 Linq 解析 html

标签 c# linq html-parsing html-agility-pack

我有以下 HTML

(..)
<tbody>
 <tr>
  <td class="name"> Test1 </td>
  <td class="data"> Data </td>
  <td class="data2"> Data 2 </td>
 </tr>
 <tr>
  <td class="name"> Test2 </td>
  <td class="data"> Data2 </td>
  <td class="data2"> Data 2 </td>
 </tr>
</tbody>
(..)

我掌握的信息是名称 => 所以“Test1”和“Test2”。我想知道的是如何根据我拥有的名称获取“data”和“data2”中的数据。

目前我正在使用:

var data =
    from
        tr in doc.DocumentNode.Descendants("tr")
    from   
        td in tr.ChildNodes.Where(x => x.Attributes["class"].Value == "name")
    where
        td.InnerText == "Test1"
    select tr;

但是当我尝试查看 data

时,我得到了 {"Object reference not set to an instance of an object."}

最佳答案

至于您的尝试,您的代码有两个问题:

  1. ChildNodes 很奇怪——它还返回空白文本节点,这些节点没有 class 属性(当然不能有属性)。
  2. 正如 James Walford 评论的那样,文本周围的空格很重要,您可能需要修剪它们。

通过这两个更正,以下工作:

var data =
      from tr in doc.DocumentNode.Descendants("tr")
      from td in tr.Descendants("td").Where(x => x.Attributes["class"].Value == "name")
     where td.InnerText.Trim() == "Test1"
    select tr;

关于c# - 使用 HTML Agility Pack 和 Linq 解析 html,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4616790/

相关文章:

javascript - XSD 正则表达式 : empty string OR something else

c# - 在 EMGU CV 中手动对焦相机

c# - asp.net 重定向页面上的倒计时标签

c# - Linq 合并查询

c# - LINQ:等同于 JOIN 的点符号

python - Html 解析与正则表达式

c# - 可以在 Java 中使用 C# 样式的对象初始化吗?

c# - 帮助合并 XML 数据

java - 有没有工具可以隔离网页内容?

python - Python 中的 JQuery/CSS 选择器?