c# - 不使用 XML 解析器从 XML 文档中提取数据

标签 c# xml regex

以下是该文档的一些行:

  <div class="rowleft">
    <h3>Technical Fouls</h3>

    <table class="num-left">
      <tr class="datahl2b"> 
        <td>&nbsp;</td>
            <td>Players</td>
          </tr>
          <tr> 
            <td>DAL</td>
            <td>
              None</td>

          </tr>
          <tr> 
            <td>MIA</td>
            <td>
              Mike Miller</td>
            <td>
              Mike Miller, Jr.</td>
          </tr>
        </table>
    </div> 

我有兴趣提取NoneMike MillerMike Miller, Jr.由此。我尝试使用各种 XML 解析器,但是 1) 性能很差,2) 该文档显然不是格式正确的 XML 文档。

我一直在考虑的一件事是删除文档中的换行符,将其分割为 <tr> 之类的东西。 ,查看哪些行包含数据(可能使用 StartsWith() ),并使用正则表达式提取它。这对于我的程序来说已经足够高效了(下载文档只需要五秒,半秒并不重要),但我对替代解决方案感兴趣。

最佳答案

Relevant

HTML 通常不是正确格式化的 XML,我建议您使用类似 HTML Agility pack 的内容

关于c# - 不使用 XML 解析器从 XML 文档中提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6243520/

相关文章:

c# - 如果需要同时批量处理事务和异步执行事务,是否应该将EF6 DbContext作为作用域或临时注入(inject)?

c# - 在 ASP.NET MVC(3) 中,是否有任何属性强制 View 生成器不显示属性

java - 将文档根节点与前缀匹配

python - 解析 dbus 监视器输出消息

JavaScript(咕噜声): regular expressions for path to a file

c# - 装箱和拆箱

Android 开关拖放

xml - Xpath 查询以匹配序列中的直接兄弟节点

python - 正则表达式前瞻和后瞻

c# - "The path .. would result in a file outside the App Bundle and cannot be used"错误,单触摸/Xamarin