以下是该文档的一些行:
<div class="rowleft">
<h3>Technical Fouls</h3>
<table class="num-left">
<tr class="datahl2b">
<td> </td>
<td>Players</td>
</tr>
<tr>
<td>DAL</td>
<td>
None</td>
</tr>
<tr>
<td>MIA</td>
<td>
Mike Miller</td>
<td>
Mike Miller, Jr.</td>
</tr>
</table>
</div>
我有兴趣提取None
和Mike Miller
和Mike Miller, Jr.
由此。我尝试使用各种 XML 解析器,但是 1) 性能很差,2) 该文档显然不是格式正确的 XML 文档。
我一直在考虑的一件事是删除文档中的换行符,将其分割为 <tr>
之类的东西。 ,查看哪些行包含数据(可能使用 StartsWith()
),并使用正则表达式提取它。这对于我的程序来说已经足够高效了(下载文档只需要五秒,半秒并不重要),但我对替代解决方案感兴趣。
最佳答案
HTML 通常不是正确格式化的 XML,我建议您使用类似 HTML Agility pack 的内容
关于c# - 不使用 XML 解析器从 XML 文档中提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6243520/