我需要一些建议和可能的代码示例来解析来自网站的 HTML 表格。我正在使用 webclient 类从地址下载 html。然后我需要找到我想要从中获取数据的表。例如,如果表 ID 是 <table id="cia_list"
, 我想遍历 <td>
标签并只获取其中的文本。解决这个问题的最佳方法是什么?
最佳答案
过去,我将 HTML 转换为 XML,然后使用 XSLT 来解析结果。如果这是您想采用的方法,我建议您查看 SGMLReader ,它将处理转换。
人们通常会尝试使用正则表达式来完成您所说的事情。这是我通常反对的事情。这是一篇有趣的帖子,其中讨论了不这样做的一些原因:
关于c# - 使用 C# 从 HTML 表格中抓取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9503447/