c# - 使用 C# 从 HTML 表格中抓取文本

标签 c# .net html html-parsing

我需要一些建议和可能的代码示例来解析来自网站的 HTML 表格。我正在使用 webclient 类从地址下载 html。然后我需要找到我想要从中获取数据的表。例如,如果表 ID 是 <table id="cia_list" , 我想遍历 <td>标签并只获取其中的文本。解决这个问题的最佳方法是什么?

最佳答案

过去,我将 HTML 转换为 XML,然后使用 XSLT 来解析结果。如果这是您想采用的方法,我建议您查看 SGMLReader ,它将处理转换。

人们通常会尝试使用正则表达式来完成您所说的事情。这是我通常反对的事情。这是一篇有趣的帖子,其中讨论了不这样做的一些原因:

RegEx match open tags except XHTML self-contained tags

关于c# - 使用 C# 从 HTML 表格中抓取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9503447/

相关文章:

java - 使用静态语言编码时的样式指南

c# - C# (.NET) 的 headless 浏览器?

.net - 带有 .NET Core 的 Angular 2

c# - Retinex算法实现

javascript - 帧中断检测

c# - 为什么 Telerik DropDown List 在使用 ajax 数据绑定(bind)时没有任何值?

c# - 将后退按钮导航到另一个 Activity Xamarin C#

c# - 没有泛型的测试类简化

html - 表中的间距

javascript - AJAX 自动加载 HTML5 部分中的滚动