c# - 使用 C# 从 HTML 表格中抓取文本

标签 c# .net html html-parsing

我需要一些建议和可能的代码示例来解析来自网站的 HTML 表格。我正在使用 webclient 类从地址下载 html。然后我需要找到我想要从中获取数据的表。例如，如果表 ID 是 <table id="cia_list" , 我想遍历 <td>标签并只获取其中的文本。解决这个问题的最佳方法是什么？

最佳答案

过去，我将 HTML 转换为 XML，然后使用 XSLT 来解析结果。如果这是您想采用的方法，我建议您查看 SGMLReader ，它将处理转换。

人们通常会尝试使用正则表达式来完成您所说的事情。这是我通常反对的事情。这是一篇有趣的帖子，其中讨论了不这样做的一些原因:

RegEx match open tags except XHTML self-contained tags

关于c# - 使用 C# 从 HTML 表格中抓取文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9503447/

上一篇：c# - 从 ViewModel 控制 TextBox 的滚动位置？

下一篇：c# - 对 ListView 中的条目进行排序

相关文章：

java - 使用静态语言编码时的样式指南

c# - C# (.NET) 的 headless 浏览器？

.net - 带有 .NET Core 的 Angular 2

c# - Retinex算法实现

javascript - 帧中断检测

c# - 为什么 Telerik DropDown List 在使用 ajax 数据绑定(bind)时没有任何值？

c# - 将后退按钮导航到另一个 Activity Xamarin C#

c# - 没有泛型的测试类简化

html - 表中的间距

javascript - AJAX 自动加载 HTML5 部分中的滚动