c# - 如何在不使用第三方库的情况下从 HTML 中提取文本？

标签 c# text web scraper

_request = (HttpWebRequest)WebRequest.Create(url);
_response = (HttpWebResponse) _request.GetResponse();
StreamReader streamReader = new StreamReader(_response.GetResponseStream());
string text = streamReader.ReadToEnd();

带有 html 标签的文本。我如何获得没有 html 标签的文本？

最佳答案

如何在不使用第 3 方库的情况下从动态 HTML 中提取文本？很简单，您使用 .NET 框架中的字符串解析函数发明了您自己的 HTML 解析库。

说真的，自己做这件事不是个好主意。如果您要从 Web 上提取动态 HTML，则必须为不同的结束标记、不匹配的标记、丢失的结束标记等做好准备。 除非您有真正充分的理由需要自己编写一个，否则只需使用 HTML Agility Pack，让它为您完成艰苦的工作。

此外，请确保您没有屈服于 Not Invented Here Syndrome .

关于c# - 如何在不使用第三方库的情况下从 HTML 中提取文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8317582/

上一篇：c# - 多线程增加int

下一篇：c# - LINQ:具有多个条件的左外连接

相关文章：

css - noobie web-builder，关于建立 html 画廊

c# - 泛型 C# 中的错误!

c# - 如何构建一个非常低分辨率的计时器？

c# - 如何通过linq从json获取子数据

r - R/Rstudio如何逐行读取一个txt文件？

c# - 在 C# 中避免 NullReferenceException 的优雅方法

C#:将制服与图形代码合并？

python - 如何使用 Pypdf2 从 Pdf 中提取文本，排除图表和表格中的文本内容

php - 限制php中的文本长度并提供 'Read more'链接

html - CSS - 用 div 填充页面(水平)