c# - 如何在不使用第三方库的情况下从 HTML 中提取文本?

标签 c# text web scraper

_request = (HttpWebRequest)WebRequest.Create(url);
_response = (HttpWebResponse) _request.GetResponse();
StreamReader streamReader = new StreamReader(_response.GetResponseStream());
string text = streamReader.ReadToEnd();

带有 html 标签的文本。我如何获得没有 html 标签的文本?

最佳答案

如何在不使用第 3 方库的情况下从动态 HTML 中提取文本?很简单,您使用 .NET 框架中的字符串解析函数发明了您自己的 HTML 解析库。

说真的,自己做这件事不是个好主意。如果您要从 Web 上提取动态 HTML,则必须为不同的结束标记、不匹配的标记、丢失的结束标记等做好准备。 除非您有真正充分的理由需要自己编写一个,否则只需使用 HTML Agility Pack,让它为您完成艰苦的工作。

此外,请确保您没有屈服于 Not Invented Here Syndrome .

关于c# - 如何在不使用第三方库的情况下从 HTML 中提取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8317582/

相关文章:

css - noobie web-builder,关于建立 html 画廊

c# - 泛型 C# 中的错误!

c# - 如何构建一个非常低分辨率的计时器?

c# - 如何通过linq从json获取子数据

r - R/Rstudio如何逐行读取一个txt文件?

c# - 在 C# 中避免 NullReferenceException 的优雅方法

C#:将制服与图形代码合并?

python - 如何使用 Pypdf2 从 Pdf 中提取文本,排除图表和表格中的文本内容

php - 限制php中的文本长度并提供 'Read more'链接

html - CSS - 用 div 填充页面(水平)