我一直在搜索一个简单的网络爬虫,我需要在我的 StreamBuilder 或字符串中搜索一个元素。例如,我需要获取 ID 为“bodyDiv”的 div 中的所有内容。哪个工具可以帮我解决这个问题?
private static string GetPage(string url)
{
HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);
request.UserAgent = "Simple crawler";
WebResponse response = request.GetResponse();
Stream stream = response.GetResponseStream();
StreamReader reader = new StreamReader(stream);
string htmlText = reader.ReadToEnd();
return htmlText;
}
最佳答案
我会使用 HtmlAgilityPack
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(htmlText);
var div = doc.DocumentNode.SelectSingleNode("//div[@id='bodyDiv']");
if(div!=null)
{
var yourtext = div.InnerText;
}
关于c# - 如何在 StreamReader 或 String 中搜索 HTML 元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13645703/