c# - 使用 ABOT 抓取站点地图

标签 c# web-crawler

我尝试使用 ABOT 抓取站点地图。我的代码灵感来自 here .

抓取页面完成后,内容文本为空(Crawler_PageCrawlCompleted 中的e.CrawledPage)。此外,SiteMapFinder.GetLinks 从未接触过。

请告诉我我的问题在哪里。

using Abot.Core;
using Abot.Crawler;
using Abot.Poco;
using CsQuery.ExtensionMethods;
using System;
using System.Collections.Generic;

namespace WebCrawler
{


public class SiteMapFinder : IHyperLinkParser
{
    private readonly HyperLinkParser _linkParser;
    public SiteMapFinder()
    {
        _linkParser = new AngleSharpHyperlinkParser();
    }

    IEnumerable<Uri> IHyperLinkParser.GetLinks(CrawledPage crawledPage)
    {
        if (crawledPage.HttpWebResponse.ContentType == "text/xml")
        {
            Console.WriteLine(crawledPage.Uri.AbsoluteUri);

        }



        return _linkParser.GetLinks(crawledPage);

    }
}
class Program
{
    static void Main(string[] args)
    {
        SiteMapFinder finder = new SiteMapFinder();
        PoliteWebCrawler crawler = new PoliteWebCrawler(null, null, null, null, null, finder, null, null, null);


        crawler.PageCrawlCompleted += Crawler_PageCrawlCompleted;
        CrawlResult result = crawler.Crawl(new Uri("http://www.example.com/sitemap/"));


    }

    private static void Crawler_PageCrawlCompleted(object sender, PageCrawlCompletedArgs e)
    {
        Console.WriteLine(e.CrawledPage.Uri.AbsoluteUri);
        e.CrawledPage.HttpWebResponse.Headers.AllKeys.ForEach(k => Console.WriteLine($"{k}: {e.CrawledPage.HttpWebResponse.Headers[k]}"));
    }
}

最佳答案

好的,我的问题在 app.config 上。应为 downloadableContentTypes 添加 text/XML

<abot>
    <crawlBehavior
      ....
      ....
      downloadableContentTypes="text/html, text/plain, text/xml"

这是我完成的加载 XML 和获取站点地图链接的代码。

using Abot.Core;
using Abot.Crawler;
using Abot.Poco;
using CsQuery.ExtensionMethods;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Xml;

namespace WebCrawler
{

    public class SiteMapFinder : IHyperLinkParser
    {
        private readonly HyperLinkParser _linkParser;
        public SiteMapFinder()
        {
            _linkParser = new AngleSharpHyperlinkParser();
        }

        IEnumerable<Uri> IHyperLinkParser.GetLinks(CrawledPage crawledPage)
        {
            if (crawledPage.HttpWebResponse.ContentType == "text/xml")
            {
                XmlDocument xml = new XmlDocument();
                xml.LoadXml(crawledPage.Content.Text);

                if (xml.DocumentElement == null) return new Uri[] {};


                XmlNamespaceManager manager = new XmlNamespaceManager(xml.NameTable);
                manager.AddNamespace("s", xml.DocumentElement.NamespaceURI);


                var links = xml.SelectNodes("/s:sitemapindex/s:sitemap", manager);
                if(links == null) return new Uri[] { };
                return links
                        .Cast<XmlNode>()
                        .Select(x => new Uri(x.InnerText));




            }



            return _linkParser.GetLinks(crawledPage);

        }
    }
    class Program
    {
        static void Main(string[] args)
        {
            SiteMapFinder finder = new SiteMapFinder();
            PoliteWebCrawler crawler = new PoliteWebCrawler(null, null, null, null, null, finder, null, null, null);


            crawler.PageCrawlCompleted += Crawler_PageCrawlCompleted;
            CrawlResult result = crawler.Crawl(new Uri("http://tenders.rfpalertservices.com/sitemap/"));


        }

        private static void Crawler_PageCrawlCompleted(object sender, PageCrawlCompletedArgs e)
        {
            Console.WriteLine(e.CrawledPage.Uri.AbsoluteUri);
            e.CrawledPage.HttpWebResponse.Headers.AllKeys.ForEach(k => Console.WriteLine($"{k}: {e.CrawledPage.HttpWebResponse.Headers[k]}"));
        }
    }
}

关于c# - 使用 ABOT 抓取站点地图,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42581658/

相关文章:

youtube - 如何抓取 YouTube 视频评论?

python - 在scrapy中并行运行1个网站的多个蜘蛛?

python - 统一码错误 : URL contains non-ASCII characters (Python 2. 7)

c# - 验证 JavaScript 中的字符串和类型转换

Python网络爬虫,通过链接爬取并找到特定的词

c# - 如何旋转可编辑网格的行?

c# - 提高 Windows Workflow 的速度

algorithm - 使用一个搜索字符串搜索 4 个网站目录

c# - 我们可以使用 Windows UI Automation API 来自动化 Internet Explorer 中的网页吗?

c# - Linq 查询中的 .OrderBy 并不总是正确排序