database - 从哪里获得具有相应网页数据集的网页图

标签 database web-crawler search-engine pagerank inverted-index

我正在尝试在一组网页上实现 PageRank 算法,为此我需要一个样本 dataset 网页,以及与它们对应的网络图,此网络图表示数据集包含的页面之间的链接。

我需要网络图,这样我才能获得转换矩阵并进行所需的计算。示例:

URL1 -> URL2
URL3390 -> URL5

URLxxxx 是一个id,以某种方式映射到相应的网页

我的问题是:我如何/从哪里可以获得这个资源(我在互联网上尝试了很多链接,但没有任何帮助),我也希望它不是很大,(互联网连接限制) , 如果我不能拥有它,你能给我一些建议吗?

更新:对于那些可能认为这是题外话的人来说,他们可能是对的,像软件推荐或计算机科学这样的网络,甚至没有相应的标签,而且并不真正适合这种问题,感谢您的帮助。

最佳答案

Site Visualizer 可能是您正在寻找的工具。该应用程序具有 generate visual sitemap 的功能.

下载并安装应用程序(标准版或专业版),单击创建新项目 工具按钮,输入您需要抓取的网站的 URL,然后单击开始按钮。

抓取完成后,单击可视站点地图 选项卡上的绘制 按钮。网站的图形将绘制为一组页面(矩形)和链接(带箭头的线)。单击一个框以选择特定页面并突出显示其出站链接: generate visual sitemap

使用All Links report可以得到网站所有链接的数据集(在报告 选项卡上)。 “From URL”和“To URL”列是您所需要的。

除此之外,您还可以使用特定的 SQL 查询来表示已抓取网站的页面或链接的数据集。例如,转到数据库 选项卡,键入以下查询并单击执行 工具按钮:

SELECT * FROM links WHERE link_type='A'

结果集将仅包含A-tag 链接,不包括图像、CSS 文件、JS 等。

该程序具有 30 天的全功能试用期,因此您可以免费执行任务。

关于database - 从哪里获得具有相应网页数据集的网页图,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23376840/

相关文章:

MySQL - 从大数据库中删除一些特定的表

mysql - 拥有数十亿条记录的多对多表会导致性能问题吗?

python - 有什么方法可以告诉 selenium 在某个时候不要执行 js?

java - 如何从庞大的数据库中搜索给定的单词?

search-engine - 搜索引擎中的倒排索引

database - ADO.NET:需要帮助了解 'Dataset' 的基础知识

python scrapy登录重定向问题

php - 检查页面内容是否已更改的最佳方法?

php - 如何创建一个简单的Mysql搜索引擎

mysql - 如何在单个字段或列中连接多个值? (MySQL)