我正在尝试在一组网页上实现 PageRank
算法,为此我需要一个样本 dataset
网页,以及与它们对应的网络图,此网络图表示数据集包含的页面之间的链接。
我需要网络图,这样我才能获得转换矩阵并进行所需的计算。示例:
URL1 -> URL2
URL3390 -> URL5
URLxxxx
是一个id,以某种方式映射到相应的网页
我的问题是:我如何/从哪里可以获得这个资源(我在互联网上尝试了很多链接,但没有任何帮助),我也希望它不是很大,(互联网连接限制) , 如果我不能拥有它,你能给我一些建议吗?
更新:对于那些可能认为这是题外话的人来说,他们可能是对的,像软件推荐或计算机科学这样的网络,甚至没有相应的标签,而且并不真正适合这种问题,感谢您的帮助。
最佳答案
Site Visualizer 可能是您正在寻找的工具。该应用程序具有 generate visual sitemap 的功能.
下载并安装应用程序(标准版或专业版),单击创建新项目 工具按钮,输入您需要抓取的网站的 URL,然后单击开始按钮。
抓取完成后,单击可视站点地图 选项卡上的绘制 按钮。网站的图形将绘制为一组页面(矩形)和链接(带箭头的线)。单击一个框以选择特定页面并突出显示其出站链接:
使用All Links report可以得到网站所有链接的数据集(在报告 选项卡上)。 “From URL”和“To URL”列是您所需要的。
除此之外,您还可以使用特定的 SQL 查询来表示已抓取网站的页面或链接的数据集。例如,转到数据库 选项卡,键入以下查询并单击执行 工具按钮:
SELECT * FROM links WHERE link_type='A'
结果集将仅包含A-tag 链接,不包括图像、CSS 文件、JS 等。
该程序具有 30 天的全功能试用期,因此您可以免费执行任务。
关于database - 从哪里获得具有相应网页数据集的网页图,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23376840/