我正在尝试为学校创建一个 Internet 搜索引擎,仅使用 C# 和 .NET 框架。我需要下载正在索引的页面的 HTML 代码。
现在所需要做的就是拥有有效 URL 的列表。
由于我没有有效 URL 的数据库,因此我制作了一个试错算法,该算法会生成一个字符串:
a, b, c.....
aa, ab, ac......
aaa, aab, aac......
aaaa, aaab, aaac......
aaaaa, aaaab, aaaac......
然后尝试与 .com、.net 或其他名称连接。这效率太低了。
我需要一个包含有效 URL 的数据库。你知道我在哪里可以买到吗?
我不知道如何直接从 DNS 中获取它们 - 这可能吗?
最佳答案
您可以构建自己的。大多数搜索引擎都会抓取页面并跟踪其他页面的链接。
您从一个已知列表开始(不必很大),然后:
- 访问列表中的页面
- 查找这些页面上的链接
- 将这些链接添加到您的列表
- 转到 1
至于使用DNS;它不是用来查询 URL,而是用来查询主机名的。而且,据我所知,除非您自己管理服务器,否则您无法从 DNS 服务器获取每个主机名的列表。
关于c# - 如何获取搜索引擎有效 URL 的数据库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15490564/