c# - 如何获取搜索引擎有效 URL 的数据库?

标签 c# .net dns search-engine

我正在尝试为学校创建一个 Internet 搜索引擎,仅使用 C# 和 .NET 框架。我需要下载正在索引的页面的 HTML 代码。

现在所需要做的就是拥有有效 URL 的列表。

由于我没有有效 URL 的数据库,因此我制作了一个试错算法,该算法会生成一个字符串:

a, b, c.....
aa, ab, ac......
aaa, aab, aac......
aaaa, aaab, aaac......
aaaaa, aaaab, aaaac......

然后尝试与 .com、.net 或其他名称连接。这效率太低了。

我需要一个包含有效 URL 的数据库。你知道我在哪里可以买到吗?

我不知道如何直接从 DNS 中获取它们 - 这可能吗?

最佳答案

您可以构建自己的。大多数搜索引擎都会抓取页面并跟踪其他页面的链接。

您从一个已知列表开始(不必很大),然后:

  1. 访问列表中的页面
  2. 查找这些页面上的链接
  3. 将这些链接添加到您的列表
  4. 转到 1

至于使用DNS;它不是用来查询 URL,而是用来查询主机名的。而且,据我所知,除非您自己管理服务器,否则您无法从 DNS 服务器获取每个主机名的列表。

关于c# - 如何获取搜索引擎有效 URL 的数据库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15490564/

相关文章:

C# 如何设置灵活的基础,以便稍后从程序集更改控件?

.net - 如何将 Win32 鼠标消息转换为 WPF 鼠标事件?

Azure CDN 使用自定义域重定向流量

amazon-web-services - 如何使用 GCP Cloud Run 应用程序映射 AWS Route53 中的域

c# - 从 UserControl 子项访问 Window 属性

c# - 如何删除字符串中的任何 utf8mb4 字符

c# - 如何让“关于”框出现在 C# 中?

c# - 为什么我的 ILoadEventListener 没有被调用?

c# - 什么是 nAnt,它如何对我作为 C# 开发人员有用?

kubernetes - 使用不同DNS进行 Multi-Tenancy 设置的任何解决方案?