c# - 用于测试搜索引擎功能的文本文件

标签 c# file search scripting search-engine

为了为即将到来的编程竞赛练习,我正在用 C# 制作一个非常的基本搜索引擎,它接受来自用户的查询(例如 “Markov Decision Process”) 并搜索几个文件以找到与查询最相关的文件。

该应用程序似乎可以正常工作(我使用了术语-文档矩阵算法)。

但现在我想测试一下搜索引擎的功能,看看它是否真的能正常工作。我尝试获取几篇维基百科文章并将它们保存为 .txt 文件并对其进行测试,但我无法确定它是否运行得足够快(即使有一些计时器)。

我的问题是,是否有网站显示几个文件以测试搜索引擎(以及逻辑上预期的结果)?

到目前为止,我是根据常识进行测试,但如果能确定我的结果就太好了。

此外,我如何获取关于各种主题的 .txt 文件(可能超过 10 000 个文件)的集合,以查看我的应用程序运行速度是否足够快?

我尝试复制几篇维基百科文章,但要花费方式太多时间。我也考虑过制作某种脚本来为我做这件事,但我真的不知道该怎么做。

那么,我在哪里可以找到很多主题分开的文件?

否则,如何对我的应用程序进行基准测试?

注意:我想一个简单的大型 .txt 文件(其中每一行代表一个关于主题的"file")也可以完成这项工作。

最佳答案

文本文件的一个来源是 Project Gutenberg .他们供应CD/DVD images如果您想一次下载数千个文件。 (该页面没有说明,但我想它们在 CD/DVD iso 中是 txt 格式。)

关于c# - 用于测试搜索引擎功能的文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8547799/

相关文章:

c# - 确定目录是否可以在 NTFS 上移动

c - 文件返回垃圾,但写入正确

search - Magento - 自动完成建议搜索不起作用

c# - MVC 部分 View 中的多态 ViewModel 收集和渲染

c# - 将 ContentControl 绑定(bind)到将确定要查看哪个用户控件的 ApplicationViewModel?

file - 有没有办法通过 postman 将文件上传到 GraphQL API?

以不区分大小写的方式搜索 SimpleDB

search - Google如何如此快速地(针对如此多的文档)执行搜索(针对任何给定的查询),并且仍然设法自定义结果?

c# - 将空值传递给 int?

c# - .NET C# 应用程序中 DataGridViewRow 的性能缓慢