为了为即将到来的编程竞赛练习,我正在用 C# 制作一个非常的基本搜索引擎,它接受来自用户的查询(例如 “Markov Decision Process”
) 并搜索几个文件以找到与查询最相关的文件。
该应用程序似乎可以正常工作(我使用了术语-文档矩阵算法)。
但现在我想测试一下搜索引擎的功能,看看它是否真的能正常工作。我尝试获取几篇维基百科文章并将它们保存为 .txt
文件并对其进行测试,但我无法确定它是否运行得足够快(即使有一些计时器)。
我的问题是,是否有网站显示几个文件以测试搜索引擎(以及逻辑上预期的结果)?
到目前为止,我是根据常识进行测试,但如果能确定我的结果就太好了。
此外,我如何获取关于各种主题的 .txt
文件(可能超过 10 000 个文件)的集合,以查看我的应用程序运行速度是否足够快?
我尝试复制几篇维基百科文章,但要花费方式太多时间。我也考虑过制作某种脚本来为我做这件事,但我真的不知道该怎么做。
那么,我在哪里可以找到很多主题分开的文件?
否则,如何对我的应用程序进行基准测试?
注意:我想一个简单的大型 .txt
文件(其中每一行代表一个关于主题的"file")也可以完成这项工作。
最佳答案
文本文件的一个来源是 Project Gutenberg .他们供应CD/DVD images如果您想一次下载数千个文件。 (该页面没有说明,但我想它们在 CD/DVD iso 中是 txt 格式。)
关于c# - 用于测试搜索引擎功能的文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8547799/