<分区>
我正在寻找一些大型公共(public)数据集,特别是:
已匿名化的大型网络服务器日志示例。
用于数据库性能基准测试的数据集。
任何其他指向大型公共(public)数据集的链接将不胜感激。我已经知道亚马逊的公共(public)数据集:http://aws.amazon.com/publicdatasets/
<分区>
我正在寻找一些大型公共(public)数据集,特别是:
已匿名化的大型网络服务器日志示例。
用于数据库性能基准测试的数据集。
任何其他指向大型公共(public)数据集的链接将不胜感激。我已经知道亚马逊的公共(public)数据集:http://aws.amazon.com/publicdatasets/
最佳答案
1. Large sample web server logs that have been anonymized.
开始这些工作:
可用的数据集比这些多得多(请参阅其他答案的范围),但这是满足您原始标准的最低悬而未决的成果。作为奖励,他们有 a contact link如果您有他们可能知道的特定需求。
2. Datasets used for database performance benchmarking.
这听起来用词不当,因为您要的是描述 well-defined 的经验数据集algorithmic problems .具体来说,听起来您正在尝试找到可用于实时测试和基准测试各种数据库系统的数据集,使用定义明确的规范化关系数据,这些数据可用作一组测试用例以确定满足您需求的最有效解决方案。
我不同意这种做法。与其寻找一连串的数据库系统及其固定实现,不如探索 algorithmic 更好。 guarantees这些系统作为您的第一个停靠港。一旦确定了满足您需求的算法约束,您就可以研究一组固定解决方案,您可以对这些解决方案的效率进行基准测试,例如索引、排序、搜索、插入、删除和检索。
维基百科提供a terse article on database testing concepts您可以使用它来确定和编写用于基准测试性能的测试用例。例如,您可以使用不可知的数据访问接口(interface),如 JDBC和 JDBC Benchmark以确定每个操作的相对时序。从这里,您可以找到正确的解决方案。
简而言之,转到the research首先用于确定数据库保证。一旦确定了一组候选解决方案,您就可以通过测试(或以其他方式确定)每个所需操作的恒定时间性能来从中进行选择。
关于database - 大型公共(public)数据集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/381806/