database - 大型公共(public)数据集？

标签 database performance dataset benchmarking

<分区>

关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。

我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。

关闭 8 年前。

Improve this question

我正在寻找一些大型公共(public)数据集，特别是:

已匿名化的大型网络服务器日志示例。
用于数据库性能基准测试的数据集。

任何其他指向大型公共(public)数据集的链接将不胜感激。我已经知道亚马逊的公共(public)数据集:http://aws.amazon.com/publicdatasets/

最佳答案

1. Large sample web server logs that have been anonymized.

开始这些工作:

UCI Machine Learning Repository

可用的数据集比这些多得多(请参阅其他答案的范围)，但这是满足您原始标准的最低悬而未决的成果。作为奖励，他们有 a contact link如果您有他们可能知道的特定需求。

2. Datasets used for database performance benchmarking.

这听起来用词不当，因为您要的是描述 well-defined 的经验数据集algorithmic problems .具体来说，听起来您正在尝试找到可用于实时测试和基准测试各种数据库系统的数据集，使用定义明确的规范化关系数据，这些数据可用作一组测试用例以确定满足您需求的最有效解决方案。

我不同意这种做法。与其寻找一连串的数据库系统及其固定实现，不如探索 algorithmic 更好。 guarantees这些系统作为您的第一个停靠港。一旦确定了满足您需求的算法约束，您就可以研究一组固定解决方案，您可以对这些解决方案的效率进行基准测试，例如索引、排序、搜索、插入、删除和检索。

维基百科提供a terse article on database testing concepts您可以使用它来确定和编写用于基准测试性能的测试用例。例如，您可以使用不可知的数据访问接口(interface)，如 JDBC和 JDBC Benchmark以确定每个操作的相对时序。从这里，您可以找到正确的解决方案。

简而言之，转到the research首先用于确定数据库保证。一旦确定了一组候选解决方案，您就可以通过测试(或以其他方式确定)每个所需操作的恒定时间性能来从中进行选择。

关于database - 大型公共(public)数据集？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/381806/

上一篇：database - 为每个客户端使用单个数据库有什么好处？

下一篇：database - 什么是缓存？

相关文章：

ruby-on-rails - 更改列名称 Rails

database - 存储过程是如何工作的

database - 多主到单从复制

c++ - 如何提高迭代精度？

javascript - 为什么 "use strict"在此示例中将性能提高 10 倍？

c# - 从 DataSet 创建 SQL Server 数据库

php - MySQL更新更新所有行？

php - 框架比较和开销

c# - DataTable与MySQL数据库同步的两种方式

matlab - 如何增加数据集？